Entrar

Projeto: Construindo um Modelo de Predição de Preços de Casas Utilizando Python e Scikit-Learn

Programação em Python

Original Teachy

Python para Machine Learning: Introdução à Biblioteca Scikit-learn

Contextualização

Introdução

Bem-vindo ao nosso projeto "Python para Machine Learning: Introdução à Biblioteca Scikit-learn". O aprendizado de máquina é um subcampo da inteligência artificial que se baseia em métodos estatísticos para permitir que as máquinas aprendam com dados sem serem explicitamente programadas para isso. Ele é usado em uma variedade de aplicações, desde reconhecimento de voz e de imagem até previsões de mercado de ações. Scikit-learn é uma biblioteca poderosa da linguagem de programação Python que fornece uma seleção de algoritmos supervisionados e não supervisionados eficientes e fáceis de usar.

Aprendizado de máquina geralmente é dividido em duas categorias principais: Aprendizado supervisionado e Aprendizado não supervisionado. No aprendizado supervisionado, tentamos prever uma saída com base em uma ou mais entradas com base em um conjunto de exemplos previamente observados. No aprendizado não supervisionado, procuramos identificar padrões e relações previamente desconhecidos nos dados sem ter nenhuma variável objetivo em mente.

Scikit-learn é uma biblioteca de código aberto que é popular devido à sua grande variedade de recursos, documentação bem escrita e eficiência. Ela fornece várias ferramentas para a preparação de dados e a avaliação de modelos, além de uma interface uniforme para a implementação e o ajuste dos algoritmos de aprendizado de máquina.

Relevância do Machine Learning e do Python

Seja no setor empresarial, na saúde, na ciência espacial ou nos serviços financeiros, o aprendizado de máquina tem um papel vital a desempenhar na tomada de decisões baseadas em dados. Por exemplo, os algoritmos de aprendizado de máquina permitem que as empresas identifiquem comportamentos de compra de clientes e prevejam demandas futuras. Na saúde, eles são usados para prever a ocorrência de doenças baseando-se em vários indicadores de saúde.

Python surgiu como a linguagem preferida para o aprendizado de máquina devido à sua facilidade de uso e à grande quantidade de bibliotecas de alto desempenho que torna mais fácil implementar todos os aspectos do aprendizado de máquina, desde a limpeza e preparação dos dados até a modelagem e a validação. Especialmente, a biblioteca Scikit-learn tem capacidades muito poderosas e oferece uma interface consistente para a implementação e o ajuste de uma ampla variedade de algoritmos de aprendizado de máquina.

Materiais Complementares

Para melhor compreensão dos temas tratados neste projeto, desenvolvamos os seguintes materiais:

  • Tutorial interativo de Python: BitDegree Python Tutorial: Learn Python Programming Online.
  • Tutorial sobre aprendizado de máquina: Machine Learning Crash Course Google’s fast-paced, practical introduction to machine learning
  • Documentação do Scikit-learn: Scikit-learn’s own comprehensive tutorials.

Atividade Prática

Construindo um Modelo de Predição de Preços de Casas Utilizando Python e Scikit-Learn

Objetivo da Atividade

O objetivo deste projeto é dar aos alunos a oportunidade de aplicar de maneira prática o conhecimento adquirido sobre Python e Scikit-Learn para construir um modelo de aprendizado de máquina. O projeto envolve o uso dos conceitos básicos de Python e Scikit-Learn para implementar um modelo de regressão que possa prever os preços dos imóveis com base em várias características.

Materiais Necessários

  1. Computador com acesso à internet
  2. Ambiente de desenvolvimento Python (Anaconda Navigator é recomendado)
  3. Bibliotecas Python como pandas, numpy, matplotlib, seaborn e scikit-learn

Descrição Detalhada do Projeto

Os alunos irão trabalhar em equipes de 3 a 5 membros. O projeto deve ser iniciado com uma reunião de brainstorming para discussão dos dados, considerando suas características e como eles podem estar relacionados ao preço de uma casa.

Os alunos irão manipular um conjunto de dados público que lista o preço de várias casas junto com características como área, número de quartos, localização, etc. Será usada a biblioteca Scikit-learn para criar um modelo de regressão e o modelo será treinado usando os dados fornecidos.

Será considerado nesse projeto apenas um algoritmo de aprendizado de máquina: Regressão Linear. Sua implementação deverá seguir o padrão de sintaxe e hierarquia de classes do Scikit-Learn.

Passo a Passo Detalhado para a Realização da Atividade

  1. Coleta de Dados: Use a biblioteca Pandas para carregar o conjunto de dados em um DataFrame. O conjunto de dados pode ser obtido gratuitamente no Kaggle

  2. Análise de Dados: Use técnicas de visualização de dados, tais como gráficos de dispersão e gráficos de correlação, para entender a relação entre as diferentes características e o preço da casa.

  3. Preparação de Dados: Use a biblioteca Scikit-Learn para limpar os dados e prepará-los para a modelagem. Isso deve incluir a imputação de valores ausentes, a normalização de recursos, a codificação de variáveis categóricas, e a seleção de recursos.

  4. Modelagem de Machine Learning: Use a biblioteca Scikit-Learn para treinar um modelo de regressão linear. Isso deve incluir a seleção de modelos, o ajuste de parâmetros e a avaliação de modelos.

  5. Validação do Modelo: Avalie o modelo usando métricas adequadas, como o erro quadrático médio (RMSE) e o coeficiente de determinação (R^2).

  6. Interpretação dos Resultados: Analise e discuta os resultados obtidos.

    O projeto deve ser concluído em uma semana.

Entregáveis

Ao final do projeto, os alunos devem entregar:

  1. Código Python: Todo o código Python usado no projeto, com comentários explicativos sobre cada passo.

  2. Documento Escrito: Um relatório detalhado contendo a seguinte estrutura:

    1. Introdução: Contextualize o tema, sua relevância e aplicação no mundo real em geral e o objetivo deste projeto em particular.

    2. Desenvolvimento: Explicitar a teoria por trás do(s) tema(s) central(is) do projeto, explicar a atividade em detalhes, indicar a metodologia utilizada e por fim apresentar e discutir os resultados obtidos. A seção deve incluir:

      • Relevância e detalhes do conjunto de dados escolhido
      • Processo de análise e preparação dos dados
      • Implementação do modelo de Machine Learning
      • Avaliação e interpretação dos resultados
    3. Conclusão: Retomar os pontos principais do projeto e explicitar os aprendizados obtidos. Sugerir melhorias ou próximos passos para futuras investigações.

    4. Bibliografia: Indicar as fontes que se basearam para trabalhar no projeto.

Todos os códigos, dados e documentação devem ser compilados em um único repositório do GitHub, que será submetido para avaliação.

Iara Tip

DICA DA IARA

Precisa de materiais para apresentar o tema do projeto em sala?

Na plataforma da Teachy você encontra uma série de materiais prontos sobre esse tema! Jogos, slides, atividades, vídeos, planos de aula e muito mais...

Quem viu esse projeto também gostou de...

Community img

Faça parte de uma comunidade de professores direto no seu WhatsApp

Conecte-se com outros professores, receba e compartilhe materiais, dicas, treinamentos, e muito mais!

Teachy logo

Reinventamos a vida dos professores com inteligência artificial

Instagram LogoLinkedIn LogoTwitter LogoYoutube Logo
BR flagUS flagES flagIN flagID flagPH flagVN flagID flagID flag
FR flagMY flagur flagja flagko flagde flagbn flagID flagID flagID flag

2023 - Todos os direitos reservados

Termos de usoAviso de PrivacidadeAviso de Cookies