Entrar

Projeto: Explorando e Visualizando Dados do Titanic com Python

Programação em Python

Original Teachy

Python para Ciência de Dados: Análise Exploratória de Dados

Introdução

A Ciência de dados é um campo interdisciplinar que usa métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights de dados estruturados e não estruturados. Ela envolve muitas áreas de estudo, tais como matemática, estatística, ciência da informação e ciência da computação, incluindo domínios como aprendizado de máquina, bancos de dados e visualização.

Python tornou-se uma das linguagens de programação mais populares para ciência de dados devido à sua simplicidade e à sua vasta coleção de bibliotecas. Ele é frequentemente usado para manipulação de dados, análise de dados e visualização de dados, os três componentes-chave da ciência de dados.

A Análise Exploratória de Dados (AED) é uma abordagem à análise de conjuntos de dados de modo a resumir suas características principais, frequentemente com métodos visuais. Normalmente é uma prática realizada antes de se proceder à modelagem de dados ou à análise formal; possui aplicações críticas na elaboração de hipóteses, tratamento de dados faltantes e seleção de características, pois uma boa AED pode apontar para determinadas direções de investigação e desdobramentos metodológicos.

Contextualização

A ciência de dados e a AED são extremamente relevantes nos dias de hoje. De analistas de negócios tentando entender as tendências do mercado a pesquisadores médicos tentando decifrar a relação entre fatores genéticos e doenças, a capacidade de extrair conhecimento a partir de dados é uma habilidade essencial na era digital.

Python, devido à sua facilidade de aprendizado para iniciantes e à extensão de suas bibliotecas, é uma das linguagens preferidas para a ciência de dados. Iniciação à Python e ao ambiente de programação Jupyter Notebook permite manipulação de dados eficiente, utilização robusta de algoritmos de aprendizado de máquina e capacidades de visualização potentes - todas ferramentas extremamente necessárias no kit de um cientista de dados.

Material de Apoio

Aqui estão alguns recursos recomendados para você se aprofundar no assunto:

  1. "Python for Data Analysis" por Wes McKinney: É um livro introdutório sobre manipulação de dados com Python, focado especificamente na biblioteca pandas.

  2. Site oficial do Python Oferece uma ampla gama de recursos, incluindo documentação, tutoriais e comunidade.

  3. Documentação Pandas Manual oficial da biblioteca pandas que oferece tutoriais e guias de referência.

  4. Documentação Matplotlib Manual oficial da biblioteca matplotlib que oferece tutoriais e guias de referência.

  5. Documentação Seaborn Manual oficial da biblioteca seaborn que oferece tutoriais e guias de referência.

  6. Documentação NumPy Manual oficial da biblioteca numpy que oferece tutoriais e guias de referência.

Sugerimos a leitura e prática dos conceitos básicos nestes materiais antes de prosseguir com o projeto.

Atividade Prática

Explorando e Visualizando Dados do Titanic com Python

Objetivo do projeto

A atividade tem por objetivo usar as habilidades de Python para ciência de dados e análise exploratória de dados para explorar, limpar e visualizar o conjunto de dados do Titanic, afim de gerar insights. Os alunos aprenderão como usar bibliotecas Python essenciais para análise de dados, como o Pandas, NumPy, Matplotlib e Seaborn.

Materiais Necessários

  1. Python instalado no computador.
  2. Instalação das bibliotecas necessárias: pandas, numpy, matplotlib, seaborn.
  3. Jupyter Notebook ou outro editor de Python.
  4. Conjunto de dados do Titanic: este conjunto de dados é um dos mais famosos para iniciantes e está disponível no Kaggle

Descrição detalhada do projeto

Os alunos vão explorar o conjunto de dados do Titanic, que dará a eles as informações sobre os passageiros que estavam a bordo do Titanic quando naufragou. Estas informações incluem a classe do passageiro, sexo, idade, número de irmãos/cônjuges a bordo, número de pais/filhos a bordo, tarifa do bilhete, cabine e se o passageiro sobreviveu ou não ao acidente. Com base nessa análise, os alunos farão previsões sobre os fatores que podem ter influenciado nas chances de sobrevivência dos passageiros.

Passo a passo detalhado para a realização da atividade

  1. Definição do grupo e instalação dos softwares: Cada grupo deverá ser formado por 3 a 5 alunos e todos devem certificar-se de que tenham o Python instalado em seus computadores e ambiente de programação Jupyter Notebook configurado. Também devem instalar as bibliotecas necessárias, como Pandas, Numpy, Matplotlib e Seaborn.

  2. Importação do conjunto de dados: Os alunos deverão importar o conjunto de dados do Titanic utilizando a biblioteca Pandas.

  3. Limpeza e pré-processamento dos dados: Os estudantes devem limpar os dados, lidando com dados ausentes e possíveis valores incorretos. Além disso, devem transformar os dados conforme necessário para a sua análise.

  4. Análise exploratória dos dados: Analisar as características principais do conjunto de dados, como o número de passageiros em cada classe, a idade média dos passageiros e a taxa de sobrevivência por classe e sexo.

  5. Visualização dos dados: Criar visualizações usando Seaborn e Matplotlib para mostrar as distribuições, relações e tendências identificadas na análise.

  6. Discussão dos resultados: Com base na visualização e análise de dados, discutir possíveis correlações e fatores que podem ter influenciado a taxa de sobrevivência no Titanic.

  7. Redigir o Relatório do Projeto: Após concluir a análise e discussão, o grupo deve redigir um relatório detalhado apresentando a introdução, o desenvolvimento da atividade prática, as conclusões finais e a bibliografia utilizada.

  • Introdução: Apresentar o tema do projeto, sua relevância e aplicação no mundo da ciência de dados, e o objetivo da atividade.
  • Desenvolvimento: Descrever detalhadamente o passo a passo de execução da atividade, explicando quais foram os desafios encontrados durante a manipulação e limpeza dos dados, a escolha das visualizações e discussão dos resultados.
  • Conclusão: Resumir as principais descobertas e aprendizados obtidos a partir da atividade prática, e explicar como isso contribuiu para a melhor compreensão de Python para ciência de dados e análise exploratória de dados.
  • Bibliografia: Indicar todas as fontes que basearam o grupo durante a execução do projeto, como livros, websites, vídeos, entre outros.

Os alunos terão uma semana para concluir a atividade e entregar o relatório. Eles terão que levar em consideração não só a aplicação de seus conhecimentos sobre Python, mas também a sua capacidade de colaborar em grupo e gerenciar o tempo adequadamente para o cumprimento do prazo.

Comentários mais recentes
Nenhum comentário ainda. Seja o primeiro a comentar!
Iara Tip

DICA DA IARA

Precisa de materiais para apresentar o tema do projeto em sala?

Na plataforma da Teachy você encontra uma série de materiais prontos sobre esse tema! Jogos, slides, atividades, vídeos, planos de aula e muito mais...

Quem viu esse projeto também gostou de...

Community img

Faça parte de uma comunidade de professores direto no seu WhatsApp

Conecte-se com outros professores, receba e compartilhe materiais, dicas, treinamentos, e muito mais!

Teachy logo

Reinventamos a vida dos professores com inteligência artificial

Instagram LogoLinkedIn LogoTwitter LogoYoutube Logo
BR flagUS flagES flagIN flagID flagPH flagVN flagID flagID flag
FR flagMY flagur flagja flagko flagde flagbn flagID flagID flagID flag

2025 - Todos os direitos reservados

Termos de usoAviso de PrivacidadeAviso de Cookies