Introdução
A Ciência de dados é um campo interdisciplinar que usa métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights de dados estruturados e não estruturados. Ela envolve muitas áreas de estudo, tais como matemática, estatística, ciência da informação e ciência da computação, incluindo domínios como aprendizado de máquina, bancos de dados e visualização.
Python tornou-se uma das linguagens de programação mais populares para ciência de dados devido à sua simplicidade e à sua vasta coleção de bibliotecas. Ele é frequentemente usado para manipulação de dados, análise de dados e visualização de dados, os três componentes-chave da ciência de dados.
A Análise Exploratória de Dados (AED) é uma abordagem à análise de conjuntos de dados de modo a resumir suas características principais, frequentemente com métodos visuais. Normalmente é uma prática realizada antes de se proceder à modelagem de dados ou à análise formal; possui aplicações críticas na elaboração de hipóteses, tratamento de dados faltantes e seleção de características, pois uma boa AED pode apontar para determinadas direções de investigação e desdobramentos metodológicos.
Contextualização
A ciência de dados e a AED são extremamente relevantes nos dias de hoje. De analistas de negócios tentando entender as tendências do mercado a pesquisadores médicos tentando decifrar a relação entre fatores genéticos e doenças, a capacidade de extrair conhecimento a partir de dados é uma habilidade essencial na era digital.
Python, devido à sua facilidade de aprendizado para iniciantes e à extensão de suas bibliotecas, é uma das linguagens preferidas para a ciência de dados. Iniciação à Python e ao ambiente de programação Jupyter Notebook permite manipulação de dados eficiente, utilização robusta de algoritmos de aprendizado de máquina e capacidades de visualização potentes - todas ferramentas extremamente necessárias no kit de um cientista de dados.
Material de Apoio
Aqui estão alguns recursos recomendados para você se aprofundar no assunto:
-
"Python for Data Analysis" por Wes McKinney: É um livro introdutório sobre manipulação de dados com Python, focado especificamente na biblioteca pandas.
-
Site oficial do Python Oferece uma ampla gama de recursos, incluindo documentação, tutoriais e comunidade.
-
Documentação Pandas Manual oficial da biblioteca pandas que oferece tutoriais e guias de referência.
-
Documentação Matplotlib Manual oficial da biblioteca matplotlib que oferece tutoriais e guias de referência.
-
Documentação Seaborn Manual oficial da biblioteca seaborn que oferece tutoriais e guias de referência.
-
Documentação NumPy Manual oficial da biblioteca numpy que oferece tutoriais e guias de referência.
Sugerimos a leitura e prática dos conceitos básicos nestes materiais antes de prosseguir com o projeto.
Atividade Prática
Explorando e Visualizando Dados do Titanic com Python
Objetivo do projeto
A atividade tem por objetivo usar as habilidades de Python para ciência de dados e análise exploratória de dados para explorar, limpar e visualizar o conjunto de dados do Titanic, afim de gerar insights. Os alunos aprenderão como usar bibliotecas Python essenciais para análise de dados, como o Pandas, NumPy, Matplotlib e Seaborn.
Materiais Necessários
- Python instalado no computador.
- Instalação das bibliotecas necessárias: pandas, numpy, matplotlib, seaborn.
- Jupyter Notebook ou outro editor de Python.
- Conjunto de dados do Titanic: este conjunto de dados é um dos mais famosos para iniciantes e está disponível no Kaggle
Descrição detalhada do projeto
Os alunos vão explorar o conjunto de dados do Titanic, que dará a eles as informações sobre os passageiros que estavam a bordo do Titanic quando naufragou. Estas informações incluem a classe do passageiro, sexo, idade, número de irmãos/cônjuges a bordo, número de pais/filhos a bordo, tarifa do bilhete, cabine e se o passageiro sobreviveu ou não ao acidente. Com base nessa análise, os alunos farão previsões sobre os fatores que podem ter influenciado nas chances de sobrevivência dos passageiros.
Passo a passo detalhado para a realização da atividade
-
Definição do grupo e instalação dos softwares: Cada grupo deverá ser formado por 3 a 5 alunos e todos devem certificar-se de que tenham o Python instalado em seus computadores e ambiente de programação Jupyter Notebook configurado. Também devem instalar as bibliotecas necessárias, como Pandas, Numpy, Matplotlib e Seaborn.
-
Importação do conjunto de dados: Os alunos deverão importar o conjunto de dados do Titanic utilizando a biblioteca Pandas.
-
Limpeza e pré-processamento dos dados: Os estudantes devem limpar os dados, lidando com dados ausentes e possíveis valores incorretos. Além disso, devem transformar os dados conforme necessário para a sua análise.
-
Análise exploratória dos dados: Analisar as características principais do conjunto de dados, como o número de passageiros em cada classe, a idade média dos passageiros e a taxa de sobrevivência por classe e sexo.
-
Visualização dos dados: Criar visualizações usando Seaborn e Matplotlib para mostrar as distribuições, relações e tendências identificadas na análise.
-
Discussão dos resultados: Com base na visualização e análise de dados, discutir possíveis correlações e fatores que podem ter influenciado a taxa de sobrevivência no Titanic.
-
Redigir o Relatório do Projeto: Após concluir a análise e discussão, o grupo deve redigir um relatório detalhado apresentando a introdução, o desenvolvimento da atividade prática, as conclusões finais e a bibliografia utilizada.
- Introdução: Apresentar o tema do projeto, sua relevância e aplicação no mundo da ciência de dados, e o objetivo da atividade.
- Desenvolvimento: Descrever detalhadamente o passo a passo de execução da atividade, explicando quais foram os desafios encontrados durante a manipulação e limpeza dos dados, a escolha das visualizações e discussão dos resultados.
- Conclusão: Resumir as principais descobertas e aprendizados obtidos a partir da atividade prática, e explicar como isso contribuiu para a melhor compreensão de Python para ciência de dados e análise exploratória de dados.
- Bibliografia: Indicar todas as fontes que basearam o grupo durante a execução do projeto, como livros, websites, vídeos, entre outros.
Os alunos terão uma semana para concluir a atividade e entregar o relatório. Eles terão que levar em consideração não só a aplicação de seus conhecimentos sobre Python, mas também a sua capacidade de colaborar em grupo e gerenciar o tempo adequadamente para o cumprimento do prazo.