Contextualização
Python é uma linguagem de programação de propósito geral e muito utilizada para análise de dados devido a sua sintaxe simples e legível e ao fato de possuir diversas bibliotecas que facilitam e agilizam o processamento e análise de dados. Dentre essas bibliotecas, destaca-se a biblioteca Pandas, que provê toda a infraestrutura necessária para lidar com as duas estruturas de dados fundamentais para a análise de dados: séries (1 dimensão) e DataFrames (2 dimensões).
A biblioteca Pandas é uma poderosa e flexível ferramenta de manipulação de dados que tornou o Python uma linguagem indispensável para a ciência de dados. Pandas não só facilita a limpeza e preparação dos dados, mas também fornece diversos recursos para a análise exploratória. Ainda, ela dispõe de funcionalidades que permitem a leitura e escrita de dados nos mais diversos formatos, dentre eles: CSV, Excel e SQL.
Importância de Pandas
A análise de dados é talvez a habilidade mais importante para qualquer cientista de dados. Já se foi o tempo em que as empresas dependiam apenas de relatórios para tomar decisões. Hoje, a competitividade acirrada e a consequente necessidade de otimização de processos para redução de custos levou as empresas a procurarem respostas utilizando os vastos conjuntos de dados que possuem. Nesse contexto, analistas que consigam utilizar as ferramentas adequadas para extrair valor destes dados são profissionais valiosos no mercado de trabalho.
No mundo da programação, não há uma maneira única de fazer as coisas, muitas são as formas e os caminhos para se atingir um objetivo. Dentre todas as ferramentas disponíveis, a biblioteca Pandas se destaca pela sua simplicidade e eficiência, sendo a escolha ideal para lidar com qualquer tipo de dado. Seja qual for o setor (finanças, marketing, operações, etc.), os princípios básicos da análise de dados são os mesmos e a biblioteca Pandas pode lidar com todos eles de maneira eficiente.
Sugestões de aprendizado
- [Python for Data Analysis] Este é um excelente livro para quem deseja se aprofundar em análise de dados utilizando Python e Pandas.
- [10 minutes to pandas] Esta é uma introdução rápida para novatos na biblioteca Pandas.
- [Pandas Profiling] Esta é uma excelente ferramenta que permite gerar relatórios exploratórios a partir de um DataFrame do Pandas de maneira muito fácil e rápida.
Atividade Prática
Análise de Dados de Vendas utilizando a Biblioteca Pandas
Objetivo do Projeto
O objetivo deste projeto é aplicar os conceitos fundamentais de Pandas na análise de um conjunto de dados de vendas reais. Os alunos terão a oportunidade de aplicar habilidades adquiridas como: ler e escrever arquivos usando Pandas, limpeza dos dados, manipulação de DataFrame, aplicação de funções e criação de visualizações.
Materiais Necessários
- Python instalado
- Biblioteca Pandas instalada
- IDE de escolha dos alunos (Jupyter Notebook, Google Colab, PyCharm, etc.)
- Conjunto de dados de vendas (pode ser fornecido pelo professor ou coletado pelos estudantes na internet)
Descrição Detalhada do Projeto
Os alunos irão trabalhar em grupos de 3 a 5 pessoas e analisar um conjunto de dados de vendas utilizando a biblioteca Pandas. Eles devem importar os dados, limpar e manipular os dados conforme necessário, e realizar uma análise exploratória. Os alunos devem criar visualizações para ajudar a entender os dados e as tendências das vendas.
O conjunto de dados de vendas deve conter, pelo menos, a data da venda, a localização da venda (cidade, estado, país, etc.), o valor da venda e a quantidade de itens vendidos.
Passo a Passo Detalhado
- Configure o ambiente de desenvolvimento e importe a biblioteca Pandas.
- Identifique e entenda o conjunto de dados que será analisado. Quais são as colunas? Que tipo de informação cada coluna representa?
- Importe os dados utilizando a função do Pandas correspondente ao formato do arquivo (.csv, .xlsx, .sql, etc.).
- Verifique a qualidade dos dados. Existem dados faltantes? Existe alguma inconsistência nos dados?
- Realize a limpeza dos dados se necessário (preenchimento ou exclusão de dados faltantes, correção de tipos de dados, remoção de duplicatas, etc.).
- Manipule os dados para criar novas indicações que possam ser de interesse para a análise (por exemplo, rendimento por venda, rendimento por item, etc.).
- Faça um agregado dos resultados por mês e por localização.
- Gere visualizações dos dados para entender as tendências das vendas.
Entregas do Projeto
Os alunos deverão entregar um notebook Python contendo todo o código-fonte do processo de importação, de limpeza, manipulação e análise dos dados. O notebook deve ser organizado e comentado, explicando o raciocínio por trás de cada etapa.
Junto do notebook, os alunos também devem entregar um documento escrito formatado nos seguintes tópicos:
- Introdução: explique a importância e a aplicabilidade da análise de dados de venda no mundo real, um resumo do conjunto de dados e os objetivos deste projeto.
- Desenvolvimento: descreva o passo a passo do processo, desde a importação até a análise final dos dados, incluindo: importação e verificação inicial dos dados, limpeza dos dados, manipulação dos dados e análise exploratória.
- Conclusões: aponte os principais resultados da análise. O que você pôde concluir sobre as vendas a partir dos seus dados? Quais foram as tendências que você identificou? Quais os principais conhecimentos adquiridos através desse trabalho em equipe?
- Bibliografia: liste todas as fontes utilizadas para elaboração do projeto, seja ela documentação oficial do Pandas, livros, páginas da web, vídeos, etc.
Os alunos devem, além disso, fazer uma apresentação em sala do seu trabalho, explicando o processo realizado e as conclusões tiradas do conjunto de dados.
O tempo estimado para a realização deste trabalho é de aproximadamente um mês, com carga horária de cinco a dez horas por aluno dependendo do tamanho do grupo.