Desenvolver um pipeline ETL (Extract, Transform, Load) para processamento e análise de dados de vendas, gerando informações estruturadas para suporte à tomada de decisão.
- Extração de dados a partir de arquivo CSV
- Limpeza e padronização dos dados
- Tratamento de valores nulos
- Engenharia de atributos (criação de coluna de tempo)
- Geração de métricas de negócio
- Produção de múltiplos datasets prontos para análise
O pipeline gera os seguintes arquivos:
vendas_mensais.csv→ agregação de vendas por mêsvendas_categoria.csv→ vendas por categoriavendas_regiao.csv→ vendas por regiãotop_produtos.csv→ ranking dos produtos mais vendidos
etl-vendas-python/
│
├── data/
│ └── vendas.csv
├── output/
│ ├── vendas_mensais.csv
│ ├── vendas_categoria.csv
│ ├── vendas_regiao.csv
│ └── top_produtos.csv
├── scripts/
│ └── etl.py
└── README.md- Python
- Pandas
- Instale as dependências:
pip install pandas- Execute o pipeline:
python scripts/etl.pyEste projeto demonstra:
- Estruturação de pipelines de dados
- Organização de código em funções (ETL modular)
- Manipulação e transformação de dados com Pandas
- Geração de múltiplos outputs para análise
- Boas práticas em projetos de dados
- Adição de logs em arquivo
- Validação de dados
- Integração com banco de dados
- Automação do pipeline (agendamento)
Jessica Enes
Projeto desenvolvido com foco em portfólio na área de dados, simulando um cenário real de engenharia de dados.