Processo ETL do Projeto de Data Warehousing

Introdução

O tema deste projeto é a análise da rede de Instituições de Ensino Superior (IES) no Brasil. A proposta é compreender a distribuição dessas instituições, os recursos de que dispõem e a composição de seus corpos técnico e docente. Essa análise visa identificar deficiências e fornecer subsídios para políticas públicas voltadas ao ensino superior. Questões como disparidades regionais, diferenças entre instituições públicas e privadas, e características demográficas dos docentes são exemplos do tipo de investigação que o projeto busca viabilizar.

Os dados utilizados provêm do Censo da Educação Superior, realizado anualmente pelo INEP, que documenta informações detalhadas sobre as IES do país. Para complementar as análises, foram integrados dados geográficos e demográficos de municípios brasileiros, possibilitando comparações em diferentes níveis de granularidade.

O objetivo geral do trabalho é implementar um ambiente analítico que permita aos tomadores de decisão explorar os dados de forma prática e intuitiva, utilizando ferramentas de alto nível para gerar insights a partir de consultas e visualizações. Este documento foca no processo de ETL (Extração, Transformação e Carga), essencial para preparar os dados para as análises.

Processo ETL

Ferramentas e Fluxo Geral

Pentaho
Inicialmente, utilizamos o Pentaho para estruturar o fluxo ETL. No entanto, devido à grande quantidade de dados e limitações da ferramenta, migramos para o Google Colab.
Google Colab
No Colab, implementamos o processo ETL utilizando as bibliotecas pandas e SQLite para:
- Extração: Importar microdados do INEP e dados do IBGE.
- Transformação:
  - Limpeza e padronização das informações.
  - Geração de dimensões como Tempo, Localização Geográfica e Instituição.
  - Criação de chaves substitutas para relacionar tabelas de forma eficiente.
- Carga: Armazenar os dados transformados em tabelas relacionais no SQLite e exportar para arquivos CSV.

Conclusão

O processo ETL desenvolvido foi projetado para atender aos requisitos do projeto e possibilitar análises robustas e precisas. Embora eficiente, o fluxo pode ser aprimorado com o uso de ferramentas mais avançadas ou customizações específicas, conforme a evolução das necessidades analíticas.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
dados		dados
ETL.ipynb		ETL.ipynb
README.md		README.md
Relatório_Final___DW.pdf		Relatório_Final___DW.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Processo ETL do Projeto de Data Warehousing

Introdução

Processo ETL

Ferramentas e Fluxo Geral

Conclusão

About

Releases

Packages

Languages

danielshz/ies-etl

Folders and files

Latest commit

History

Repository files navigation

Processo ETL do Projeto de Data Warehousing

Introdução

Processo ETL

Ferramentas e Fluxo Geral

Conclusão

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages