4 minutos de leitura
O World Bank Open Data é um dos maiores repositórios de dados econômicos e sociais do mundo. Criado pelo Banco Mundial, oferece informações sobre crescimento econômico, educação, saúde, meio ambiente e muito mais.
Como utilizar?
Este é um site essencial para quem deseja atuar com análise de dados no setor público ou em pesquisas acadêmicas.
Se você precisa trabalhar com conjuntos de dados massivos, o Registry of Open Data on AWS é o lugar ideal. A plataforma oferece acesso a datasets hospedados na Amazon Web Services (AWS), permitindo análises robustas e escaláveis.
O que você pode fazer?
Se você quer demonstrar sua capacidade de trabalhar com big data e computação em nuvem, este é um excelente recurso.
O Kaggle é uma comunidade online que oferece datasets gratuitos, competições de ciência de dados e notebooks executáveis diretamente na nuvem.
Por que utilizar?
O Kaggle é um dos melhores lugares para aprender novas técnicas, praticar machine learning e exibir projetos relevantes para recrutadores.
Quando não encontramos um conjunto de dados adequado para um projeto específico, podemos criá-lo. O Mockaroo permite gerar dados falsos, porém realistas, ideais para testes e simulações.
Como utilizar?
Se você precisa de dados rapidamente para experimentar uma nova ferramenta ou validar um modelo, o Mockaroo é uma excelente opção.
Uma forma inovadora de criar conjuntos de dados personalizados é usando o ChatGPT. Com ele, você pode gerar scripts em Python para produzir dados específicos que não estão disponíveis na internet.
Como pedir dados ao ChatGPT?
Essa é uma ferramenta prática para criar dados sob medida, testar ideias rapidamente e desenvolver projetos mais completos.
Exemplo de prompt para usar no ChatGPT:
Requisitos:
Tabelas e Estrutura:
Fato_Vendas: Contém os registros de vendas com colunas:
ID_Pedido
(único para cada venda)Data_Venda
(distribuída aleatoriamente dentro de um período)ID_Produto
(chave estrangeira para a dimensão Produto)ID_Centro_Custo
(chave estrangeira para a dimensão Centro de Custo)Preço_Unitário
Quantidade
Dim_Produto: Contém informações sobre os produtos com colunas:
ID_Produto
(chave primária)Nome_Produto
Categoria
Preço_Base
Dim_Centro_Custo: Contém informações sobre os centros de custo com colunas:
ID_Centro_Custo
(chave primária)Nome_Centro_Custo
Região
Geração de Dados:
Formato de Saída:
fato_vendas.csv
dim_produto.csv
dim_centro_custo.csv
,
e o encoding deve ser utf-8
.Considerações:
pandas
e numpy
para otimizar a geração e escrita dos arquivos.Essa abordagem oferece flexibilidade e agilidade na criação de bases de dados personalizadas para estudos e desenvolvimento de projetos.
Utilizar fontes de dados variadas é fundamental para expandir seu portfólio como analista de dados. O Banco Mundial traz dados econômicos globais, a AWS oferece acesso a big data, o Kaggle desafia suas habilidades com problemas reais, o Mockaroo permite gerar dados sob medida, e o ChatGPT entrega códigos personalizados para suas necessidades.
Se você quer se destacar no mercado, explore essas plataformas e comece a construir projetos impactantes agora mesmo!