banner

5 Fontes de Dados para Enriquecer Seu Portfólio

escrito por Fábio Kyrillos

4 minutos de leitura

null

Entenda como transformar dados acessíveis em projetos relevantes que aumentam sua visibilidade no mercado de dados.

Se você trabalha com análise de dados, uma das melhores formas de se destacar no mercado é criando projetos práticos que demonstrem suas habilidades com dados reais. Mas onde encontrar bons conjuntos de dados para treinar e aprimorar essas habilidades? Neste artigo, vamos explorar cinco sites que oferecem dados valiosos para você construir um portfólio robusto e diversificado.

1. World Bank Open Data: Dados Oficiais para Análises Globais

O World Bank Open Data é um dos maiores repositórios de dados econômicos e sociais do mundo. Criado pelo Banco Mundial, oferece informações sobre crescimento econômico, educação, saúde, meio ambiente e muito mais.

Como utilizar?

  • Baixe séries temporais para explorar tendências econômicas de diferentes países;
  • Crie dashboards interativos para visualizar indicadores sociais e comparar regiões;
  • Desenvolva modelos preditivos para estimar o crescimento econômico ou mudanças no mercado de trabalho.

Este é um site essencial para quem deseja atuar com análise de dados no setor público ou em pesquisas acadêmicas.

2. Registry of Open Data on AWS: Big Data na Nuvem

Se você precisa trabalhar com conjuntos de dados massivos, o Registry of Open Data on AWS é o lugar ideal. A plataforma oferece acesso a datasets hospedados na Amazon Web Services (AWS), permitindo análises robustas e escaláveis.

O que você pode fazer?

  • Trabalhar com imagens de satélite e modelagem geoespacial;
  • Explorar grandes volumes de dados genômicos e biológicos;
  • Criar projetos de aprendizado de máquina com conjuntos de dados em larga escala.

Se você quer demonstrar sua capacidade de trabalhar com big data e computação em nuvem, este é um excelente recurso.

3. Kaggle: O Melhor Espaço para Desafios de Dados

O Kaggle é uma comunidade online que oferece datasets gratuitos, competições de ciência de dados e notebooks executáveis diretamente na nuvem.

Por que utilizar?

  • Participe de desafios reais organizados por empresas e instituições;
  • Compartilhe notebooks e aprenda com outros cientistas de dados;
  • Construa um portfólio com soluções para problemas do mundo real.

O Kaggle é um dos melhores lugares para aprender novas técnicas, praticar machine learning e exibir projetos relevantes para recrutadores.

4. Mockaroo: Gere Seus Próprios Dados para Testes

Quando não encontramos um conjunto de dados adequado para um projeto específico, podemos criá-lo. O Mockaroo permite gerar dados falsos, porém realistas, ideais para testes e simulações.

Como utilizar?

  • Criar bases de dados sintéticas para testar aplicações e dashboards;
  • Simular dados de clientes, produtos e transações financeiras;
  • Gerar arquivos CSV, JSON e SQL personalizados para estudos e treinamentos.

Se você precisa de dados rapidamente para experimentar uma nova ferramenta ou validar um modelo, o Mockaroo é uma excelente opção.

5. ChatGPT: Gerando Código e Criando Dados Sob Demanda

Uma forma inovadora de criar conjuntos de dados personalizados é usando o ChatGPT. Com ele, você pode gerar scripts em Python para produzir dados específicos que não estão disponíveis na internet.

Como pedir dados ao ChatGPT?

  • Solicite um script em Python para gerar dados sintéticos com base em um padrão específico;
  • Peça um código que simule um banco de dados para treinar consultas SQL;
  • Gere dados em diferentes formatos, como JSON, CSV ou XML, conforme sua necessidade.

Essa é uma ferramenta prática para criar dados sob medida, testar ideias rapidamente e desenvolver projetos mais completos.

Exemplo de prompt para usar no ChatGPT:

  • Objetivo:
    Crie um script Python que gere 500.000 registros de vendas e os salve em arquivos CSV estruturados para um modelo de dados do tipo estrela.

Requisitos:

  1. Tabelas e Estrutura:

    • Fato_Vendas: Contém os registros de vendas com colunas:

      • ID_Pedido (único para cada venda)
      • Data_Venda (distribuída aleatoriamente dentro de um período)
      • ID_Produto (chave estrangeira para a dimensão Produto)
      • ID_Centro_Custo (chave estrangeira para a dimensão Centro de Custo)
      • Preço_Unitário
      • Quantidade
    • Dim_Produto: Contém informações sobre os produtos com colunas:

      • ID_Produto (chave primária)
      • Nome_Produto
      • Categoria
      • Preço_Base
    • Dim_Centro_Custo: Contém informações sobre os centros de custo com colunas:

      • ID_Centro_Custo (chave primária)
      • Nome_Centro_Custo
      • Região
  2. Geração de Dados:

    • Os valores devem ser gerados aleatoriamente, respeitando relações lógicas.
    • Os preços devem variar dentro de um intervalo realista para cada categoria de produto.
    • A quantidade deve seguir uma distribuição razoável para simular um cenário realista de vendas.
    • As datas devem estar distribuídas dentro de um intervalo específico (exemplo: últimos 2 anos).
  3. Formato de Saída:

    • Os dados devem ser salvos em três arquivos CSV:
      • fato_vendas.csv
      • dim_produto.csv
      • dim_centro_custo.csv
    • O separador dos arquivos deve ser , e o encoding deve ser utf-8.

Considerações:

  • O código deve ser eficiente para lidar com grandes volumes de dados.
  • Utilize bibliotecas como pandas e numpy para otimizar a geração e escrita dos arquivos.
  • O script deve ser modularizado, com funções separadas para gerar cada conjunto de dados.
  • O código deve ser bem comentado para facilitar futuras manutenções.

Essa abordagem oferece flexibilidade e agilidade na criação de bases de dados personalizadas para estudos e desenvolvimento de projetos.

Coloque seus Dados em Ação

Utilizar fontes de dados variadas é fundamental para expandir seu portfólio como analista de dados. O Banco Mundial traz dados econômicos globais, a AWS oferece acesso a big data, o Kaggle desafia suas habilidades com problemas reais, o Mockaroo permite gerar dados sob medida, e o ChatGPT entrega códigos personalizados para suas necessidades.

Se você quer se destacar no mercado, explore essas plataformas e comece a construir projetos impactantes agora mesmo!

Compartilhe esse post: