Dados limpos para o Certificado Profissional de Análise de Dados do Google.
| Curso | Semana | Seção | Conjuntos |
|---|---|---|---|
| 4 | 3 | Transformando dados | customer_purchase.csv |
| 5 | 1 | Classificar dados usando SQL | movies.csv |
| 5 | 3 | Usar instruções JOIN para agregar dados no SQL | employees.csv e departments.csv |
| 6 | 2 | Introdução ao Tableau | co2.csv |
| 6 | 2 | Trabalhar com várias fontes de dados | co2.xlsx, energy.csv, gdptotal.csv e totalpopulation.csv |
| 7 | 2 a 4 | Atividades práticas com R Markdown | Veja abaixo em mais informações |
O que muda:
- Suporte para caracteres especiais
- Pontos e não vírgulas nas casas decimais
- Adequações nos tipos de dados
- Cabeçalhos destraduzidos para que as consultas fiquem como nos vídeos
Alguns campos são mantidos sujos quando a atividade consiste em limpá-los.
Clique para mais informações
Seção: Transformando dados
Conjunto de dados: customer_purchase.csv
Corrige o seguinte erro de importação para o BigQuery usando o esquema indicado:
Falha na criação da tabela: Error while reading data, error message: Could not parse 'USD 13,99' as DOUBLE for field product_price (position 6) starting at location 119 with message 'Unable to parse'.
Remove a marcação de moeda "USD", que não permite a importação como um tipo float pelo esquema fornecido. Essa conversão de tipo seria parte da atividade, mas não deveria impossibilitar a importação do conjunto.
Seção: Classificar dados usando SQL
Conjunto de dados: movies.csv
Substitui os caracteres especiais, resolvendo um problema de codificação. O script usado para normalizar e substituir as ocorrências está disponível na pasta scripts.
Seção: Usar instruções JOIN para agregar dados no SQL
Conjuntos de dados: employees.csv e departments.csv
Desfaz a tradução dos cabeçalhos para que correspondam ao vídeo.
Seção: Introdução ao Tableau
Conjuntos de dados: co2.csv
Corrige e destraduz os nomes e códigos dos países, permitindo a identificação como dados geográficos pelo Tableau.
Para automatizar a correção, foi usado um arquivo CSV com cada código ISO-3166 e um script. Ambos estão disponíveis na pasta scripts.
Seção: Trabalhar com várias fontes de dados
Conjuntos de dados: co2.xlsx, energy.csv, gdptotal.csv e totalpopulation.csv
Corrige e destraduz os nomes e códigos dos países, permitindo que o Tableau os identifique como dados geográficos. Sem isso não é possível gerar uma visualização de mapa como pedido.
Corrige os valores decimais para pontos no lugar das vírgulas e destraduz os cabeçalhos para que apareçam como nos vídeos.
Os arquivos .Rmd disponibilizados para download vêm com a extensão .txt. Para que eles funcionem no RStudio você precisa renomear o final do nome do arquivo para .Rmd.
Se estiver no Windows e não conseguir ver a extensão no final do nome dos arquivos, você precisa habilitar a exibição.
Para as atividades que usam o conjunto hotel_bookings.csv, o arquivo baixado diretamente do Coursera causa o seguinte erro no RStudio:
Error in nchar(x, "width") : invalid multibyte string, element 1
Para baixar o arquivo CSV original, abra o link da atividade no RStudio Cloud (que aparece na própria página de cada atividade) e use o navegador de arquivos para acessar o conjunto: Course 7 -> Week 3 -> hotel_bookings.csv
Se apesar disso você ainda tiver erros ou caracteres estranhos nos arquivos R Markdown, por favor me envie uma mensagem com o título da atividade.
Se deseja utilizar os arquivos originais em inglês, você consegue baixá-los no link fornecido para o projeto no RStudio Cloud. Usando o painel de arquivos, selecione a pasta inteira e clique em More -> Export. Assim você baixa um arquivo compactado com a versão original.
Os dados aqui disponíveis são provenientes de conjuntos públicos de dados ou são dados demonstrativos mostrados no conteúdo da certificação.
Fontes de dados e licenças:
- Banco Mundial
co2.xlsxeco2.csv: CC BY-NC 4.0totalpopulation.csv: CC BY-4.0gdptotal.csv: CC BY-4.0
- IMDb
movies.csv: IMDb non-commercial licensing
- Dados de exemplo da certificação
customer_purchase.csvemployees.csvedepartments.csv