Categorias
Engenharia de Software

data science com filmes

Tudo começou quando eu vi os vídeos do Atila sobre o COVID-19 e ali aparecia uns gráficos interessantes baseados nos dados da OMS.

Com o contato divulgado nos créditos do vídeo, encontrei o Peixe Babel e achei os fontes aqui; depois resolvi tentar gerar os gráficos no meu computador.

E quem disse que eu entendia alguma coisa ?
Ah tá, instala o ambiente e roda… consegui instalar, mas nada de funcionar… desisti.

Aí veio a Alura e lança o rico e divertido Quarentena dados com 5 aulas para iniciar em data science.

Vou resumir aqui minhas conclusões com os dados que peguei do IMDB (Internet Movie Database) , quem se interessar pode olhar os fontes no Github.

    As notas mais comuns dos filmes estão entre 7 e 8

Aqui colocamos uma representação de histograma de todas as notas.

    Filmes com mais votos são blockbusters

Aqui ordenamos os filmes pela quantidade de votos (e não pela maior média, como o site IMDB faz)

    Nem todos filmes com mais votos e maiores notas são blockbusters

Tentando relacionar avaliação e quantidade, ordenei os filmes considerando a nota média ao quadrado multiplicado pela quantidade de votos.

Espero que gostem, qualquer sugestão aceito pull requests =)

Fernando Boaglio, para a comunidade