Como começar um projeto de Data Science em 2024?

E mais: Pesquisadores constatam que a pesquisa do Google realmente piorou muito; Os perrengues que ninguém te conta sobre produtizar LLMs.

Fala Data Hackers! Bora saber o que andou rolando no mundo dos dados nesses dias, com o mês de janeiro já caminhando pro fim?

Essa semana trazemos um guia de como começar um projeto de data science em 2024 considerando novas ferramentas surgidas nos últimos anos, uma pesquisa envolvendo universidades alemãs que confirmou como a pesquisa do Google piorou muito nos últimos anos e um artigo explicando dificuldades que podem surgir ao se desenvolver um produto utilizando um LLM.

Confira outros destaques da news de hoje:

Você já deve ter ouvido sobre o lançamento da nova Cloud Publica e Brasileira, que movimentou muitos rumores no mercado de tecnologia, certo? Pois agora você tem a chance de conhecer as estratégias e ambições da Magalu Cloud.

Neste novo episódio do maior podcast de dados do Brasil, chamamos o Vaner Vendramini — Field CTO na Magalu Cloud, para desmitificar tudo que está por de trás deste lançamento da primeira Cloud Brasileira em Hiperscala. Ouça aqui!

Quais ferramentas surgidas nos últimos anos não podem faltar no seu arsenal para criar projetos de data science e machine learning? Nesse artigo, meu amigo e co-fundador da comunidade Data Hackers Paulo Vasconcellos apresenta uma série de novos recursos e dá o contexto em que cada um deles pode ser utilizado. Pra quem trabalha com ciência de dados e machine learning, uma verdadeira mão na roda. (em Português)

Você já teve a impressão de que a pesquisa do Google vem piorando ao longo dos anos, ou mesmo já ouviu gente falando isso por aí? Pois, ao que tudo indica, não é só impressão.

Pesquisadores de três universidades alemãs analisaram os resultados da pesquisa por 7392 termos de avaliação do produto no Google, no Bing e no DuckDuckGo ao longo de um ano. Confira os resultados nesse artigo. (em Inglês)

Há um grande hype em torno de IA em geral, e principalmente no que envolve os LLMs (Large Language Models). Mas a realidade pode ser bem diferente: construir um produto real usando um LLM pode ser muito difícil.

Neste artigo, o product manager Philip Carter conta todas as dificuldades que teve desenvolvendo o Query Assistant, interface de consulta em linguagem natural lançada recentemente pela empresa americana honeycomb.io. (em Inglês)

OUTROS TÓPICOS

Um Plano de Desenvolvimento Individual (PDI) é uma ferramenta poderosa que permite planejar seu futuro no mundo corporativo considerando onde você quer chegar em curto, médio e longo prazo. Desenvolver um PDI, no entanto, pode ser difícil, por envolver diferentes metodologias e exigir muita dedicação. Neste artigo, a Data Hacker Giuliana de Jong apresenta um modelo funcional e dá dicas para facilitar o traçado desse plano, que pode ser determinante para o seu crescimento. (em Português)

O CEO da Meta, Mark Zuckerberg, anunciou que a companhia está desenvolvendo uma AGI (Artificial General Intelligence, ou inteligência artificial geral) de código aberto. Zuckerberg declarou que FAIR e GenAI, duas de suas equipes de pesquisa em IA, estão se aproximando com o objetivo de desenvolver uma IA completa e abrir seu código tanto quanto possível. A declaração foi feita depois de Sam Altman, CEO da OpenAI, ter feito comentários em que baixou o tom sobre os riscos existenciais de uma AGI, e depois que Yann LeCun, cientista chefe da Meta, ter se mostrado cético quanto ao desenvolvimento de uma AGI nos próximos anos. (em Inglês)

A Runway, empresa de IA sediada em NY responsável pelo modelo de geração de vídeos RunwayNL, acaba de anunciar um novo recurso para seu modelo: agora, será possível selecionar elementos nos vídeos gerados e fazer com que eles se movimentem de forma independente. Vale conferir o vídeo que a empresa divulgou demonstrando esse novo recurso. (em Inglês)

Com mais vivência de ciência de dados do que de engenharia de dados, o Data Hacker Gustavo Santos se propôs a criar um Data Pipeline do zero em apenas dois dias, até como forma de aprendizado. O pipeline deveria obter dados financeiros do setor de telecom, limpá-los, organizá-los, prepará-los para analistas e clientes em um banco de dados PostgreSQL e apresentar um relatório do Power BI com insights. Neste artigo, ele conta como foi o processo e tudo que aprendeu na jornada. (em Português)

DICA DE VÍDEO

Bill Gates recebeu Sam Altman, CEO da OpenAI e nome mais comentado do mundo quando se fala em IA, para gravar um episódio do seu podcast. Esse vídeo apresenta uma conversa franca entre as duas celebridades da tecnologia, passando por tópicos como porque os modelos de IA hoje são estúpidos em relação ao que vem por aí, como as sociedades se adaptam às mudanças tecnológicas e até onde a humanidade vai buscar propósito depois que a IA for totalmente aperfeiçoada. (em Inglês)

P.S: Se você não for muito de vídeo, pode conferir os principais tópicos da conversa neste artigo.

VAGAS DA SEMANA

Campinas-SP - Híbrido

  • Formação em Ciência da Computação, Sistemas de Informação ou relacionadas;

  • Experiência como desenvolvedor Power BI ou especialista em dataviz;

  • Proficiência em Power BI, incluindo linguagens DAX e M;

  • Experiência em liderança e excelente capacidade analítica;

  • Inglês avançado;

  • Certificação Power BI (diferencial);

  • Familiaridade com outras ferramentas BI, modelagem de dados, processos ETL, SQL, princípios de banco de dados (diferencial);

  • Conhecimentos em Python e experiência com a Microsoft Power Platform (diferencial).

Remoto

  • Formação em BI, Finanças, Engenharia, Estatística, Ciência da Computação, Matemática ou similares;

  • Experiência com visualização de dados usando Tableau, Quicksight ou similares;

  • Conhecimento de SQL e conceitos de data warehousing;

  • Experiência em usar SQL para extrair dados de um banco de dados ou data warehouse e em criar scripts (Python) para processar dados para modelagem;

  • Experiência com solução AWS como EC2, DynamoDB, S3 e Redshift (diferencial);

  • Ter conhecimento prático em Airflow, catálogos de metadados, Apache Spark (diferencial).

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

O que não falta nessa época do ano são previsões do que deve acontecer em relação a tecnologia e inovação, certo? (Inclusive chegamos a indicar um artigo na última newsletter). Mas não precisa ler todas, já que um dataviz pode facilitar sua vida: o pessoal do Visual Capitalist analisou mais de 700 artigos, reports podcasts e entrevistas e reuniu tudo que parece ser praticamente consenso entre os especialistas. Informação rápida e direto ao ponto! (em Inglês)

  • 31 de janeiro - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo

trução