Por que todo mundo quer virar Analytics Engineer? 📣

R + Spotify = amor Quanto valeriam as unicórnios nessa crise?

Fala, Data Hackers! Bem-vindos a mais uma news do DH!Pra quem tá ligado, ja sabe que Analytics Engineer é um cargo que faz - ou vai fazer - parte dos nossos times de Dados. Mas, por que que esse termo para uma posição tão imatura e recente tem sido tão disputado por empresas? Por que será que tem tanta gente migrando para esse cargo?No highlight dessa newsletter, trouxemos um texto de um dos maiores influencers do mundo de Dados atualmente botando várias doses de fatos e "futurologia" sobre Analytics Engineering.Mas essa edição tem muuuito conteúdo ainda. Hoje você vai ver sobre:

Não perca o prazo para concorrer ao prêmio mais importante de Data Storytelling do país!Se você é daqueles que gosta de uma emoção no envio do trabalho de faculdade? Se liga que o prazo para submissão ja é essa semana! Quer concorrer a um PS5, um Meta Quest 2 e um monitor portátil ASUS? Então agiliza aí!Dia 12 de Julho (Terça-Feira) as 23:59 BRT (Horário de Brasília)Não deixe de conferir as Regras da competição e fazer o upload do seu Notebook no Kaggle! (em Português)

Se você ainda não ouviu falar nesse novo cargo, você precisa voltar algumas casas nas nossas newsletters. A posição de Analytics Engineer surgiu nos últimos 3 anos e já corresponde a uma porcentagem relevante dos times de dados modernos por aí.Nesse artigo top do Benn Stancil, CAO e Co-Founder da Mode, um dos maiores influenciadores da nossa área, você vai entender os principais motivos do "hype" (?) desta nova profissão e como os ventos das mudanças nas Data Platforms e da Modern Data Stack estão influenciando no nosso dia-a-dia como Data Pros. Imperdível! (em Inglês)

Com a crescente de novos conceitos surgindo, como Lakehouse, Data Lakes e Data Mesh, fica cada vez mais complicado escolher uma técnica de modelagem para um Data Lake/DW/Lakehouse. Este post da galera do Databricks, traz as principais referências de modelagem, do Star Schema até o Bronze/Silver/Gold do Delta Lake, passando pelo, ás vezes esquecido, Data Vault. Imperdível! (em Inglês)

 

Existe uma máxima de que na linguagem R "existe um pacote para tudo"! Seguindo nesse mantra, a galera do Curso R postou um guia sobre um dos pacotes mais legais pra quem gosta de explorar dados musicais: o RSpotify. Com este pacote, é possível, em poucos passos, usar capturar dados sobre Artistas, Playlists e Músicas muito facilmente. Bem completo e simples de seguir, dá uma lida!

(em Português)

Se você não conhece o Pydantic, a hora é agora! É uma

que agiliza demais o data validation, garantindo que os formados dos campos de uma classe obedeça certos padrões. Agora, com a v2.0, o Pydantic está 17x mais rápido, pois seu core foi refeito em Rust, uma das linguagens mais performáticas da nova geração. (em Inglês)

TF-IDF (Term Frequence - Inverse Document Frequency) é uma forma algébrica de representar um texto dentro de um Corpus (uma série de textos). Essa forma é uma das mais utilizadas do mundo para implementação de buscas de texto e comparar similaridade entre eles. Nesse artigo, o Data Hacker Arthur Vaz explica como que funciona e quais formulas são usadas para esse método.

Em NLP, um dos grandes desafios é fazer Reconhecer e Definir Entidades. Nesse post incrível, a Data Hacker Beatriz Albuquerque fala de Named Entity Recognition, que é uma máquina entender Nomes - como Bia, São Paulo e Amazon - dentro de texto.

Live Data Hackers: Dicas de Data Storytelling e Visualização de DadosSe você ainda quer umas dicas para dar um tapa na sua submissão pro Challenge State of Data Brazil 2021, ainda há tempo! Chamamos 3 FERAS em Data Storytelling & Visualization para contarem quais são as formas e técnicas mais relevantes para se passar uma história ou uma conclusão através dos dados. Mesmo se você não vai participar do Challenge, as dicas do pessoal são infalíveis para quem quer entregar resultado de maneira efetiva para os seus usuários e clientes.(em Português)

VAGAS DA SEMANA

  • Forte conhecimento em SQL e Excel; NoSQL desejável. 

  • Exp. com ferramentas de Viz, como Tableau, Metabase;

  • Programação em Python, R, Scala, Etc;

  • Conhecimentos intermediários em Matemática | Estatística;

  • Análise descritiva, lógica e inferência;

  • Formação: graduação exatas;

  • Proficiência em Estatística e Machine Learning;

  • Conhecimento avançado em Python, R, SQL, etc;

  • Experiência com plataforma de Big Data (Hadoop, Spark, etc);

  • Inglês intermediário;

  • Cloud AWS é Diferencial.

Pra quem não tá no

: Você e o trabalho final do semestre que você já comemorou as 3 vezes que o professor adiou. Estamos de olho! 👁️👁️

Quem acompanhou nossa Live sobre os Layoffs e deu uma estudada no assunto, tá ligado na situação. Nesse post do excelente Snaq, eles mostram como cairam os valuations de 6 unicórnios desde seus últimos investimentos. Impressionante, não é mesmo? (em Inglês)

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso

.