Avanço da IA Generativa faz Stack Overflow demitir 100 pessoas 😢

E mais: Desafios de ingestão de dados; Como reduzir (absurdamente) custos de LLMs; Como se sentir preparado para entrevistas de emprego em dados;

Como vocês estão, galera dos dados? Bora pra mais um giro pelas notícias mais quentes sobre dados, IA e tecnologia?

*Obs: Antes de começar a ler a newsletter uma pergunta rápida: Já respondeu a pesquisa State of Data Brazil 2023?

Que tal contribuir com a pesquisa (não leva nem 10 minutos) e ajudar a comunidade Data Hackers a construir o maior panorama do mercado de trabalho em dados do Brasil? Para participar clique aqui!

Estamos completando 5 anos do Podcast Data Hackers e, para comemorar, fizemos mais um episódio com o UFB (Ultimate Fighting Buzzwords), a competição pra eleger a buzzword mais chata do mundo dos dados! Polêmicas à parte, nos divertimos muito fazendo esse episódio e esperamos que vocês se divirtam muito escutando.

Além disso, trazemos ainda um excelente artigo sobre as possibilidades para melhorar questões de ingestão de dados e a demissão de mais de 100 funcionários pelo Stack Overflow, que coincide com o boom da IA generativa aplicada a várias áreas, inclusive à programação.

Confira alguns dos destaques da news de hoje:

A pesquisa State of Data Brazil é um dos maiores projetos da comunidade Data Hackers e, neste ano, estamos preparados para entregar uma fonte inestimável de informações sobre carreiras, salários, desafios dos profissionais, tendências e novas tecnologias. Com a união e dedicação da nossa comunidade, conseguimos mapear dados cruciais que podem mudar a forma como você enxerga seu futuro profissional.

Mas a cereja do bolo? Ao concluir a pesquisa, você terá acesso imediato a um relatório exclusivo, feito pela própria comunidade com um panorama do mercado atual e ao final da pesquisa State of Data todos os participantes da comunidade terão acesso a um dataset super completo para utilizar como preferir.

Imagine as possibilidades! Desde a criação de conteúdo e aprimoramento de suas habilidades em análise de dados até a construção de um portfólio mais robusto, ou até mesmo fazer suas próprias análises antes de abordar seu chefe e pedir aquele merecido aumento - mas desta vez, baseado em dados.

Sendo assim, não precisamos nem mesmo explicar sobre a importância que todos respondam o formulário, uma vez que a qualidade dos resultados da pesquisa depende inteiramente da participação do maior volume possível de profissionais de dados. A pesquisa é bem objetiva e foi planejada com muito critério, o tempo para responder é estimado em 10 minutos.

E aí o que está esperando? Sua participação é crucial para o sucesso deste projeto. Podemos contar com você?

São 5 anos do Podcast Data Hackers! E 3 anos desde que lançamos o nosso episódio mais polêmico: o UFB (Ultimate Fighting Buzzword), competição pra eleger a buzzword mais chata do mundo dos dados. Hoje, com quase 800 mil downloads dos nossos episódios, atendemos o pedido da comunidade e fizemos um novo episódio elegendo as novas buzzwords mais irritantes quando se fala em dados, afinal muita coisa mudou nesses anos. Uma forma de celebrar todo esse tempo que vocês têm nos acompanhado, e claro, darmos umas boas risadas.

Além dos nossos Community Managers que vocês já conhecem (Marlesson Santana, Pietro Oliveira e o Mario Filho), temos também a participação da Monique Femme, nossa Head Community Management, que estreia nessa edição. Todos participamos juntos dessa conversa para decidirmos quais são as buzzwords mais irritantes no mundo de dados, tecnologia e negócio.

Mas repetimos o disclaimer da primeira edição: esse episódio tem como objetivo único e exclusivo o entretenimento. As brincadeiras que fizemos não refletem nossa opinião, e por favor não levem tão a sério nenhuma das piadas que fazemos, ok?

A ingestão de dados é uma das maiores dores de cabeça para os data engineers desde sempre. Mover dados de A para B geralmente é chato, trabalhoso e propenso a uma série de erros.

Este artigo expõe como as plataformas Fivetran, Airbyte, Singer, dltHub e CloudQuery estão abordando a integração de dados e mostra que, ainda que nunca tenhamos uma solução definitiva para a questão, há formas de tornar essa integração mais confiável, sustentável e barata. (em Inglês)

Essa semana, o Stack Overflow, conhecido fórum de programadores que permite aprender e tirar dúvidas, demitiu mais de 100 funcionários, cerca de 28% de seu quadro. Essa demissão acontece apenas um ano depois do fórum ter dobrado seu número de funcionários.

A demissão coincide com o boom da IA generativa e a incorporação dos modelos por ferramentas de programação, permitindo ao público aprender e tirar dúvidas na própria ferramenta. Fica a dúvida: será que o Stack Overflow vai resistir? (em Inglês)

OUTROS TÓPICOS

A implementação de um pipeline para jobs Spark é essencial para otimizar o desenvolvimento e implantação de aplicações de processamento de dados em larga escala. Neste artigo, o Data Hacker Ricardo Junior mostra como construir um pipeline robusto usando tecnologias como Kubernetes, ArgoCD e GitLab, levando assim a uma orquestração e deploy eficiente de jobs Spark. (em Português)

A equipe de culinária do New York Times enfrenta desde sempre um desafio: com milhares de receitas no arquivo, como saber quais recomendar semanalmente aos usuários, ainda mais considerando fatores como tipo de dieta, tempo de preparo e ingredientes? Algum tempo atrás, eles começaram a usar Machine Learning para recomendar receitas aos leitores de acordo com suas interações no passado. Este artigo detalha o funcionamento do algoritmo e como tem sido a experiência. (em Inglês)

Natural Language Processing, mais conhecido como NLP, é um campo que envolve computação e linguística e que tem evoluiu muito recentemente, com os modelos GPT na vanguarda dessa evolução. Seria possível, contudo, usar os modelos GPT para interpretar linguagem natural e transformar perguntas em consultas SQL? Confira neste artigo como foram as tentativas feitas pelos autores e quais os resultados obtidos. (em Inglês)

Você se sente preparado para uma entrevista de emprego na área de dados? Se você respondeu “não”, saiba que está longe de ser o único. Nesse artigo, o engenheiro de dados Zach Quinn conta sua experiência e expõe o que acredita ser o principal motivo de reprovações em entrevistas: as pessoas se preocupam demais em responder as perguntas e se esquecem que estão contando sua história. (em Inglês)

O uso dos Large Language Models (LLMs) está cada vez mais popular, mas usá-los para grandes aplicações pode ser muito caro, com os custos batendo centenas ou mesmo milhares de dólares por dia. Esse artigo mostra formas de reduzir os custos ao usar os modelos com base em três estratégias: adaptação do prompts, aproximação do LLM e cascateamento do LLM. (em Inglês)

DICA DE VÍDEO

Duvida que seja possível explicar o que é Ciência de Dados em 100 segundos? Então assista esse vídeo, que acabou se tornando um clássico do nosso canal. Informação rápida e precisa no mínimo de tempo (e uma ótima pra explicar pra pais, tios e avós qual é o seu trabalho). Esse video já foi postado aqui ano passado, mas muita gente ainda não teve a oportunidade de ver. (em Português)

VAGAS DA SEMANA

Presencial - São Paulo-SP

  • Conhecimento em Azure Databricks/Workspaces DS/DE/ML;

  • Experiência com Feature Store;

  • Experiência com linguagem de programação Python, SQL e/ou R (Spark);

  • Experiência com processamento distribuído de dados;

  • Experiência com esteira de integração e entrega contínua (CI/CD);

  • Conhecimento/Experiência em Engenharia de Dados e MLOps;

  • Experiência com o desenvolvimento de APIs;

  • Conhecimento/Experiência em modelos de: Regressão logística e Modelo de boosting, Random Forest e Modelos Lineares;

  • Conhecimentos em construção de esteira de ML Ops.

Remoto

  • Formação em Engenharia, Estatística ou Economia;

  • Experiência na construção de modelos de Machine Learning;

  • Python (forte experiência);

  • ML supervisionados e não supervisionados;

  • Trabalho em IDEs como VSC ou PyCharm;

  • Experiência em versionamento de código usando Git (ou similar), mantendo base de código modularizada para múltiplas implantações;

  • Design orientado a objetos e conceitos;

  • Espanhol fluente e Inglês fluente (obrigatório).

MEME DA SEMANA

Se você entender esse meme, já está quase pronto para se tornar um Engenheiro de Dados :)

veja mais memes como esses no nosso canal do slack.

DATA VISUALIZATION DA SEMANA

Desde que o autor de HQ americano Randall Munroe fez o primeiro gráfico para contar a história de um filme (na época, o da triologia “O Senhor dos Anéis”), vários gráficos do mesmo tipo foram feitos para um monte de filmes, com os desenhos sempre orientados pelo tempo da narrativa (alguns deles inclusive gerados automaticamente por algoritmos). Mas e se usássemos um eixo para o tempo da narrativa e outro para o tempo real (a sequência em que o filme é apresentado)? Richard Brath, uma das maiores referências em Dataviz, fez isso usando dois episódios da nova série One Piece, além de levantar ainda outras possibilidades de visualização das histórias. Vale conferir o resultado. (em Inglês)

PRÓXIMOS EVENTOS E MEETUPS

  • 23 a 26 de outubro - Online

  • 26 de outubro - Presencial (São Paulo - SP) e Online

  • 14 de novembro - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo