Avan√ßo da IA Generativa faz Stack Overflow demitir 100 pessoas ūüėĘ

E mais: Desafios de ingest√£o de dados; Como reduzir (absurdamente) custos de LLMs; Como se sentir preparado para entrevistas de emprego em dados;

Como vocês estão, galera dos dados? Bora pra mais um giro pelas notícias mais quentes sobre dados, IA e tecnologia?

*Obs: Antes de começar a ler a newsletter uma pergunta rápida: Já respondeu a pesquisa State of Data Brazil 2023?

Que tal contribuir com a pesquisa (n√£o leva nem 10 minutos) e ajudar a comunidade Data Hackers a construir o maior panorama do mercado de trabalho em dados do Brasil? Para participar clique aqui!

Estamos completando 5 anos do Podcast Data Hackers e, para comemorar, fizemos mais um episódio com o UFB (Ultimate Fighting Buzzwords), a competição pra eleger a buzzword mais chata do mundo dos dados! Polêmicas à parte, nos divertimos muito fazendo esse episódio e esperamos que vocês se divirtam muito escutando.

Al√©m disso, trazemos ainda um excelente artigo sobre as possibilidades para melhorar quest√Ķes de ingest√£o de dados e a demiss√£o de mais de 100 funcion√°rios pelo Stack Overflow, que coincide com o boom da IA generativa aplicada a v√°rias √°reas, inclusive √† programa√ß√£o.

Confira alguns dos destaques da news de hoje:

A pesquisa State of Data Brazil √© um dos maiores projetos da comunidade Data Hackers e, neste ano, estamos preparados para entregar uma fonte inestim√°vel de informa√ß√Ķes sobre carreiras, sal√°rios, desafios dos profissionais, tend√™ncias e novas tecnologias. Com a uni√£o e dedica√ß√£o da nossa comunidade, conseguimos mapear dados cruciais que podem mudar a forma como voc√™ enxerga seu futuro profissional.

Mas a cereja do bolo? Ao concluir a pesquisa, você terá acesso imediato a um relatório exclusivo, feito pela própria comunidade com um panorama do mercado atual e ao final da pesquisa State of Data todos os participantes da comunidade terão acesso a um dataset super completo para utilizar como preferir.

Imagine as possibilidades! Desde a cria√ß√£o de conte√ļdo e aprimoramento de suas habilidades em an√°lise de dados at√© a constru√ß√£o de um portf√≥lio mais robusto, ou at√© mesmo fazer suas pr√≥prias an√°lises antes de abordar seu chefe e pedir aquele merecido aumento - mas desta vez, baseado em dados.

Sendo assim, n√£o precisamos nem mesmo explicar sobre a import√Ęncia que todos respondam o formul√°rio, uma vez que a qualidade dos resultados da pesquisa depende inteiramente da participa√ß√£o do maior volume poss√≠vel de profissionais de dados. A pesquisa √© bem objetiva e foi planejada com muito crit√©rio, o tempo para responder √© estimado em 10 minutos.

E aí o que está esperando? Sua participação é crucial para o sucesso deste projeto. Podemos contar com você?

São 5 anos do Podcast Data Hackers! E 3 anos desde que lançamos o nosso episódio mais polêmico: o UFB (Ultimate Fighting Buzzword), competição pra eleger a buzzword mais chata do mundo dos dados. Hoje, com quase 800 mil downloads dos nossos episódios, atendemos o pedido da comunidade e fizemos um novo episódio elegendo as novas buzzwords mais irritantes quando se fala em dados, afinal muita coisa mudou nesses anos. Uma forma de celebrar todo esse tempo que vocês têm nos acompanhado, e claro, darmos umas boas risadas.

Além dos nossos Community Managers que vocês já conhecem (Marlesson Santana, Pietro Oliveira e o Mario Filho), temos também a participação da Monique Femme, nossa Head Community Management, que estreia nessa edição. Todos participamos juntos dessa conversa para decidirmos quais são as buzzwords mais irritantes no mundo de dados, tecnologia e negócio.

Mas repetimos o disclaimer da primeira edi√ß√£o: esse epis√≥dio tem como objetivo √ļnico e exclusivo o entretenimento. As brincadeiras que fizemos n√£o refletem nossa opini√£o, e por favor n√£o levem t√£o a s√©rio nenhuma das piadas que fazemos, ok?

A ingestão de dados é uma das maiores dores de cabeça para os data engineers desde sempre. Mover dados de A para B geralmente é chato, trabalhoso e propenso a uma série de erros.

Este artigo exp√Ķe como as plataformas Fivetran, Airbyte, Singer, dltHub e CloudQuery est√£o abordando a integra√ß√£o de dados e mostra que, ainda que nunca tenhamos uma solu√ß√£o definitiva para a quest√£o, h√° formas de tornar essa integra√ß√£o mais confi√°vel, sustent√°vel e barata. (em Ingl√™s)

Essa semana, o Stack Overflow, conhecido f√≥rum de programadores que permite aprender e tirar d√ļvidas, demitiu mais de 100 funcion√°rios, cerca de 28% de seu quadro. Essa demiss√£o acontece apenas um ano depois do f√≥rum ter dobrado seu n√ļmero de funcion√°rios.

A demiss√£o coincide com o boom da IA generativa e a incorpora√ß√£o dos modelos por ferramentas de programa√ß√£o, permitindo ao p√ļblico aprender e tirar d√ļvidas na pr√≥pria ferramenta. Fica a d√ļvida: ser√° que o Stack Overflow vai resistir? (em Ingl√™s)

OUTROS T√ďPICOS

A implementa√ß√£o de um pipeline para jobs Spark √© essencial para otimizar o desenvolvimento e implanta√ß√£o de aplica√ß√Ķes de processamento de dados em larga escala. Neste artigo, o Data Hacker Ricardo Junior mostra como construir um pipeline robusto usando tecnologias como Kubernetes, ArgoCD e GitLab, levando assim a uma orquestra√ß√£o e deploy eficiente de jobs Spark. (em Portugu√™s)

A equipe de culin√°ria do New York Times enfrenta desde sempre um desafio: com milhares de receitas no arquivo, como saber quais recomendar semanalmente aos usu√°rios, ainda mais considerando fatores como tipo de dieta, tempo de preparo e ingredientes? Algum tempo atr√°s, eles come√ßaram a usar Machine Learning para recomendar receitas aos leitores de acordo com suas intera√ß√Ķes no passado. Este artigo detalha o funcionamento do algoritmo e como tem sido a experi√™ncia. (em Ingl√™s)

Natural Language Processing, mais conhecido como NLP, é um campo que envolve computação e linguística e que tem evoluiu muito recentemente, com os modelos GPT na vanguarda dessa evolução. Seria possível, contudo, usar os modelos GPT para interpretar linguagem natural e transformar perguntas em consultas SQL? Confira neste artigo como foram as tentativas feitas pelos autores e quais os resultados obtidos. (em Inglês)

Voc√™ se sente preparado para uma entrevista de emprego na √°rea de dados? Se voc√™ respondeu ‚Äún√£o‚ÄĚ, saiba que est√° longe de ser o √ļnico. Nesse artigo, o engenheiro de dados Zach Quinn conta sua experi√™ncia e exp√Ķe o que acredita ser o principal motivo de reprova√ß√Ķes em entrevistas: as pessoas se preocupam demais em responder as perguntas e se esquecem que est√£o contando sua hist√≥ria. (em Ingl√™s)

O uso dos Large Language Models (LLMs) est√° cada vez mais popular, mas us√°-los para grandes aplica√ß√Ķes pode ser muito caro, com os custos batendo centenas ou mesmo milhares de d√≥lares por dia. Esse artigo mostra formas de reduzir os custos ao usar os modelos com base em tr√™s estrat√©gias: adapta√ß√£o do prompts, aproxima√ß√£o do LLM e cascateamento do LLM. (em Ingl√™s)

DICA DE V√ćDEO

Duvida que seja possível explicar o que é Ciência de Dados em 100 segundos? Então assista esse vídeo, que acabou se tornando um clássico do nosso canal. Informação rápida e precisa no mínimo de tempo (e uma ótima pra explicar pra pais, tios e avós qual é o seu trabalho). Esse video já foi postado aqui ano passado, mas muita gente ainda não teve a oportunidade de ver. (em Português)

VAGAS DA SEMANA

Presencial - S√£o Paulo-SP

  • Conhecimento em Azure Databricks/Workspaces DS/DE/ML;

  • Experi√™ncia com Feature Store;

  • Experi√™ncia com linguagem de programa√ß√£o Python, SQL e/ou R (Spark);

  • Experi√™ncia com processamento distribu√≠do de dados;

  • Experi√™ncia com esteira de integra√ß√£o e entrega cont√≠nua (CI/CD);

  • Conhecimento/Experi√™ncia em Engenharia de Dados e MLOps;

  • Experi√™ncia com o desenvolvimento de APIs;

  • Conhecimento/Experi√™ncia em modelos de: Regress√£o log√≠stica e Modelo de boosting, Random Forest e Modelos Lineares;

  • Conhecimentos em constru√ß√£o de esteira de ML Ops.

Remoto

  • Forma√ß√£o em Engenharia, Estat√≠stica ou Economia;

  • Experi√™ncia na constru√ß√£o de modelos de Machine Learning;

  • Python (forte experi√™ncia);

  • ML supervisionados e n√£o supervisionados;

  • Trabalho em IDEs como VSC ou PyCharm;

  • Experi√™ncia em versionamento de c√≥digo usando Git (ou similar), mantendo base de c√≥digo modularizada para m√ļltiplas implanta√ß√Ķes;

  • Design orientado a objetos e conceitos;

  • Espanhol fluente e Ingl√™s fluente (obrigat√≥rio).

MEME DA SEMANA

Se você entender esse meme, já está quase pronto para se tornar um Engenheiro de Dados :)

veja mais memes como esses no nosso canal do slack.

DATA VISUALIZATION DA SEMANA

Desde que o autor de HQ americano Randall Munroe fez o primeiro gr√°fico para contar a hist√≥ria de um filme (na √©poca, o da triologia ‚ÄúO Senhor dos An√©is‚ÄĚ), v√°rios gr√°ficos do mesmo tipo foram feitos para um monte de filmes, com os desenhos sempre orientados pelo tempo da narrativa (alguns deles inclusive gerados automaticamente por algoritmos). Mas e se us√°ssemos um eixo para o tempo da narrativa e outro para o tempo real (a sequ√™ncia em que o filme √© apresentado)? Richard Brath, uma das maiores refer√™ncias em Dataviz, fez isso usando dois epis√≥dios da nova s√©rie One Piece, al√©m de levantar ainda outras possibilidades de visualiza√ß√£o das hist√≥rias. Vale conferir o resultado. (em Ingl√™s)

PR√ďXIMOS EVENTOS E MEETUPS

  • 23 a 26 de outubro - Online

  • 26 de outubro - Presencial (S√£o Paulo - SP) e Online

  • 14 de novembro - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opini√£o sincera...

Login or Subscribe to participate in polls.

Logo