Zero-ETL e o futuro da Engenharia de Dados ūüĎ∑‚Äć‚ôÄÔłŹ

Zero-ETL e LLM's v√£o mudar radicalmente

o futuro da engenharia de dados

Fala Data Hackers, preparados para mais uma segunda-feira cheia de dados?

Essa semana o destaque √© um conte√ļdo ultra-relevante, afinal, o futuro da engenharia de dados pode impactar a vida de todos n√≥s, certo?

A verdade é que os LLM's trouxeram uma gama de novas possibilidades em diversas áreas, como desenvolvimento de software, análise de dados, design e por que não engenharia de dados?

Para evitar maiores spoilers deixo aqui a seguinte reflex√£o: E se meu algoritmo fosse capaz de aprender sozinho onde encontrar a informa√ß√£o e realizar as transforma√ß√Ķes necess√°rias?

Além disso temos muitos outros assuntos legais para começar a semana:

Esse post foi feito especialmente para você, engenheiro de dados, que trabalha em camadas mais técnicas da área de dados e (até então) estava tranquilo, pensando que o ChatGPT não mudaria muito a forma com que você trabalha.

A verdade é que todas essas novidades no mundo de AI e dos LLM's (Large Language Models) já estão começando a mudar radicalmente a forma como os processos de transformação e consumo de dados são feitos.

Nesse artigo, Barr Moses CEO da Montecarlo e uma das principais refer√™ncias do mundo da observabilidade e qualidade de dados, mostra de maneira simples como as abordagens em torno dos pipelines de dados vem passando por r√°pidas mudan√ßas nos √ļltimos anos, incluindo o movimento Zero ETL, e como os LLM's v√£o criar uma s√©rie de novas possibilidades que prometem mudar radicalmente o futuro da engenharia de dados que conhecemos hoje. (em Ingl√™s)

Uma das principais novidades que ChatGPT vai lançar são os chamados plugins, que vão permitir que o sistema atue em muitas frentes diferentes, incluindo que ele faça seus próprios algoritmos.

Nessa Thread do Twitter, o professor de Wharton, Ethan Mollick teve acesso a primeira vers√£o de um plugin chamado GPT Code Interpreter, subiu um CSV com dados de um problema real e pediu que o sistema fizesse uma an√°lise completa dos dados.

O resultado foi muito impressionante, o sistema não fez apenas uma análise simples, mas plotou gráficos, fez toda a análise exploratória e ao final fez uma análise de regressão, além de utilizar códigos de qualidade em Python e fazer a correta interpretação de toda a análise.

Esse tipo de solução ainda está em fase beta e poucas pessoas tem acessos o que nos deixa ainda mais ansiosos para entender o quão robusta será essa solução e quanto o dia a dia dos profissionais de dados será impactado por este tipo de tecnologia. (em Inglês)

Ap√≥s trabalhar em diversos projetos relacionados a busca sem√Ęntica esse engenheiro de Machine Learning teve uma brilhante ideia de utilizar novas APIs da OpenAI para transformar 100% dos documentos da empresa que ele trabalhava em uma base de dados facilmente acess√≠vel.

O mais interessante é que no post ele mostra passo a passo como qualquer um pode fazer o mesmo, sem muita complexidade, permitindo por exemplo que você busque dentro de todas as bases de documentos da sua empresa da mesma forma que busca no google. (em Inglês)

OUTROS T√ďPICOS

Uma ferramenta que ganhou popularidade nos √ļltimos anos para gerenciar pipelines de dados √© o dbt (data build tool). Embora o dbt possa fornecer benef√≠cios significativos para gerenciamento e modelagem de dados, pode n√£o ser a melhor ferramenta para todas as situa√ß√Ķes. Este artigo mostra os principais casos de uso do dbt para determinar se o dbt √© adequado para sua organiza√ß√£o.(em Ingl√™s)

Se você está curioso para acompanhar as novidades do GPT-4 mas ainda não quer torrar alguns dólares nesse processo, esse post é tudo o que você precisa. Obs: Os métodos apesar de gratuitos não envolvem pirataria nem nada ilegal, podem ficar tranquilos. (em Inglês)Programação orientada a dados utilizando Python"Data-Oriented Programming" de Yehonathan Sharvit é um ótimo livro que oferece uma introdução ao conceito de programação orientada a dados (DOP) como uma alternativa à tradicional programação orientada a objetos (OOP). Embora no livro o autor ilustre seus exemplos usando JavaScript e Java, a ideia deste artigo é demonstrar as ideias em Python com exemplos práticos. (em Inglês)

Descubra como utilizar LLM's para realizar buscas sem√Ęnticas nas suas pr√≥prias bases de dados em 5 passosCansado de fazer queries? E se fosse poss√≠vel buscar dados com textos simples de linguagem natural, como no ChatGPT? Essa √© justamente a proposta que esse post ensina em 5 passos, uma abordagem muito interessante e que deve se tornar uma tend√™ncia cada dia mais comum.(em Ingl√™s)

Aprenda a forma correta de se fazer cargas de dados de maneira incremental e em larga escalaEste post tem como foco desmistificar as t√©cnicas por tr√°s das cargas incrementais de dados, compartilhando as melhores pr√°ticas, alguns casos de uso e considera√ß√Ķes avan√ßadas. √Č um conte√ļdo relevante tanto para quem trabalha com um volume massivo de dados, ou mesmo para quem ainda lida com pipelines mais simples no dia a dia e pretende economizar tempo e dinheiro. (em Ingl√™s)

DICA DE V√ćDEO

Essa live acabou de sair do forno e conta com o professor Jo√£o Gabriel Lima e com o Data Hacker Rodrigo Teoria que v√£o explicar passo a passo como funciona o AutoGPT e o BabyAGI, sistemas baseados em agentes aut√īnomos de AI. Na live voc√™ vai aprender conceitos-chave sobre Auto-GPT e BabyAGI e como desenvolver e usar seus pr√≥prios agentes aut√īnomos, conte√ļdo incr√≠vel! (em Portugu√™s)

VAGAS DA SEMANA

  • Conhe√ßa das t√©cnicas e documentos para levantamento de requisitos e especifica√ß√Ķes;

  • Saiba lidar com alto volume de dados de diversas fontes diferentes;

  • Saiba implementar um pipeline completo, desde a aquisi√ß√£o dos dados, refinamento at√© a apresenta√ß√£o dos resultados;Realize an√°lises explorat√≥rias dos dados;

  • Selecione e implante t√©cnicas e algoritmos de Machine Learning ou IA para a resolu√ß√£o dos problemas selecionados;

  • Utilize aprendizado de m√°quina supervisionado e n√£o supervisionado para solucionar problemas;

  • Tenha uma s√≥lida compreens√£o de estat√≠stica, incluindo testes e distribui√ß√Ķes;

São Paulo - SP - Híbrido

  • Experi√™ncia avan√ßada com as linguagens SQL, Python, Scala e Java;

  • Experi√™ncia avan√ßada em modelagem e manipula√ß√£o de grandes volumes de dados;

  • Experi√™ncia na elabora√ß√£o de relat√≥rios e an√°lises de qualidade de dados;

  • Experi√™ncia com ferramentas de data quality (AWS Deequ, GreatExpectations);

  • Experi√™ncia em computa√ß√£o em nuvem (AWS, Google Cloud Platform);

  • Experi√™ncia em ferramentas de versionamento (Git);

  • Conhecimento avan√ßado em Linux;

MEME DA SEMANA

Quero ver o ChatGPT resolver essa…Dica do Allan Sene no nosso canal do Slack

DATA VISUALIZATION DA SEMANA

Com base nos resultados recentes de um artigo que mostrou que a grande maioria das profiss√Ķes que conhecemos hoje ser√£o fortemente impactadas por modelos de linguagem e/ou modelos de processamentos de imagens a equipe do Washington post criou essa excelente visualiza√ß√£o de dados. Vale a pena conferir! (em Ingl√™s)

PROXIMOS EVENTOS E MEETUPS

AWS Marathon - Database & Analytics30 de Maio e 01 de junho - 100% online e gratuito

DATA+AI Summit - Databricks26 a 29 de junho - San Francisco/USA + evento online e gratuito

Big Data Brazil Experience 2023 21 de outubro - SP - Participantes do Data Hackers tem descontos pelo link

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Logo

Copyright © datahackers.com.br.Gostaria de parar de receber esses emails?Você pode atualizar suas preferências ou remover o cadastro dessa lista de emails.