IA vai substituir o desenvolvedor? Veja o que diz o CEO do Github ūüó£ÔłŹ

E mais: Como criar um dashboard usando Python e PostgreSQL; Criando um datalake de baixo custo com Airflow, DBT e muito mais

Fala, Data Hackers!

Bora abrir mais uma semana desse m√™s de julho conferindo as novidades do mundo dos dados? Hoje temos como destaque a participa√ß√£o do CEO do Github em um TED Talk onde ele exp√īs, de forma muito embasada e clara, o que pensa sobre a possibilidade da IA substituir desenvolvedores no futuro. Al√©m disso, temos um tutorial sobre como consumir dados do Postgres e usar Python para criar um dashboard a partir deles, um artigo que acompanha, do zero, a cria√ß√£o de um datalake de baixo custo, e o lan√ßamento de um modelo de IA generativa que responde por voz que tem dado o que falar.

Confira outros destaques dessa edição:

Neste epis√≥dio mergulhamos profundamente na automa√ß√£o de pipelines de dados e seu impacto na efici√™ncia operacional. Para isso, contamos com as valorosas participa√ß√Ķes do Gerente de produto na BMC Software Murilo Viveiros‚Ää, daSr. Solution Engineer na BMC Software Fabiana Delfino‚Ääe do Data Architecture Manager na Gerdau Luiz Pereira.‚Ää

Venha descobrir como as tecnologias de automação estão revolucionando a gestão de dados e impulsionando a produtividade das equipes.

E a√≠, j√° deu seu upvote no Dataset da pesquisa State of Data Brazil 2023, que subimos no Kaggle nas √ļltimas semanas?

O upvote √© importante para o dataset ganhar mais visibilidade e atingir mais pessoas. J√° alcan√ßamos a medalha de prata, mas, com sua ajuda, podemos atingir a medalha de ouro, com a qual tivemos a felicidade de sermos agraciados nos √ļltimos anos.

S√£o poucos segundos do seu tempo, e um clique. D√° uma moral pra gente, vai?

Essa semana tem Supletivo Data Hackers Terça as 20h: Tema Data Contracts

Nessa aula ao vivo e hands on você vai ter a oportunidade de aprender mais sobre Data Contracts e como esse conceito é fundamental para a maturidade de produtos de dados e para projetos de alta complexidade como Data Mesh.

A aula ser√° conduzida pelo Rodrigo Teoria, que vai te ajudar a fazer um hands-on com datacontracts-cli e mostrar o datamesh-manager.

Se vc trabalha com dados e quer aprender a construir produtos mais confiáveis não pode perder essa! (em Português)

Sabe aquele projeto que vale a pena ter no portfólio? Este artigo ensina a consumir dados do Postgres (um dos bancos de dados mais populares do mercado) e, a partir desses dados, criar um dashboard utilizando ferramentas como Python e Altair. Bom pra aprender - e pra dar aquela engordada no currículo. (em Inglês)

Datalakes geralmente são tratados como projetos altamente complexos, que envolve uma série de ferramentas grandes e caras. Mas e se houvesse uma forma de começar pequeno, já experimentando algumas das tecnologias de ponta do mercado?

Este artigo apresenta passo a passo a criação de um datalake agnóstico de clouds usando as ferramentas gratuitas de engenharia de dados mais conhecidas, com capacidade de ser executado localmente via Docker e voltado para um problema real. Mais didático que isso, impossível. (em Português)

H√° algumas semanas, a OpenAI anunciou, junto com o GPT-4o, seu novo assistente de voz, que foi imediatamente aclamado pela qualidade da voz e pela velocidade com que respondia (praticamente em tempo real).

Pouqu√≠ssimo tempo depois (mais precisamente na √ļltima semana), o laborat√≥rio franc√™s Kyutai apresentou Moshi: um modelo open-source multimodal que responde praticamente instantaneamente. O coment√°rio geral √© que os resultados s√£o impressionantes e eu, particularmente, estou muito animado para testar. (em Portugu√™s)

OUTROS T√ďPICOS

O melhor repositório de MLOps que você vai ver hoje
MLOps √© uma √°rea abundante em conte√ļdo para aprender, e h√° novas ferramentas e plataformas surgindo a todo momento, o que torna dif√≠cil acompanhar as novidades. Mas vai por mim: esse reposit√≥rio no Github traz em primeira m√£o tudo de mais relevante que surge sobre o assunto. √Č o conte√ļdo que voc√™ precisa para acompanhar e aprender o que rola na √°rea. (em Ingl√™s)

YouTube agora permite que você peça remoção de vídeos gerados por IA que simulem sua voz ou rosto
Depois de aderir √† agenda pela IA respons√°vel em novembro do ano passado, o YouTube deu um passo al√©m e agora permite que usu√°rios pe√ßam remo√ß√£o de v√≠deos que simulem seus rostos ou vozes atrav√©s de IA. No entanto, em vez de solicitar que o conte√ļdo seja denunciado por ser enganoso, como se faria com um deepfake, a plataforma quer que os usu√°rios denunciem esse tipo de v√≠deo diretamente como viola√ß√£o de privacidade. (em Ingl√™s)

Figma remove sua ferramenta de IA após repercussão negativa
Essa semana, eu e a Monique anunciamos no Data Hackers News que a Figma estava lan√ßando uma ferramenta de IA para ajudar designers. Pois bem: menos de uma semana depois do an√ļncio, tudo indica que a Figma est√° voltando atr√°s. A decis√£o veio depois de a ferramenta ter elaborado designs que se pareciam muito com o aplicativo meteorol√≥gico iOS da Apple, o que repercutiu muito mal. (em Ingl√™s)

Maritaca anuncia novo modelo de LLM brasileiro
A Maritaca AI, startup brasileira voltada para modelos de linguagem, acaba de lançar seu novo modelo de LLM. A empresa, que já havia lançado um modelo próprio no fim do ano passado, anunciou o Sabiá-3, modelo mais avançado já lançado pela companhia, que alega que sua assertividade é equiparável à do GPT-4o. (em Português)

DICA DE V√ćDEO

Sempre levantam a bola da substituição de mão de obra humana por IA e é claro que os desenvolvedores não ficam de fora disso. Mas em uma semana em que diversos executivos afirmaram que "não precisavam da TI", saiu esse TED Talk do CEO do Github: uma conversa muito mais embasada e acurada, que aponta que a IA tem tudo pra ser uma importante ferramenta trabalhando JUNTO com desenvolvedores. Vale muito a pena assistir. (em Inglês)

VAGAS DA SEMANA

Remoto

  • Forma√ß√£o em Ci√™ncias da Computa√ß√£o, Matem√°tica, Estat√≠stica, Engenharia, Ci√™ncia de Dados ou correlatas;

  • Desej√°vel experi√™ncia em an√°lise de risco preferencialmente em institui√ß√£o financeira ou fintech;

  • Compreens√£o de modelagem, estruturas de armazenamento e tratamento de dados;

  • Programa√ß√£o em SQL e Python;

  • Compreens√£o de m√©todos estat√≠sticos (regress√£o, clusteriza√ß√£o, teste de hip√≥teses, desenvolvimento de modelos de aprendizado supervisionado e n√£o-supervisionado);

  • Dom√≠nio de frameworks de desenvolvimento de modelos de machine learning;

  • Desej√°vel conhecimento nos servi√ßos de computa√ß√£o em nuvem da AWS;

  • Habilidades anal√≠ticas e capacidade de transformar dados complexos em insights acion√°veis

Remoto

  • Forma√ß√£o avan√ßada em Estat√≠stica, Computa√ß√£o, Engenharia, Economia ou correlatas;

  • Experi√™ncia em design e an√°lise de experimentos online (como testes A/B) como Cientista de Dados em um time de Desenvolvimento de Produtos (de prefer√™ncia com grandes datasets e em uma empresa de tecnologia em r√°pido crescimento);

  • Profici√™ncia em SQL;

  • Experi√™ncia em modelagem estat√≠stica aplicada em pelo menos uma linguagem (Python, R, etc);

  • Bom entendimento dos conceitos b√°sicos de Machine Learning e Estat√≠stica;

  • Senso apurado de neg√≥cios e produto: capacidade de transformar perguntas vagas em hip√≥teses test√°veis e m√©tricas para orientar decis√Ķes de neg√≥cio;

  • Capacidade de automotiva√ß√£o e um hist√≥rico comprovado de liderar projetos at√© a conclus√£o

MEME DA SEMANA

E ainda dizem que n√£o precisamos mais de desenvolvedores...

DATA VISUALIZATION DA SEMANA

Voc√™ sabia que a energia demandada em n√≠vel mundial por data centers, criptomoedas e intelig√™ncia artificial deve dobrar entre 2022 e 2026, segundo proje√ß√Ķes? As atuais fontes energ√©ticas da humanidade certamente n√£o est√£o prontas pra isso. Ser√° preciso encontrar novas solu√ß√Ķes, e o pessoal dos fundos de investimento Range acredita que a energia nuclear pode ser uma boa alternativa. Para isso, eles listam 5 motivos, que o pessoal do Visual Capitalist exp√īs de forma did√°tica nesse dataviz. (em Ingl√™s)

PR√ďXIMOS EVENTOS E MEETUPS

HackTown 2024 (Data Hackers têm 15% de desconto!)
01 de agosto - Santa Rita do Sapucaí-MG

The Developer’s Conference 2024 SP
18 a 20 de setembro - S√£o Paulo-SP

Big Data Brazil Experience 2024
16 de novembro - S√£o Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opini√£o sincera...

Login or Subscribe to participate in polls.

Logo