Novo ChatGPT consegue ver sua câmera e fazer traduções simultâneas

E mais: Desmistificando o fine tuning de LLMs na prática: PEFT, LoRA, QLORA e Hambúrgueres; Redshift x Databricks x BigQuery x Snowflake: Quem ganha essa briga?

Fala, Data Hackers! E aí, bora saber as novidades do mundo dos dados, que anda agitado com os anúncios da última semana?

Confira em primeira mão todas as novidades do GPT-4o, a evolução do ChatGPT que promete transformar a IA generativa para sempre. Além disso, trazemos ainda uma opinião direta e franca sobre as diferentes plataformas de dados, Qual o melhor? Redshift, Databricks, Big Query ou Snowflake? e um artigo que desmistifica, na prática, o fine tuning de LLMs.

Confira outros destaques desta edição:

Você já se perguntou como é trabalhar com dados em um cenário global? Pensando nisso, vamos explorar as incríveis jornadas de profissionais que transformaram suas carreiras com projetos internacionais.

Neste novo episódio do podcast Data Hackers, conheçam a Analista de Dados Carol Assis e a Engenheira de Dados Viviana Tercerôs, ambas atuantes na consultoria de tecnologia Thoughtworks. Elas contam pra gente quais as habilidades necessárias para trabalhar com projetos em outros países, e ainda dividem casos e curiosidades de suas vivências. Ouça agora mesmo na sua plataforma favorita!

A Thoughtworks, em parceria com a comunidade Data Hackers, Mulheres em Dados e DiversiData, convida você para uma conversa sobre jornadas na área de Dados e o impacto de mulheres que constroem o futuro da tecnologia, no dia 6/6, às 18h30. O painel contará com Vanessa Anjos (Engenheira de Dados, Thoughtworks), Mariana Rufino (Analista de dados e co-fundadora da comunidade Mulheres em Dados), Victoria Fujii (Consultora em Análise de Dados, Thoughtworks) e Andressa Freires (Data Scientist Specialist na Meiuca e fundadora da DiversiData), além da mediação de Monique Femme (Head of Community Manegement da comunidade Data Hackers).

O evento é gratuito, exclusivo para mulheres e outros gêneros sub-representados, e acontece no Inovabra Habitat, em São Paulo. Os ingressos podem ser retirados neste link.

O anúncio do GPT-4o chegou trazendo alvoroço: com capacidade de perceber e responder a emoções, combinar texto, imagens e áudios, interagir quando lhe são apresentados objetos e fazer traduções em tempo real, o modelo promete transformar para sempre as relações entre homens e máquinas.

Confira aqui as novidades do modelo que, segundo a OpenAI, vai ser liberado gradualmente para todos os usuários (inclusive os que usam a versão gratuita). (em Inglês)

A disputa entre ferramentas para dados que funcionam em nuvem se tornou uma verdadeira guerra: elas disputam os dados das empresas prometendo mundos e fundos, tem gente que defende certas plataformas até a morte em comparação com as demais, e entre data wharehouses, data lakes e delta lakes, fica até difícil entender quais as possibilidades e o que está sendo de fato oferecido.

Neste artigo do portal Data Engineering Central, o engenheiro de dados Daniel Beach dá sua opinião direta e sem rodeios sobre quais plataformas são melhores para cada objetivo. (em Inglês)

A possibilidade de usar LLMs para tarefas que gerem ganhos de produtividade tem despertado o interesse de diversas indústrias. Mas o alto investimento que o treinamento de um LLM exige tem obrigado as empresas a optar por dois caminhos: pagar para utilizar soluções fechadas, ou tentar adaptar modelos open-source, o que pode ser uma boa opção para tarefas mais específicas.

Neste artigo, o Data Hacker Hugo Zanini explora a adaptação de modelos open-source, na abordagem conhecida como fine-tuning. (em Português)

Roadmap com as skills mais importantes de um analista de dados em 2024
Recentemente, analista de dados passou a ser uma das profissões mais comentadas, atraindo o interesse de vários profissionais que pensam em fazer transição de carreira. Mas quem é da tecnologia sabe como as habilidades e ferramentas mudam o tempo inteiro, o que pode tornar a missão difícil. Neste post, temos um roadmap para se tornar analista de dados em 2024. Vale ler! (em Inglês)

Treta: Usuários do Slack ficam furiosos ao descobrir que as conversas do aplicativo eram silenciosamente utilizadas para treinar IA's da Salesforce, mas o pior é que não existe um botão de opt-out
A comunidade tech foi a loucura essa semana, depois que um grande influenciador analisou a fundo os termos do Slack e identificou uma forte possibilidade de que a empresa esteja utilizando conversas dos usuários para treinar seus modelos de inteligência artificial. Os usuários criticaram fortemente a falta de consentimento explícito e a inclusão automática na política de compartilhamento de dados da empresa. (em Inglês)

Cofundador da OpenAI Ilya Sutskever anuncia saída da empresa
O cofundador da OpenAI Ilya Sutskever anunciou na noite da última terça-feira o seu desligamento da empresa. Sutskever ocupava o cargo de cientista chefe na companhia que ajudou a fundar. A OpenAI já anunciou um substituto para o seu cargo: Jakub Pachocki, que antes era diretor de pesquisa na empresa.(em português)

Snowflake injeta milhões de dolares na Metaplane em busca de soluções para Data Quality
A Snowflake, gigante estadunidense entre as maiores plataformas em nuvens voltadas para dados, anunciou um investimento na casa dos milhões na Metaplane, plataforma de destaque em observabilidade de dados. O objetivo é trazer a observabilidade de dados para a Snowflake, o que pode ser determinante para o sucesso de seus clientes, já que 35% dos projetos de IA falham ou sofrem atrasos devido à baixa qualidade dos dados, de acordo com a Infosys. (em Inglês)

Inferência Causal na prática: Medindo o impacto de uma inovação no negócio
Você está bem familiarizado com inferência causal, clássica no estudo de relações de causa e efeito? Este artigo traz um exemplo prático na medição do impacto de uma determinada inovação em um negócio, mostrando alternativas para quando a experimentação não é uma opção possível. (em Inglês)

Passo a passo de produto de Machine Learning: Prevenção de Churn com Python, Streamlit e FastAPI
Artigo muito interessante que apresenta o desenvolvimento de um projeto de Machine Learning end-to-end voltado para a prevenção de churn, essa dor-de-cabeça constante de quem lida com clientes. O projeto foi desenvolvido usando Catboost, Streamlit, FastAPI e Docker, e, de quebra, está disponível no GitHub e no Kaggle. (em Inglês)

Co-fundador do Instagram se junta a Anthropic... A guerra contra a OpenAI está só começando!
Foi anunciado na última semana que Mike Krieger, co-fundador do Instagram, vai assumir como Chief Product Officer na Anthropic, criadora da família de LLMs Claude 3. A contratação promete esquentar ainda mais a competição da Anthropic com a OpenAI, e Krieger já declarou estar empolgado com a capacidade que o Claude, com os recursos certos, pode levar as pessoas a inovar em um ritmo mais acelerado e com menor custo. (em Inglês)

DICA DE VÍDEO

A IA Generativa tem impactado o mercado financeiro, apesar do segmento ter um comportamento mais conservador no apoio às iniciativas de inovação. Você já se perguntou como a revolução da inteligência artificial está moldando o cenário financeiro atual? E como ela pode ser usada para criar impacto diante de um contexto de insegurança para abraçar plenamente iniciativas inovadoras? Confira nesse vídeo nosso Webinar em parceria com a Thoughtworks, onde exploraremos o impacto da GenAI no mercado financeiro! (em português)

VAGAS DA SEMANA

Belo Horizonte-MG - Presencial

  • Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística ou áreas correlatas;

  • Experiência sólida em gestão de equipes técnicas de ciência de dados;

  • Inglês avançado, para conduzir negociações e apresentações em um ambiente global;

  • Capacidade de traduzir questões e resultados técnicos para o contexto de negócio, utilizando métricas de negócio para valorizar trabalhos técnicos.

Remoto

  • Formação superior em Ciências da Computação, Informática, Análise de Sistemas ou similar;

  • Construção de ETL/ELT (especialmente na ferramenta Informática PowerCenter - Requisito Obrigatório!);

  • Experiência em desenvolvimento de consultas em PL/SQL;

  • Modelagem de Banco de dados;

  • Estruturas de dados (tabelas, CSVs, JSONs, Índices e afins);

  • Conhecimento em SQL (Oracle, MySQL ou outros bancos relacionais).

MEME DA SEMANA

DATA VISUALIZATION DA SEMANA

Acredito que todos temos acompanhado, com pesar, a tragédia das chuvas no Rio Grande do Sul, certo? Em caráter emergencial e voluntário, vários setores da UFRGS e alguns pesquisadores externos se uniram para produzir esta plataforma, que apresenta modelos de previsão de elevação do nível da água, mapeamento de áreas afetadas pelas inundações, dados sobre o número de pessoas e de domicílios afetados e outras informações críticas para o enfrentamento da crise. (em Português)

PRÓXIMOS EVENTOS E MEETUPS

Data + AI Summit
10 a 13 de junho - San Francisco, Califórnia, EUA

HackTown 2024 (Data Hackers têm 15% de desconto!)
1 de agosto - Santa Rita do Sapucaí-MG

Big Data Brazil Experience 2024
16 de novembro - São Paulo-SP

AWS Innovate
On-demand - Online

Obs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Wow! Já que chegou até aqui, qual a nota dessa edição da Newsletter?

Pode dar sua opinião sincera...

Login or Subscribe to participate in polls.

Logo