Seus conhecimentos em dados podem resolver um mistério sob as cinzas do vulcão! 🌋

Fala Data Hackers, prontos para mais uma semana repleta de dados?

Hoje temos muitos assuntos relacionados a competições de dados, além do desafio Vesúvio que vai pagar 1 milhão de dólares para quem resolver os mistérios escondidos embaixo das cinzas do vulcão, trouxemos um verdadeiro Raio-X das competições de ML, com uma análise de mais de 200 competições e os segredos dos ganhadores. Seria esse o empurrão que faltava para você participar de competições e buscar o topo?

Além disso temos alguns outros assuntos quentes hoje:

Em 79 d.C. o Monte Vesúvio entrou em erupção soterrando as cidades de Pompéia e Herculano, petrificando em poucas horas, um pedaço importante da história da humanidade.

No interior de Herculano, havia uma grande biblioteca de pergaminhos de papiro que foi soterrada por 20 metros de lava quente e detritos. Dentro dessa biblioteca grande parte dos pergaminhos foram carbonizados pelo calor dos detritos vulcânicos, porém curiosamente uma parte deles acabou sendo preservada embaixo da lava. Ou seja, enquanto praticamente todos os textos antigos da mesma época foram expostos ao ar, acabando por se decompor ou desaparecer, a biblioteca da Vila dos Papiros de Herculano ainda pode ser recuperada.

Em 2015, uma equipe liderada pelo Dr. Brent Seales escaneou os papiros usando tomografia computadorizada, raios-X e visão computacional e conseguiu ler um dos pergaminhos encontrados sem a necessidade de abri-lo. Essa conquista mostrou que seria possível resgatar esse pedaço da história mas agora eles precisam de mais ajuda nesse desafio.

Agora, o Vesuvius Challenge oferece prêmios que ultrapassam 1 milhão de dólares para a equipe que ler um dos papiros de Herculano até 31 de dezembro de 2023, vai ter até competição no Kaggle! E aí vai encarar? (em Inglês)

Esse artigo foi dica do nosso Community Manager, Marlesson no canal do slack da comunidade Data Hackers, e trás uma perspectiva bem legal, afinal o que um recrutador espera encontrar quando recebe um currículo?

Partindo dessa pergunta, Chip Huyen (fundadora de uma plataforma de ML que antes atuou em times de dados da NVIDIA, Netflix dentre outras empresas), decidiu responder várias dúvidas frequentes de quem está aplicando para uma vaga de emprego como por exemplo:

  • O CV tem que ter somente uma página mesmo?

  • Eu preciso se uma carta de recomendação?

  • O que colocar no currículo quando ainda não se tem experiência no mercado?

Além de responder essas e muitas outras dúvidas a autora apresenta dicas muito valiosas para quem for da área de dados e decidir atualizar o currículo (independente da senioridade). (em Inglês)

Essa semana uma novidade tomou conta da internet, a chegada do Copilot X fez um grande barulho em toda comunidade Dev.

Baseado no recém lançado GPT-4, o copilot X promete ser uma evolução exponencial do Github Copilot (ferramenta lançada em 2021, com o objetivo de aumentar a produtividade de desenvolvedores e profissionais de tecnologia).

A principal diferença é que agora a ferramenta deixa de ser apenas um recomendador/autocomplete de códigos e passa a funcionar também como um Chat, possibilitando tirar d’úvidas em tempo real com a ferramenta (uma espécie de Chat GPT + Copilot), além disso a tecnologia agora consegue interpretar o código escrito e as mensagens de erro.

Outra novidade é que a ferramenta também vai passar a reconhecer comandos de voz, seria uma Alexa para devs? (em Inglês)

OUTROS TÓPICOS

Em seu mais recente artigo no nosso blog, o Data Hacker Jonys Arcanjo compartilha dicas incríveis de como organizar um Jupyter notebook e se tornar mais produtivo no dia a dia. Fica a dica pois o artigo é imperdível. (em Português)Um resumo das principais competições de Machine Learning de 2022Uma análise completa sobre mais de 200 competições de ML que rolaram em 2022, incluindo um entendimento aprofundado de 67 soluções campeãs para finalmente entender os principais segredos das estratégias vencedoras de competições na ‘área de dados, conteúdo imperdível pra quem curte competições e desafios no Kaggle. (em Inglês) Um guia para iniciantes em engenharia de dadosEsse artigo bem direto ao ponto, apresenta um guia para pessoas que estão dando os primeiros passos (ou estão interessados) na área de engenharia de dados. O guia apresenta o que faz um DE no dia a dia, as diferenças dele para outros papéis na área de dados e as principais ferramentas e tecnologias utilizadas na área. (em Inglês)Conheça o BEHAVE uma lib em Python que vai te ajudar a escrever testes para modelos de Machine LearningCom o avanço do uso de ML em produção nas empresas, testar a precisão e confiabilidade dos modelos antes de colocar em produção tem se tornado cada vez mais fundamental. Com base nisso, esse artigo (+ vídeo) apresenta o Behave um framework de desenvolvimento orientado a comportamento (BDD) que permite definir e validar o comportamento dos modelos de machine learning de forma colaborativa e acessível. Entendendo a pirâmide de necessidades dos modelos de Machine LearningO Data Hacker Pedro Tabacof, fez um artigo bem interessante onde ele relaciona a Pirâmide de Maslow (Teoria da Hierarquia das Necessidades Humanas) com o contexto de solução de problemas utilizando Machine Learning. Segundo o autor, esse framework pode ajudar as pessoas a entender melhor algumas incertezas sobre a área de dados, além de propor um caminho para que se possa criar modelos de ML mais eficazes e bem-sucedidos. (em Inglês)

DICA DE VÍDEO

O guia definitivo para lideranças em dadosO vídeo aborda o que se espera de um líder na área de dados nas empresas, mostrando as diferentes habilidades e papéis que uma pessoa precisa desenvolver para se destacar nessa posição. O vídeo destaca que é importante que o líder saiba interpretar os dados e decidir quais informações são importantes para a empresa, além de colaborar com especialistas para garantir a precisão e qualidade dos dados utilizados na tomada de decisões.

(em Inglês)

VAGAS DA SEMANA

Data Engineer - YapeLima/Peru - Remoto

  • Experiência em bases SQL e NoSQL;

  • Experiência com Datapipelines e Datalakes;

  • Conhecimentos em Databricks, Spark e Deltalake;

  • Experiência com ambientes em cloud, preferencialmente Azure;

  • Experiência em CI/CD (bitbucket, jenkins, jira, artifactory, git);

  • Graduação em Computação, Matemática, Estatística ou áreas relacionadas;

  • Experiência prévia em análise de dados e/ou análise de negócios;

  • Python ou R;

  • SQL;

  • Experiência em análise de dados usando Excel, Tableau, Databricks ou outras ferramentas de visualização de dados;

MEME DA SEMANA

Meme da semana

Dica do Data Hacker Pietro Oliveira

DATA VISUALIZATION DA SEMANA

Nesse artigo, a equipe do Nexo Jornal destaca que as mulheres já são a maioria entre novos doutores e mestres no Brasil, sendo que de 2010 a 2021, 72,7% dos novos mestres e 53,1% dos novos doutores são do gênero feminino. Segundo os autores, a proporção de homens no doutorado costumava ser maior do que no mestrado, onde havia um número maior de cursos em educação, sendo assim, as mulheres se tornaram a maioria no mestrado ainda na década de 1980, mas no doutorado essa virada aconteceu apenas na década de 2010. Apesar disso, essa realidade infelizmente ainda está bem distante do mercado de trabalho, a pesquisa State of Data Brazil mostrou por exemplo que atualmente na área de dados mais de 75% dos profissionais são homens. (em português)

PROXIMOS EVENTOS E MEETUPS

AWS S3 Brazil Day30 de março - Presencial: Vila Olímpia ­São Paulo, SP

Meetup DS & ML Nubank - E agora qual modelo escolher?31 de março - 100% online e gratuito

Semantic Layer Summit 2023 23 de abril - 100% online e gratuitoObs: gostaria de ter seu evento divulgado aqui? Basta compartilhar ele em nosso canal do slack.

Logo