• Data Hackers Newsletter
  • Posts
  • Apache Airflow 3: Entenda o que está por vir e o que muda no futuro dos pipelines de dados

Apache Airflow 3: Entenda o que está por vir e o que muda no futuro dos pipelines de dados

Conheça as principais novidades da ferramenta, apresentadas no Apache Airflow Summit, e o que muda em comparação com as versões anteriores

Na semana passada, aconteceu o evento Airflow Summit 2024, marcando o décimo aniversário do lançamento do Apache Airflow. Durante o evento, diversas novas funcionalidades da ferramenta foram apresentadas, mas sem dúvida a principal novidade foi esta: o Airflow 3 permitirá que você execute tarefas em qualquer lugar e em qualquer linguagem (isso muda o jogo).

Com isso, estamos entrando em uma era empolgante com o Airflow 3, que trará ainda mais flexibilidade para os pipelines de dados, algo extremamente importante na era da AI Generativa.

A previsão é que os primeiros acessos em Alpha do Apache Airflow 3.0 comecem a ser liberados apenas em janeiro de 2025, porém, no evento da última semana foram divulgadas várias novidades (e spoilers) do que já está certo que será lançado. Nesse post vamos dar uma prévia das novidades que mais nos chamaram atenção:

Novidades do Apache Airflow 3

Uma das grandes novidades anunciadas no Airflow Summit 2024 é o aumento da flexibilidade da ferramenta, que promete permitir a execução de tarefas em diferentes ambientes e linguagens. Isso é crucial na era da AI generativa, onde os pipelines de dados precisam ser cada vez mais dinâmicos e adaptáveis.

Obs: Esse post foi construído com contribuições divulgadas por especialistas na área como Vikram Koka, Kaxil Naik, Marc Lamberti e Brent Bovenzi

Outra mudança significativa é a modernização da interface do usuário. Em breve o Airflow passará por uma transição para uma interface baseada em React com uma separação completa entre a API e a UI, a nova UI trará mais flexibilidade para o uso de plugins, onde a ideia é usar o design para ajudar a entender melhor os pipelines e facilitar o gerenciamento das suas DAGs.

Essa nova UI tem tudo para facilitar a vida de quem trabalha com pipelines de dados complexos, veja só o que vem por aí:

Além disso, o Airflow 3 vem com um crescimento expressivo de contribuidores. A comunidade da ferramenta continua crescendo de forma acelerada, o que demonstra a força e relevância do Airflow no ecossistema de dados.

Calendário previsto para os lançamentos do Apache Airflow 3.0

Data

Lançamento

Agosto de 2024

The main branch becomes Airflow 3 as soon as Airflow 2.10 is released

Dezembro de 2024

Dev complete on breaking changes for Upgrade Utilities work

Janeiro de 2025

Alpha releases

Fevereiro de 2025

Beta releases

Março de 2025

Airflow 3 release

Para mais detalhes sobre o lançamento e as respectivas datas acesse o link: https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0

Quais foram as últimas novidades lançadas no Airflow 2.10 que você já pode utilizar no dia a dia?

Bom, até o momento trouxemos muito do que ainda está por vir no próximo grande lançamento do Airflow, porém se você é heavy user da ferramenta, e quer entender melhor novidades que você já pode aplicar no dia a dia, a versão 2.10 do Airflow foi recém lançada e conta com muitas novas funcionalidades como por exemplo:

  • Crie datasets dinamicamente a partir de tasks
    Não é mais necessário definir datasets de forma estática. Agora, com a criação dinâmica, o gerenciamento dos dados fica muito mais flexível e automatizado.

  • Monitore melhor quais datasets disparam quais execuções de DAGs
    A nova interface permite rastrear com mais precisão as interações entre datasets e DAGs, facilitando o controle sobre o fluxo de execução.

  • Configure múltiplos executores para rodar suas tasks de forma eficiente
    Agora você pode combinar diferentes executores para otimizar a execução das suas tasks, ajustando-os de acordo com as necessidades de cada workflow.

  • Agora você pode atualizar seus DAGs com um simples clique
    A nova funcionalidade de reanálise de DAGs facilita a vida de quem precisa constantemente fazer ajustes e vê-los aplicados rapidamente.

  • Novo Método concat()

    Com o método concat(), ficou ainda mais fácil consolidar os resultados de várias tasks anteriores e utilizá-los em tasks subsequentes.

  • Novas Permissões ao Nível de DAG’s

    Agora é possível definir permissões detalhadas para criar ou deletar execuções de um DAG específico, melhorando o controle de acesso dentro do ambiente de Airflow.

  • Novos decorators run_if e skip_if

    Agora você pode definir condições claras para executar ou pular tarefas, tornando seus fluxos ainda mais inteligentes e dinâmicos.

Conclusão

O Apache Airflow 3 promete trazer ainda mais flexibilidade e poder para os seus pipelines de dados. Com uma nova UI moderna, suporte a execução de tarefas em diferentes ambientes e linguagens, e uma comunidade cada vez mais engajada, o Airflow se consolida como a principal ferramenta de orquestração de dados.

Estamos ansiosos para colocar as mãos na nova versão e explorar todas as possibilidades que ela trará. E você, o que achou das novidades do Airflow 3?

Quer ser o primeiro a acompanhar novidades como essa?

Quer ficar por dentro de todas as novidades do mundo de dados? Então não deixe de se inscrever na nossa Newsletter do Data Hackers.

O Data Hackers é a maior comunidade de dados do Brasil e traz semanalmente as principais notícias, artigos, eventos e oportunidades para profissionais da área.

Além da newsletter, você também pode acompanhar o Data Hackers no Youtube, Linkedin e participar do nosso Slack.

Junte-se a essa comunidade incrível e fique por dentro de tudo que acontece no mundo dos dados!