- Data Hackers Newsletter
- Posts
- Comparação entre Amundsen e outras ferramentas de descoberta de dados
Comparação entre Amundsen e outras ferramentas de descoberta de dados
Entenda as diferenças entre o Amundsen e soluções como Apache Atlas e OpenMetadata, e descubra a melhor opção para sua equipe.
Se você está em busca de uma ferramenta eficiente para catalogação e descoberta de dados, é fundamental entender as diferenças entre o Amundsen, o Apache Atlas e o OpenMetadata. Neste post, vamos explorar as funcionalidades e vantagens do Amundsen, que se destaca por sua interface intuitiva e enfoque em aumentar a produtividade das equipes de dados, além de fazer uma comparação direta com essas outras soluções populares.
O que é o Amundsen?
O Amundsen é uma ferramenta desenvolvida pela Lyft para catalogação e descoberta de dados, que visa aumentar a produtividade de cientistas de dados e analistas. Seu nome homenageia o explorador norueguês Roald Amundsen, refletindo a missão de explorar e navegar no vasto mundo dos dados.
A plataforma funciona como um motor de metadados, permitindo que os usuários procurem e descubram dados dentro de suas organizações de maneira eficiente. Isso é feito por meio de uma interface simplificada, que possibilita a busca de informações com base em texto simples, utilizando um algoritmo similar ao PageRank para classificar os resultados.
Um dos principais desafios enfrentados pelas empresas atualmente é o crescimento exponencial dos dados. A quantidade de dados disponíveis cresceu de forma sem precedentes, trazendo a necessidade de formas mais efetivas de gerenciamento e acesso às informações. O Amundsen aborda esses problemas organizando dados por meio de metadados — dados que descrevem outros dados.
Os metadados são fundamentais para o funcionamento do Amundsen, pois permitem que os usuários respondam a perguntas cruciais sobre os dados, como:
Esses dados estão disponíveis? Onde posso encontrá-los?
Quem é o proprietário destes dados?
Existe algum uso anterior que eu possa reaproveitar?
Posso confiar na qualidade desses dados?

O Amundsen é hoje uma das ferramentas de catalogação e descoberta de dados mais consideradas
Melhoria da Produtividade
O Amundsen permite que os cientistas de dados gastem menos tempo procurando por conjuntos de dados e mais tempo analisando essas informações. Sua interface oferece uma visão detalhada dos dados, proporcionando informações sobre a proveniência, uso e evolução dos conjuntos de dados ao longo do tempo. Essa funcionalidade é vital para garantir que os usuários não apenas encontrem os dados, mas também compreendam seu contexto e relevância dentro da organização.
Vantagens do Amundsen e Comparação com Apache Atlas
Quando se trata de descoberta de dados, Amundsen e Apache Atlas são duas ferramentas populares no ecossistema de dados, cada uma com suas peculiaridades e vantagens. A seguir, discutiremos as principais vantagens do Amundsen em comparação com o Apache Atlas.
1. Interface Amigável e Foco na Experiência do Usuário
Uma das grandes vantagens do Amundsen é a sua interface de busca intuitiva, que facilita a descoberta de dados. Seu design se assemelha ao de um motor de busca, permitindo que analistas encontrem rapidamente as informações de que precisam. A capacidade de integrar dados de diversas fontes torna a ferramenta acessível e prática para usuários com diferentes níveis de habilidade técnica.
2. Contribuições da Comunidade e Atualizações Constantes
O Amundsen é impulsionado por uma comunidade ativa, com mais de 100 contribuidores e diversas organizações usando a plataforma. Essa dinâmica comunitária resulta em melhorias constantes e novos recursos, o que se traduz em uma experiência de usuário otimizada. O Apache Atlas, apesar de seus recursos robustos, pode apresentar uma menor frequência de atualizações devido à sua natureza mais corporativa.
3. Flexibilidade na Configuração e Implantação
O Amundsen oferece diversas opções de implantação, incluindo ambientes como Kubernetes, AWS ECS e execução local em Docker. Essa flexibilidade permite que as equipes escolham a configuração que melhor se adapta às suas necessidades. O Apache Atlas, embora também flexível, é frequentemente associado a uma arquitetura mais complexa, que pode dificultar a adoção para equipes menores.
4. Enfoque em Descoberta de Dados e Não em Governança
O foco do Amundsen é a descoberta de dados, enquanto o Apache Atlas concentra-se mais em governança de dados. Se você precisa de uma solução que maximize a eficiência na descoberta e utilização de dados, o Amundsen pode ser a escolha ideal.
5. Integrações com Outras Ferramentas
O Amundsen se integra facilmente a outras ferramentas de ETL, como Apache Airflow e dbt, permitindo que os usuários aumentem a funcionalidade da plataforma. Embora o Apache Atlas possua potenciais integrações, a facilidade do Amundsen geralmente o torna uma opção mais atraente para aqueles que buscam um ecossistema ágil.
Diferenças entre Amundsen e OpenMetadata
Quando se trata de ferramentas de catálogo de dados, Amundsen e OpenMetadata atendem a necessidades semelhantes, mas apresentam diferenças significativas em sua arquitetura, funcionalidades e abordagem de uso.
1. Arquitetura e Mecanismos de Ingestão
O Amundsen utiliza uma biblioteca de ingestão de dados que permite processamento em tempo real. Ele utiliza Elasticsearch para pesquisa avançada e um banco de dados Neo4j para armazenar estruturas de relacionamento dos dados, possibilitando acesso eficiente a informações interligadas. Já o OpenMetadata opera com um mecanismo de ingestão baseado em pull e push, utilizando MySQL para armazenamento de entidades e Elasticsearch para busca, mas não possui um banco de dados de grafos.
2. Descoberta e Pesquisa
Ambas as ferramentas oferecem funcionalidades robustas de pesquisa, mas suas abordagens divergem. O Amundsen aprimora a pesquisa com base no feedback dos usuários, enquanto o OpenMetadata permite buscas através de consultas booleanas complexas, tornando-o adaptável para radares de dados multifacetados.
3. Linha do Tempo e Qualidade dos Dados
O Amundsen tem evoluído para incluir suporte nativo à ingestão de metadados de linha de tabela e coluna, armazenando-os em Neo4j. O OpenMetadata permite captura de metadados de linha a partir de múltiplas fontes e oferece ferramentas de edição flexíveis.
4. Governança e Segurança
A governança de dados é um ponto de destaque do OpenMetadata, que oferece um modelo abrangente de controle de acesso baseado em papéis e auditorias detalhadas. O Amundsen também suporta características básicas de governança, mas sua abordagem é mais focada em democratizar o acesso aos dados.
5. Integrações
Ambas as soluções se destacam em termos de integrações, mas o OpenMetadata se distingue ao oferecer suporte para uma ampla gama de serviços de orquestração e ferramentas de mensagens, como Apache Kafka e Airflow. O Amundsen, embora possua integrações com ferramentas como Tableau e Redash, não alcança a mesma amplitude de conectividade.
A escolha entre Amundsen e OpenMetadata pode variar conforme as necessidades específicas de cada equipe ou organização.

Interface do Amundsen Data
Alternativas ao Amundsen
Enquanto o Amundsen se destaca como uma ferramenta open-source, existem outras soluções que podem se adequar às necessidades da sua equipe. Aqui estão algumas das principais alternativas:
1. DataHub
Construído pela LinkedIn, o DataHub visa resolver problemas de catalogação e descoberta de dados, automatizando a ingestão de metadados de fontes diversas e facilitando a busca.
2. Metacat
Desenvolvido pela Netflix, o Metacat é uma plataforma open-source para gestão de metadados, simplificando a descoberta de dados e a interoperabilidade.
3. Apache Atlas
O Apache Atlas é uma solução amplamente utilizada para criação de catálogos de ativos de dados, oferecendo visualização de linhagens de metadados e funcionalidades robustas.
Essas ferramentas oferecem práticas valiosas de descoberta de dados e podem ser consideradas dependendo das necessidades específicas da sua equipe.
Como Escolher a Melhor Ferramenta de Descoberta de Dados
A escolha da ferramenta de descoberta de dados adequada é crucial para maximizar a eficiência da sua equipe e otimizar processos. Para uma seleção inteligente, considere os seguintes fatores:
Facilidade de uso: A ferramenta deve ter uma interface intuitiva.
Escalabilidade: A solução deve crescer com suas necessidades.
Integrações: A capacidade de conectar-se a outras ferramentas já utilizadas é fundamental.
Custo-benefício: Avalie o preço da assinatura e os benefícios oferecidos.
Funcionalidades e suporte: Verifique recursos avançados e a qualidade do suporte ao cliente.
Feedback da equipe: Envolver sua equipe no processo de seleção é aconselhável.
Capacitação e treinamento: Considere o tempo e os recursos necessários para treinar sua equipe.
Esses critérios irão ajudá-lo a escolher a ferramenta de descoberta de dados que melhor atenda às suas necessidades e suporte a tomada de decisões baseada em dados.
Vale a pena usar o Amundsen?
Ao considerar a escolha entre Amundsen, Apache Atlas e OpenMetadata, fica evidente que cada ferramenta possui suas peculiaridades e benefícios que podem atender diferentes necessidades. O Amundsen se sobressai pela sua interface amigável e foco na descoberta de dados, tornando-o ideal para equipes que buscam eficiência na exploração e utilização de conjuntos de dados. Por outro lado, soluções como Apache Atlas e OpenMetadata oferecem vantagens em governança e funcionalidades adicionais, podendo ser mais adequadas para organizações que priorizam esses aspectos.
Em resumo, a decisão sobre qual ferramenta adotar deve ser baseada nas especificidades da sua equipe, considerando elementos como facilidade de uso, integrações desejadas e o foco em produtividade ou governança de dados. Com as informações apresentadas, você está mais preparado para escolhas inteligentes que podem aprimorar o trabalho com dados na sua organização.