Data Hackers Newsletter
Posts
Apache Kafka: o que é e como usá-lo com AWS e Docker

Apache Kafka: o que é e como usá-lo com AWS e Docker

Descubra como implementar o Apache Kafka em ambientes AWS e Docker para otimizar suas aplicações de streaming de dados.

Data Hackers
9 de maio de 2025

Se você está em busca de uma solução poderosa para otimizar suas aplicações de streaming de dados, o Apache Kafka é uma escolha indispensável. Neste post, exploraremos como implementar essa plataforma robusta em ambientes AWS e Docker, permitindo que você aproveite sua capacidade de processar grandes volumes de dados em tempo real com eficiência.

Com a popularidade crescente do Kafka, utilizado por mais de 80% das empresas da lista Fortune 100, discutiremos as etapas práticas para configurá-lo e integrá-lo com serviços da AWS, assim como sua execução em containers Docker. Explore as vantagens de um ecossistema que suporta aplicações críticas e oferece escalabilidade impressionante.

O que é o Apache Kafka?

O Apache Kafka é uma plataforma de streaming de eventos distribuída de código aberto. É amplamente utilizada por empresas para criar pipelines de dados de alto desempenho, realizar análises em tempo real, integrar dados e suportar aplicações críticas. O Kafka destaca-se pela capacidade de processar grandes volumes de dados em tempo real, permitindo a entrega de mensagens com uma latência que pode ser tão baixa quanto 2 ms.

A arquitetura do Kafka é projetada para ser escalável, podendo ampliar a infraestrutura de produção para suportar milhares de brokers e trilhões de mensagens por dia, garantindo armazenamento eficiente para petabytes de dados. Isso significa que as empresas podem expandir e contrair sua capacidade de armazenamento e processamento de maneira elástica.

Outra característica importante é o suporte a armazenamento permanente. O Kafka armazena streams de dados de forma segura em um cluster distribuído, resistente a falhas e com durabilidade. Isso garante que os dados não sejam perdidos e possam ser recuperados facilmente em caso de problemas.

A alta disponibilidade é outra vantagem do Kafka, que pode ser configurado para estender clusters entre diferentes zonas de disponibilidade ou até mesmo para conectar clusters separados em diversas regiões geográficas.

Além disso, o Kafka possui um ecossistema robusto, que permite o processamento de streams de eventos com ações como joins, agregações, filtros e transformações. Ele se integra com uma vasta gama de fontes e destinos de eventos por meio de sua interface Connect, facilitando a interação com bancos de dados e serviços em nuvem como AWS S3.

O Kafka é suportado por uma grande comunidade de usuários, sendo uma das plataformas mais ativas da Apache Software Foundation. Com milhares de organizações utilizando sua tecnologia, o Kafka se estabeleceu como uma solução de confiança para necessidades críticas de streaming de dados.

O Kafka se destaca quanto a streamings de dados, além de permitir análises e criação de pipelines

Como configurar o Apache Kafka?

Configurar o Apache Kafka pode parecer uma tarefa desafiadora, mas será fácil se você seguir as etapas corretas. A seguir, apresentamos um guia passo a passo sobre como realizar essa configuração.

Passo 1: Instale o Java

Apache Kafka requer Java para funcionar. Certifique-se de ter a versão mais recente do Java JDK instalada em seu sistema. Você pode baixar o Java em oracle.com.

Passo 2: Baixe o Apache Kafka

Após instalar o Java, o próximo passo é baixar o Apache Kafka. Acesse a página de downloads do Kafka e escolha a versão mais recente. Extraia o conteúdo do arquivo compacto em um diretório desejado.

Passo 3: Inicie o Zookeeper

O Zookeeper é um componente essencial que gerencia o cluster do Kafka. Para iniciá-lo, abra o terminal ou o prompt de comando e navegue até a pasta do Kafka. Execute o seguinte comando:

bin/zookeeper-server-start.sh config/zookeeper.properties

No Windows, use:

.\bin\windows\zookeeper-server-start.bat .\config\zookeeper.properties

Passo 4: Inicie o Kafka Server

Com o Zookeeper em funcionamento, é hora de iniciar o servidor Kafka. Em um novo terminal ou prompt de comando, execute:

bin/kafka-server-start.sh config/server.properties

Ou no Windows:

.\bin\windows\kafka-server-start.bat .\config\server.properties

Passo 5: Crie um tópico

Os tópicos são essenciais para armazenar suas mensagens. Para criar um tópico, execute:

bin/kafka-topics.sh --create --topic MeuPrimeiroTopico --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

No Windows, use:

.\bin\windows\kafka-topics.bat --create --topic MeuPrimeiroTopico --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

Passo 6: Envie mensagens para o tópico

Agora, você pode enviar mensagens para o tópico criado. Inicie o Kafka Producer com o comando:

bin/kafka-console-producer.sh --topic MeuPrimeiroTopico --bootstrap-server localhost:9092

Para Windows:

.\bin\windows\kafka-console-producer.bat --topic MeuPrimeiroTopico --bootstrap-server localhost:9092

Passo 7: Consuma as mensagens

Para ver as mensagens que você enviou, inicie o Kafka Consumer em outro terminal com o seguinte comando:

bin/kafka-console-consumer.sh --topic MeuPrimeiroTopico --from-beginning --bootstrap-server localhost:9092

No Windows:

.\bin\windows\kafka-console-consumer.bat --topic MeuPrimeiroTopico --from-beginning --bootstrap-server localhost:9092

Agora você deve ser capaz de ver as mensagens sendo consumidas em tempo real.

Como usar o Apache Kafka com AWS?

Para utilizar o Apache Kafka na AWS, você pode aproveitar o serviço gerenciado conhecido como Amazon Managed Streaming for Apache Kafka (MSK). Este serviço simplifica a implementação e gestão de clusters Kafka, permitindo que você se concentre no desenvolvimento de suas aplicações sem se preocupar com a infraestrutura.

Passo a passo para implementação do Amazon MSK

Criar um cluster MSK: O primeiro passo é criar um cluster MSK provisionado através do AWS Management Console. Escolha entre opções predefinidas ou personalize de acordo com suas necessidades específicas.
Configurar uma função IAM: Para interagir de forma segura com o cluster MSK, você precisará criar uma função IAM (Identity and Access Management) que conceda permissões ao seu cliente para criar tópicos no cluster.
Criar uma máquina cliente: Após configurar as permissões, o próximo passo é configurar uma máquina cliente que será utilizada para produzir e consumir dados do seu cluster Kafka.
Criar um tópico no cluster MSK: Com o cluster e a máquina cliente prontos, crie um ou mais tópicos dentro do seu cluster. Os tópicos são fundamentais para definir onde seus dados serão armazenados.
Produzir e consumir dados: Após a criação dos tópicos, você pode começar a produzir dados neles e também consumir os dados que forem enviados, normalmente através de bibliotecas específicas do Kafka em sua linguagem de programação preferida.
Monitorar o cluster: Acompanhe a saúde do seu cluster utilizando o Amazon CloudWatch, que fornece métricas como latência e erro de produção e consumo, permitindo a identificação rápida de problemas.
Limpar recursos: Por fim, não esqueça de deletar os recursos criados para o tutorial, garantindo que você não seja cobrado por serviços não utilizados.

Utilizar o Apache Kafka com a AWS oferece numerosas vantagens em termos de escalabilidade, segurança e gerenciamento, simplificando a criação de aplicações que processam streaming de dados em tempo real.

Quais as diferenças entre Apache Kafka e AWS Kinesis?

Quando se trata de streaming de dados, tanto o Apache Kafka quanto o AWS Kinesis oferecem soluções robustas, mas existem diferenças cruciais.

Arquitetura e Operação

O Apache Kafka é um sistema de mensagens distribuído que permite gerenciar fluxos de dados em grande escala, projetado para funcionar em clusters de brokers. Já o AWS Kinesis é um serviço gerenciado que abstrai a complexidade da infraestrutura, permitindo um gerenciamento mais eficiente, já que escala automaticamente.

Facilidade de Configuração

A configuração do Kafka geralmente requer mais tempo e conhecimento técnico, enquanto o Kinesis pode ser configurado rapidamente em questão de horas, com a Amazon cuidando de manutenção contínua.

Performance e Tuning

Embora o Kafka ofereça alta taxa de transferência e baixa latência, isso exige ajustes cuidadosos em suas configurações. O Kinesis, por outro lado, proporciona desempenho estável, mas com menos opções de configuração, o que pode não oferecer o mesmo nível de flexibilidade.

Preço e Custos

O Kafka não apresenta tarifas diretas, mas possui custos relacionados à infraestrutura e manutenção. O Kinesis opera em um modelo de pagamento conforme o uso, podendo acarretar custos elevados em cargas de trabalho variáveis.

Integração com Outros Sistemas

O Kinesis se integra bem com outros serviços da AWS, o que é vantajoso para empresas que utilizam o ecossistema AWS. Já o Kafka possui um ecossistema amplo, com muitos conectores disponíveis, permitindo uma personalização profunda das aplicações.

A escolha entre Apache Kafka e AWS Kinesis dependerá das necessidades específicas de cada projeto.

É possível usar o Apache Kafka com Docker?

Sim, é possível usar o Apache Kafka com Docker, e essa combinação tem se tornado popular para o desenvolvimento e execução de aplicações de streaming de dados. O uso de containers facilita a configuração e a implementação do Kafka.

Vantagens de usar Docker com Kafka

Ambiente Controlado: Garante que o ambiente de execução do Kafka seja o mesmo em diferentes máquinas, permitindo um desenvolvimento consistente.
Descomplicação da Configuração: Com Docker, você pode usar imagens pré-configuradas que simplificam o processo de configuração do Kafka.
Escalabilidade: Permite criar e destruir instâncias conforme necessário, escalando a infraestrutura de forma dinâmica.

Como executar o Apache Kafka em Docker?

Para iniciar o Apache Kafka em um ambiente Docker, siga os seguintes passos:

Pré-requisitos: Certifique-se de ter o Docker e o Docker Compose instalados em sua máquina.
Iniciar o Kafka: Use o seguinte comando para iniciar um contêiner Kafka:
```
docker run -d --name=kafka -p 9092:9092 apache/kafka
```
Verificar o Status: Após iniciar o contêiner, você pode verificar se o Kafka está rodando corretamente usando:
```
docker exec -ti kafka /opt/kafka/bin/kafka-cluster.sh cluster-id --bootstrap-server :9092
```
Publicar e Consumir Mensagens: Crie um tópico e teste a publicação de mensagens utilizando os comandos específicos do Kafka.

Conexão de Aplicações

Com Docker, é fácil conectar aplicações, quer elas estejam no mesmo contêiner ou em contêineres diferentes. É importante configurar adequadamente os listeners no Kafka, ajustando as variáveis de ambiente relacionadas a KAFKA_LISTENERS e KAFKA_ADVERTISED_LISTENERS no seu arquivo docker-compose.yml.

Utilizar o Apache Kafka com Docker oferece uma forma prática, escalável e eficiente de gerenciar suas aplicações de streaming de dados.

Quais aplicações podem se beneficiar do Apache Kafka?

O Apache Kafka é uma ferramenta poderosa que se destaca em diversas aplicações:

Streaming de dados: Ideal para situações onde a latência é crítica, garantindo entrega de dados em tempo real.
Arquitetura de microsserviços: Facilita a interconexão de microsserviços, agilizando o gerenciamento de serviços distribuídos.
Gerenciamento de logs: Centraliza e gerencia logs de forma eficaz em ambientes distribuídos.
Mensageria assíncrona: Melhora o desempenho em sistemas distribuídos, reduzindo a latência nas comunicações.
Integração de dados: Permite integrar dados de diferentes sistemas, unificando informações de diversas fontes em tempo real.

Empresas que utilizam o Kafka, como Uber e Spotify, têm aprimorado seus sistemas de backend e a experiência do usuário através dessa tecnologia inovadora.

Porque utilizar o Apache Kafka em streaming de dados?

O Apache Kafka se tornou uma ferramenta essencial para empresas que lidam com dados em tempo real. Vamos explorar algumas razões para utilizar o Kafka neste contexto:

1. Processamento em tempo real

Permite que aplicações respondam imediatamente a eventos, sendo fundamental em setores como fintech e IoT.

2. Escalabilidade

O Kafka lida com milhões de eventos por segundo, facilitando a expansão conforme a demanda aumenta.

3. Baixa latência

Transmissão de dados em curto período de tempo, vantajosa para atualizações instantâneas.

4. Persistência dos dados

Retém dados por um período configurável, permitindo acesso independente para múltiplos consumidores.

5. Flexibilidade

Integra diferentes produzidores e consumidores de dados, permitindo múltiplas aplicações e plataformas.

6. Robustez

Projetado para se recuperar rapidamente de falhas, garantindo alta disponibilidade e resiliência.

7. Integração com outras ferramentas

Se integra facilmente com tecnologias e frameworks de big data, permitindo a construção de pipelines de dados complexos.

Essas características fazem do Kafka uma escolha privilegiada para diversas aplicações de streaming de dados.

Vale a pena experimentar o Apache Kafka?

Vale a pena explorar o Apache Kafka se você busca uma ferramenta robusta para o processamento de dados em tempo real. Neste post, abordamos suas principais características e como configurá-lo utilizando ambientes AWS e Docker, permitindo que você aproveite sua escalabilidade e flexibilidade para diferentes aplicações.

Ao integrar o Kafka ao seu fluxo de trabalho, você não apenas otimiza o processamento de dados, mas também transforma a forma como sua empresa lida com informações em tempo real. As possibilidades de uso são vastas, desde streaming de dados até construções complexas de microsserviços, proporcionando uma base sólida para inovações em sua infraestrutura de TI.