Engenharia de Dados [Cast]

Luan Moreno M. Maciel

Aqui no podcast, sabemos que o mundo de dados pode ser overwhelming: são tantas ferramentas, plataformas e metodologias novas surgindo toda semana que fica difícil acompanhar.  Nossa missão é simplificar essa complexidade e te ajudar a fazer escolhas mais inteligentes sobre qual tecnologia usar em cada situação. Em cada episódio, conversamos com especialistas que estão na linha de frente, compartilhando experiências reais, acertos, erros e lições aprendidas. É aquele papo técnico que você teria com um colega experiente tomando um café , só que gravado para você ouvir quando e onde quiser. A ideia é que você saia de cada episódio com algo prático para aplicar no seu dia a dia, seja uma nova perspectiva sobre uma ferramenta, uma dica de arquitetura ou insights sobre tendências que realmente valem a pena acompanhar. Nosso objetivo é simples: te ajudar a se tornar um profissional mais confiante e preparado, sem a pressão de ter que saber tudo sobre tudo. É o lugar onde conhecimento técnico encontra conversas humanas, criando uma comunidade de profissionais que crescem juntos na área de dados.

  1. MAR 10

    Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow

    Um pipeline monolítico de 5.000 linhas. Sete notebooks acoplados. Dez chamadas de API dentro de definições DLT. O que acontece quando você coloca quarenta agentes de IA especializados nesse problema e dá um prazo de três dias? Neste episódio da série Era dos Agentes, exploramos a refatoração completa do pipeline de dados do InfraView: de um monolito no Databricks para uma arquitetura limpa de três camadas, usando AWS Lambda, Lakeflow Declarative Pipelines e Databricks Asset Bundles. A história começa com um problema real: a infraestrutura que sustentava a cobrança de clientes era frágil, não escalável e impossível de testar. Um timeout de API às duas da manhã derrubava o pipeline inteiro. Doze constantes críticas de threshold estavam espalhadas como números mágicos por cinco arquivos diferentes. Ninguém conseguia provar que as fórmulas estavam corretas. Na segunda sessão, o projeto quase parou. Um bug não documentado no motor DLT: o decorator dp.table em Python, com nomes fully qualified, quebrava a resolução do grafo JVM em pipelines multi-schema. Foram três a quatro horas de debugging. Sete abordagens falharam. Até que surgiu o Padrão Híbrido SQL+Python: notebooks Python criam views temporárias com dp.view para a lógica complexa, e notebooks SQL registram as tabelas finais com CREATE OR REFRESH. O DLT processa tudo como um único grafo de computação. O clímax é a validação em escala de produção: 920.676 registros reais de OTel processados simultaneamente pelos dois pipelines, legado e novo. 822 milhões de linhas Silver geradas. O resultado: InfraRating (risco e otimização) com 100% de match exato em 42.640 comparações. Performance de 38 minutos no serverless contra 90 minutos no clássico: 2,3 vezes mais rápido, com dados idênticos. O novo pipeline encontrou 68 hosts onde o legado encontrava apenas 14. Não é só equivalente: é melhor. Como foi construído: uma pessoa de engenharia trabalhando com Claude Code e quarenta agentes de IA especializados: lakeflow architect, spark specialist, code reviewer, lambda builder, medallion architect. Seis sessões ao longo de três dias. 1,8 milhão de tokens de raciocínio colaborativo. Tecnologias: Claude Code, Databricks Lakeflow, Unity Catalog, AWS Lambda, SAM, Databricks Asset Bundles, PySpark, Spark SQL, Auto Loader e Delta Live Tables. Este episódio foi gerado com NotebookLM a partir de fontes produzidas por agentes de IA especializados. O conteúdo que você ouve é o produto direto da era agêntica em ação. Luan Moreno = https://www.linkedin.com/in/luanmoreno/

    13 min
  2. 06/23/2025

    The Data Engineering & GenAI Era: Insights with Eduardo Ordax

    O Impacto da IA Generativa no Presente e Futuro dos Dados Prepare-se para uma conversa de altíssimo nível sobre como a Inteligência Artificial Generativa está transformando o mundo dos dados, das empresas e das carreiras. Neste episódio, Luan Moreno recebe Eduardo Ordax, Líder de IA Generativa na AWS, e Mateus Oliveira para discutir, sem rodeios, os impactos reais da IA no mercado. O que você vai aprender neste episódio: Como a IA Generativa está mudando a forma como construímos pipelines, produtos e soluções de dados.Os principais desafios que empresas enfrentam ao implementar GenAI — e por que tecnologia não é mais o problema, mas sim pessoas e dados.O papel da Engenharia de Dados no mundo da IA e como ela se conecta com conceitos como LLMOps, Fine-Tuning, Prompt Engineering e Data-Centric AI.Por que o domínio dos fundamentos nunca foi tão importante para quem trabalha (ou quer trabalhar) com dados e IA.Reflexões sobre o futuro das carreiras em dados e IA — será que os engenheiros de dados, cientistas de dados e desenvolvedores serão substituídos ou terão um papel ainda mais relevante?As diferenças entre usar IA para brincar no ChatGPT e levar IA para resolver problemas de negócios no mundo real, em escala e em produção.Este é um papo sobre IA.  É uma imersão completa sobre os desafios, as oportunidades e a visão de futuro para quem trabalha com dados, engenharia, machine learning e inteligência artificial. Luan Moreno = https://www.linkedin.com/in/luanmoreno/

    56 min

About

Aqui no podcast, sabemos que o mundo de dados pode ser overwhelming: são tantas ferramentas, plataformas e metodologias novas surgindo toda semana que fica difícil acompanhar.  Nossa missão é simplificar essa complexidade e te ajudar a fazer escolhas mais inteligentes sobre qual tecnologia usar em cada situação. Em cada episódio, conversamos com especialistas que estão na linha de frente, compartilhando experiências reais, acertos, erros e lições aprendidas. É aquele papo técnico que você teria com um colega experiente tomando um café , só que gravado para você ouvir quando e onde quiser. A ideia é que você saia de cada episódio com algo prático para aplicar no seu dia a dia, seja uma nova perspectiva sobre uma ferramenta, uma dica de arquitetura ou insights sobre tendências que realmente valem a pena acompanhar. Nosso objetivo é simples: te ajudar a se tornar um profissional mais confiante e preparado, sem a pressão de ter que saber tudo sobre tudo. É o lugar onde conhecimento técnico encontra conversas humanas, criando uma comunidade de profissionais que crescem juntos na área de dados.