Engenharia de Dados [Cast]

pt-brMarch 05, 2024

open source

data analytics

real-time stream processing

Desafios na Construção de uma Plataforma de Dados no Kubernetes com o Time do Orion

No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistam o time do Orion da One Way Solution.

Plataforma de Dados no Kubernetes é um dos tópicos mais pedidos para falarmos aqui no Podcast, principalmente para quem tem a necessidade de uma plataforma agnóstica a cloud e de baixo custo.

Neste bate papo iremos falar sobre:

Nas trincheiras da consultoria;
Aprendendo Kubernetes;
Plataforma de Dados no Kubernetes.

Esse podcast tem como principal objetivo mostrar os desafios de criar uma plataforma customizada usando open-source.

LinkedIn do time Orion
Site da One Way Solution
Strimzi
MinIO
Airflow

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brFebruary 27, 2024

kubernetes

plataforma de dados no kubernetes

mateus oliveira

Gestão & Produtos de Dados com o Time de Dados da Clicksign

No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram
Thiago Rocha (Scrum Master), Marco Coimbra (Data Product Manager),
José Ivamotto (Head de Dados) e Franklin Ferreira (Arquiteto de Dados), integrantes do time de dados da Clicksign.

Gestão & Dados com Produto são tópicos extremamente relevantes nos dias de hoje.
Falar sobre dados sem se preocupar com a gestão, pode trazer impactos negativos às entregas envolvendo dados nas organizações.
Além disso, entender como as empresas vem produzindo dados é um excelente benchmarking para inovações.
Neste bate papo iremos falar sobre:

Dados como Produto;
Times de dados;
Gestão de Dados.

O principal objetivo deste episódio é mostrar como as empresas estão tratando esses tópicos no cotidiano.
Não apenas no nível técnico e gerencial, mas também com a visão de todos os envolvidos, Scrum Master e DPM (Data Product Manager).

Linkedin do time Clicksign
Thiago Rocha (Scrum Master): https://www.linkedin.com/in/thiago-rocha98/
Marco Coimbra (Data Product Manager): https://www.linkedin.com/in/marcoantoniocoimbrafilho/
Jose Ivamotto (Head de dados): https://www.linkedin.com/in/jose-ivamotto/
Franklin Ferreira (Arquiteto de dados): https://www.linkedin.com/in/franklinfs390/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brJanuary 25, 2024

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Challenge in Bulding an Open-Source Community with Aaron Williams

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Aron Willians, atualmente como Community Manager/ Developer Advocate na Ampare.

Aaron é apaixonado por trazer novas tecnologias para desenvolvedores atuais e para a próxima geração, por meio de hacking e treinamento prático. Neste podcast, você vai aprender sobre:

Desafios na construção da comunidade de código aberto;
Visão gerencial de comunidades de dados;
Empresas que estão investindo no impulsionamento do Pulsar.

Falamos também nesse bate-papo sobre os seguintes temas:

Tecnologia como Kuberbetes;
Apache Pulsar.

Aprenda mais sobre as comunidades de dados e sobre as principais tecnologias do Mercado.

Ararob Willians= https://www.linkedin.com/in/aaron-don-williams/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brNovember 21, 2023

O Desafio da Engenharia de Dados no iFood com o Diretor de ML e Engenharia, Ivan Lima

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Ivan Lima, atualmente Director of Machine Learning & Data Engineering no Ifood.

Ifood é uma das maiores empresas do Brasil e, claro, leva o assunto sobre dados muito a serio. Imagine receber diversos dados do aplicativo, além de possuir várias sessões analíticas e dados em alto volume.
Neste podcast, conversamos sobre:

Desafios na área de dados de grandes corporações;
Visão gerencial.

Falamos também sobre os seguintes temas:

Mercado de trabalho no Brasil em 2022;
Tecnologias usadas dentro do Ifood;
Softskills;
Gestão de times de dados.

Aprenda mais sobre como as empresas estão lidando com o desafio de dados internamente, principalmente de grande porte como Ifood.
Ivan Lima = Linkedin

pt-brOctober 31, 2023

skills

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

The Data Lakehouse Paradigm with Bill Inmon - The Father of Data Warehouse

No episódio de hoje, Luan Moreno, Mateus Oliveira e Orlando Marley entrevistam Bill Inmon, criador do conceito de Data Warehouse e escritor de diversos livros com temáticas voltadas para dados.

Data Warehouse é o conceito de centralização de dados analíticos das organizações, de forma estruturar um visão 360° do business. Neste episódio, você irá aprender:

Diferenças entre OLTP e OLAP;
Histórico dos dados para tomada de decisão;
Criar um processo resiliente para entender os fatos dos dados.Falamos também,

neste bate-papo, sobre os seguintes temas:
História do Bill Inmon;
Pilares de sistemas analíticos;
Nova geração de plataforma de dados analíticos;

Aprenda mais sobre análise de dados, como utilizar tecnologias para tornar o seu ambiente analítico confiável e resiliente com as palavras do pai do Data Warehouse.

Bill Inmon = Linkedin

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brOctober 12, 2023

Querying Data with Trino from Earth to Space - Talk with Brian Olsen, a Developer Advocate at Starburst

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Brian Olsen, atualmente Head of Developer Relations na Tabular.

Trino é um produto open-source, para virtualizar os dados através de queries. Imagine uma engine de SQL capaz de consultar dados do Apache Kafka, Cloud Storage, Databases e diversas outras fontes de forma simples e extremamente eficaz.
Com Trino, você tem os seguintes benefícios:

Diversos conectores para múltiplas fontes de dados
Gerar queries analytics de forma simples e eficaz
Trabalhar com modelos de Lakehouse como Iceberg e Delta

Falamos também neste bate-papo sobre os seguintes temas:

História do Trino
Capacidades do Trino
Recursos avançados
Novas features
Adaptive Query Execution
Casos de Uso

Aprenda mais sobre Trino, e como utilizar esta tecnologia para explorar os dados em diversas fontes diferentes, junto com um dos principais vozes da comunidade.

Brian Olsen

https://pinot.apache.org/

pt-brOctober 09, 2023

A Day in a Life of a Founding Engineer at StarTree: Apache Pinot with Neha Pawar

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Neha Pawar, atualmente Founder Engineer na StarTree.

Apache Pinot é um banco de dados OLAP de baixa latência, que foi desenvolvido para queries analíticas dentro do Linkedin.
O objetivo é resolver um dos problemas que tecnologias como o Apache Kafka não resolvem, consultar bilhões de eventos com performance e baixa latêcia .

Com Apache Pinot, você tem os seguintes benefícios:

Alto desempenho de consultas analíticas;
Dados que residem no Apache Pinot são comprimidos;
Habilita milhares de acessos concorrentes aos dados residentes no Apache Pinot.

Falamos também sobre os temas:

Criação do Apache Pinot;
User Facing Analytics;
Tipos de Deployment no Apache Pinot;
O que vem por aí no Apache Pinot.

Aprenda mais sobre Apache Pinot, uma tecnologia capaz de armazenar dados em tempo real, e executar queries com baixa latência, chegando até milissegundos.

Neha Pawar = Linkedin

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brJuly 25, 2023

Simplificando Projetos de Analytics utilizando dbt e Modern Data Stack com Matheus Willian, Head of Data Engineering na One Way Solution

No episódio de hoje, Luan Moreno e Mateus Oliveira conversam com Matheus Willian, atualmente Head de Engenharia de Dados na One Way Solution.

dbt é uma das tecnologias mais faladas e utilizadas fora do país, possibilitando aos times de todos os portes trabalhar com o conceito de Modern Data Stack, tornando o desenvolvimento de transformações dos dados de forma simples e com SQL.

Com dbt, você tem os seguintes benefícios:

Desenvolvimento de pipeline de dados usando SQL;
Reutilização dos códigos usando estruturas de git;
Simplificação da Stack de dados;
Processamento em Modern Data Warehouses dentro outros adapters.

Falamos também nesse bate-papo sobre os seguintes temas:

Dados como pilar central;
Dbt;
Times de BI Moderno.

Aprenda mais sobre dbt, como utilizar uma tecnologia para Modern Data Stack, junto com o time da One Way Solution, que mais impulsiona a comunidade, tanto com conteúdo, como com treinamentos e eventos para ajudar os profissionais de dados brasileiros em vagas de trabalho dentro e fora do país.

Matheus Willian = https://www.linkedin.com/in/matheuswillian/
https://www.getdbt.com/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brJuly 04, 2023

Conferência Kafka Summit 2023 London

No episódio de hoje, Luan Moreno e Mateus Oliveira conversam sobre a participação no Kafka Summit London 2023.
Kafka Summit é uma das maiores conferências de tecnologia do mundo, onde empresas de tecnologias de streaming anunciam novidades e podemos entender mais sobre como as elas estão usando estas tecnologias no dia a dia.

Na conferência tivemos 3 momentos:

Keynote - (Anúncios);
Vendor Hall - (Onde os patrocinadores ficam);
Sessions - (Salas que os palestrantes fazem suas apresentações).

Falamos também nesse bate-papo sobre os seguintes temas:
Anúncios Open-Source;
Anúncios Confluent;
Overview das sessões;
Hall dos patrocinadores;
Impressões principais da Conferência.

Aprenda mais sobre tecnologias como Apache Kafka, Apache Flink dentre outras de Streaming. Além disso, vamos entender como as empresas como financeiras europeias, Apple, Uber, Netflix, entre outras, estão usando o Apache Kafka para resolver problemas de negócio.

Kafka Summit 2023 London
https://www.confluent.io/events/kafka-summit-london-2023/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brJune 27, 2023

Cloudera CDP & Stream Processing para Real-Time Analytics com André Araújo, Field Engineer, Data in Motion na Cloudera

No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram André Araújo , atualmente como Field Engineer, Data in Motion na Cloudera.

CDP é uma Plataforma de Dados Enterprise Cloudera, com foco na versatilidade em casos de uso como Streaming Platform, possuindo tecnologias como Apache Kafka e Apache Flink .

Com CSP, você tem os seguintes benefícios:

Apache Kafka - Plataforma de armazenamento de Streaming de Dados líder de mercado;
Apache Flink - Plataforma de Processamento de Dados.

Neste bate-papo vamos falar sobre:

Plataforma de Dados Cloudera ;
Plataforma de transmissão Cloudera .

O Cloudera sempre foi uma das plataformas mais utilizadas no mercado, agora com a nova versão e casos de uso que atendem diversos cenários, como o caso do CSP ( Cloudera Stream Platform ).

André Araújo = Linkedin
Cloudera = webpage

pt-brJune 22, 2023

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

cloudera stream platform

cloudera cdp

Connecting Data Engineering and ML to Build an Efficient End-to-End Data Product Flow with Aurimas Griciūnas

No episódio de hoje, Mateus Oliveira e Matheus Willian entrevistaram Aurimas Griciūnas, atualmente Fundador e CEO da Swirl AI & Arquiteto Sênior de Soluções da neptune ai.
Engenharia de Dados e Ciência de Dados são, hoje, as áreas de maior demanda no mercado internacional e nacional.
O primeiro, cria soluções para disponibilização de dados da melhor forma e o segundo, cria algoritmos de predição para aprimorar e automatizar decisões.
Para melhor entender a relação entre as áreas, vamos falar sobre:

O que é Engenharia de Dados e quais as suas vertentes?
O que é Ciência de Dados e quais as suas vertentes?

Falamos também, neste bate-papo, sobre os seguintes temas:

Profissões de dados;
Dados como produto;
Universo de Ciência de Dados;

Aprenda como funciona essa relação entre os times e como o mercado está se movendo para segmentações de alguns cargos emergentes de outros cargos.

Swirl AI = https://www.swirlai.com/
Aurimas Griciūnas = Linkedin

pt-brJune 15, 2023

machine learning

data science

https://iceberg.apache.org/

Dremio & Iceberg for Building an Open-Source Data Lakehouse with Dipankar Mazumdar, Data Advocate at Dremio

No episódio de hoje, Luan Moreno, Mateus Oliveira e Antony Lucas entrevistaram Dipankar Mazumdar, atualmente como Data Advocate na Dremio.

Dremio é uma das mais conhecidas tecnologias de Self-Service SQL Analytics de mercado, unificando a visão dos dados e utilizando a lingua franca de dados: o SQL.

Alinhado com o Apache Iceberg, o Dremio traz a proposta de ser um Open Data Lakehouse.

Com Apache Iceberg, você tem os seguintes benefícios:

Compactação de Dados;
Time Travel;
ACID;
Hidden Partition;
Desenvolvido para multi-plataforma.

Falamos também nesse bate-papo sobre os seguintes temas:

Engenharia de Dados;
Apache Iceberg;
Dremio.

Aprenda mais sobre como o Dremio e Iceberg que juntos, podem prover mais uma opção de Data Lakehouse, principalmente para casos que vamos trabalhar com plataformas distintas de processamento e exploração de dados.

Dipankar Mazumdar = Linkedin

https://www.dremio.com/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brJune 06, 2023

Simplify Data Engineering Projects in Your Lakehouse with Delta Lake Framework with Matthew Powers & Denny Lee, Developer Advocates at Databricks

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Denny Lee & Mathew Powers, atualmente Developer Advocates na Databricks.

Delta Lake é um produto open-source, que nos permite aplicar o famoso Data Lakehouse {Data Lake + Data Warehouse}, desenvolvido pela empresa dos criadores do Apache Spark. Delta Lake resolve o problema do Apache Spark, armazenamento, processamento de dados no Data Lake de forma otimizada.

Com Delta Lake, você tem os seguintes benefícios:

Formato de arquivo como se fosse uma tabela;
Time Travel;
ACID;
Batch e Streaming Unificados.

Falamos também nesse bate-papo sobre os seguintes temas:

Estado da arte dos dados;
Delta Lake.

Aprenda mais sobre Delta Lake, como utilizar uma tecnologia para Data LakeHouse, junto com o time da databricks que mais impulsiona a comunidade com conteúdos, releases e eventos para ajudar este produto open-source.

Denny Lee - Linkedin
Mathew Powers - Linkedin

https://delta.io/

pt-brMay 23, 2023

data lake

Spot
Hudson Buzby
Data Mechanics
Ocean for Apache Spark

Spark on Kubernetes [SPOK] with Hudson Buzby, Solutions Architect at Spot.io

No episódio de hoje, Luan Moreno, Mateus Oliveira & Tiago Xavier entrevistaram Hudson Buzby, atualmente como Arquiteto de Soluções na Spot by NetApp.

SPOK ou Spark Operator on Kubernetes, é o deployment para Apache Spark que utiliza um Operator de Kubernetes para melhor gerenciar os drivers e executors usando Kubernetes como infraestrutra escalável.

Com SPOK, você possui os seguintes benefícios:

Melhor utilização de recursos escaláveis.
Infraestrutura mais leve.
Criação de serviços Serverless {Ocean}

Falamos também nesse bate-papo sobre os seguintes temas:

História
Spark Operator on Kubernetes
Ocean for Apache Spark
Dicas das trincheiras

Nesta sessão você aprenderá a utilizar melhor o Apache Spark no Kubernetes, e entender um pouco mais porque os clientes da Spot embarcaram nesta jornada.

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brMay 11, 2023

SQLMesh | Streamlining Python & SQL Transformations with Tobias Mao, Co-Founder & CTO at Tobiko Data

No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram Tobias Mao, atualmente como Co-Founder e CTO na Tobiko Data.

SQLMesh é um framework desenvolvido em Python para automatizar tudo que se faça necessário para uma plataforma de dados escalável utilizando o conceito de DataOps.

Com SQLMesh, você possui os seguintes benefícios:

Foco nos dados do negócio, usando DataOps como premissa principal.
Foco em escalabilidade sem se preocupar com seu Data Warehouse ou Engine de Query.

Nosso bate papo iremos falar sobre:

Estado dos Dados {State of Data}
SQLMesh
DataOps
Python e SQL para Engenharia de Dados
Tobiko Data

Em todas as organizações independentemente do porte, vemos a necessidade de tornar o processo de uso dos dados mais escalável, sendo assim o SQLMesh é uma excelente opção para otimizar o processo de DataOps.

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brMay 04, 2023

O Poder do Lineage de Dados com Lucas Galindo & Gabs Ferreira da Alvin

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Lucas Galindo Data Engineer/Software Engineer & Gabs Ferreira Community Builder, ambos trabalhando na Alvin.

A solução Alvin cria e mantém automaticamente um conjunto de dados de gráfico conectando em fontes de dados, como Snowflake, Redshift, dentre outros entregando uma solução da Data Lineage robusta.

O Alvin oferece os seguintes benefícios:

Uma maneira automatizada de detectar e rastrear erros/bugs
do pipeline, reduzindo o tempo de inatividade dos dados.
Automatiza o teste de regressão, fornecendo um relatório detalhado do impacto downstream antes da implantação do código.
Mapeia automaticamente os fluxos de dados dentro e entre os sistemas e mostra como eles são consumidos em toda a empresa.

Neste podcast, foi também argumentado assuntos como governança, democratização e qualidade dos dados.

Conceitos de Linhagem de Dados e Governança de Dados
Features Integrações disponíveis na Plataforma da Alvin.
Diferenças de mercado (Nacional & Internacional).
Comunidade de Dados.

Entenda porque precisamos de governança de dados e como a Alvin pode nos entregar um produto focado em Linhagem de Dados para agregar valor para aos seus cliente.

Alvin
Gabs Ferreira
Lucas Galindo

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brApril 19, 2023

Kafka on Kubernetes using Strimzi with Jakub Scholz, Senior Principal Software Engineer at Red Hat

No episódio de hoje, Mateus Oliveira entrevistou Jakub Scholz, atualmente como Senior Principal Software Engineer na Red Hat.

Strimzi é um Kubernetes Operator para deployment de Apache Kafka, modular e versátil para ambientes de todos os portes, open-source.

Com Strimzi, você tem os seguintes benefícios:

Apache Kafka no Kubernetes
Elasticidade do seu deployment
Extensibilidade do seu produto com Apache Kafka

Falamos também nesse bate-papo sobre os seguintes temas:

Apache Kafka
Novas features do Strimzi
Comunidade

Aprenda como utilizar o Strimzi, Apache Kafka no Kubernetes, com um dos criados e um dos profissionais que mais apoia a comunidade e o projeto open-source.

Jakob Scholz = Linkedin

Xiran Waibel
Medium

pt-brApril 04, 2023

A Day in a Life of Data Engineer at Netflix with Xinran Waibel

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Xiran Waibel, atualmente engenheira de dados Sênior na Netflix.

A Engenharia de Dados é um das profissões que estão em alta no mercado de trabalho, mas entender como funciona é algo que até hoje as empresas tem dificuldades.

Engenharia de Dados engloba:

Entendimento de novas tecnologias orientadas a Big Data
Trabalhar com soluções de dados que resolvem problemas de negócio
Construções de pipelines de dados resilientes e escaláveis

Falamos também nesse bate-papo sobre os seguintes temas:

Engenharia de Dados na Netflix;
Dicas de Engenharia de Dados;
Soft Skills;
Comunidade.

Aprenda um pouco como a Netflix trabalha utilizando dados como um dos produtos mais valiosos da empresa, além de uma cultura interna forte e funcional.

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

pt-brMarch 27, 2023

open source

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Mastering Apache Airflow with Marc Lamberti, Head of Customer Education at Astronomer

No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Marc Lamberti, atualmente como Head of Customer na Astronomer.

Vamos entender o Apache Airflow em um nível mais avançado para aplicar soluções para problemas de dados no dia-a-dia, visando melhores práticas.

Abaixo alguns pontos sobre técnicas avançadas de Apache Airflow:

Executar pipelines do Airflow com acesso imediato aos recursos mais recentes.
Reduzir o consumo de infraestrutura para tarefas de longa duração.
Reduzir latência de tarefa com configuração e dimensionamento automático.
Coletar metadados automaticamente por meio do Open Lineage integrado.

Falamos também nesse bate-papo sobre os seguintes temas:

Características do Apache Airflow
Astro Python SDK
Dynamic Task
Astro Cloud
Apache Airflow vs. Perfect vs. Mage

Aprenda como utilizar o Apache Airflow em um nível mais avançado para orquestrar o seus data pipelines.

Marc Lamberti
Marc Youtube Channel
Engenharia de Dados Academy

pt-brMarch 17, 2023