1 ч. 2 мин.

Николай Голов, Николай Марков, Филлип Уваров: Big Data is Dead { между скобок }

    • Технологии

#bigdata #dataengineers #dataanalytics #duckdb #postgresql

Встретились обсудить недавно нашумевшую статью от ребят из Mother Duck - Big Data is Dead. Обсудили, как правильно использовать данные, чтобы получать действенные результаты, и ребята поделились своим реальным опытом. Также мы рассмотрели, какие проблемы возникают при работе с большими данными и как их можно решить. Мы ответили на вопрос, существует ли еще "big data", и зачем сейчас нужны дата-аналитики. Еще разобрались в 3х V - Volume (объем данных), компрессия DuckDB, кластерные облачные базы; в Velocity (скорость поступления данных), стриминг, шины, in-memory databases (DuckDB); в Variety (изменчивость данных).

Канал с анонсами https://t.me/megdu_skobok
Ламповый чат https://t.me/backend_megdu_skobkah
YouTube https://youtu.be/Z9c7YBZ2BHs

Полезные ссылки
📖 Hannes Mühleisen - DuckDB, an in-process analytical DBMS https://youtu.be/Z-6SnP6yzgo
📖 WHY USE DUCKDB FOR ANALYTICS? https://motherduck.com/blog/six-reasons-duckdb-slaps/
📖 Big Data is Dead https://motherduck.com/blog/big-data-is-dead/
📖 RTB (Real Time Bidding) https://rtb-media.ru/wiki/
📖 ClickBench — a Benchmark For Analytical DBMS https://benchmark.clickhouse.com

00:00 Приветствие
02:20 Что такое Big Data, volume, value, variety, velocity, and veracity
03:30 Объемы данных в Spotify
05:14 История появления понятия Big Data
06:12 Big Data explosion
12:33 Что такое BigQuery
14:12 Аналитика данных, дата сеты для обучения моделей
17:35 Эксперимент с инвертирование данных для дата сетов
20:17 Актуально ли сейчас учиться аналитике данных
22:03 OLAP vs OLTP
24:19 Резюме по Volume
25:30 Определение Velocity
27:34 RTB (Real Time Bidding)
29:53 Резюме по Velocity
31:42 Пример систем, где нужна real time аналитика
33:27 Определение Velocity
36:22 Пример использования DuckDB
38:30 Почему коллоночные базы такие быстрые, векторные операции
42:20 Война бэнчмарков, почему компании привирают, public relations
44:04 Определение Variety
56:23 Будущее работы с данными
58:00 Какая судьба у Vertica в мире дешевых и хороших инструментов
59:09 Что быстрее Spark или DuckDB

#bigdata #dataengineers #dataanalytics #duckdb #postgresql

Встретились обсудить недавно нашумевшую статью от ребят из Mother Duck - Big Data is Dead. Обсудили, как правильно использовать данные, чтобы получать действенные результаты, и ребята поделились своим реальным опытом. Также мы рассмотрели, какие проблемы возникают при работе с большими данными и как их можно решить. Мы ответили на вопрос, существует ли еще "big data", и зачем сейчас нужны дата-аналитики. Еще разобрались в 3х V - Volume (объем данных), компрессия DuckDB, кластерные облачные базы; в Velocity (скорость поступления данных), стриминг, шины, in-memory databases (DuckDB); в Variety (изменчивость данных).

Канал с анонсами https://t.me/megdu_skobok
Ламповый чат https://t.me/backend_megdu_skobkah
YouTube https://youtu.be/Z9c7YBZ2BHs

Полезные ссылки
📖 Hannes Mühleisen - DuckDB, an in-process analytical DBMS https://youtu.be/Z-6SnP6yzgo
📖 WHY USE DUCKDB FOR ANALYTICS? https://motherduck.com/blog/six-reasons-duckdb-slaps/
📖 Big Data is Dead https://motherduck.com/blog/big-data-is-dead/
📖 RTB (Real Time Bidding) https://rtb-media.ru/wiki/
📖 ClickBench — a Benchmark For Analytical DBMS https://benchmark.clickhouse.com

00:00 Приветствие
02:20 Что такое Big Data, volume, value, variety, velocity, and veracity
03:30 Объемы данных в Spotify
05:14 История появления понятия Big Data
06:12 Big Data explosion
12:33 Что такое BigQuery
14:12 Аналитика данных, дата сеты для обучения моделей
17:35 Эксперимент с инвертирование данных для дата сетов
20:17 Актуально ли сейчас учиться аналитике данных
22:03 OLAP vs OLTP
24:19 Резюме по Volume
25:30 Определение Velocity
27:34 RTB (Real Time Bidding)
29:53 Резюме по Velocity
31:42 Пример систем, где нужна real time аналитика
33:27 Определение Velocity
36:22 Пример использования DuckDB
38:30 Почему коллоночные базы такие быстрые, векторные операции
42:20 Война бэнчмарков, почему компании привирают, public relations
44:04 Определение Variety
56:23 Будущее работы с данными
58:00 Какая судьба у Vertica в мире дешевых и хороших инструментов
59:09 Что быстрее Spark или DuckDB

1 ч. 2 мин.

Топ подкастов в категории «Технологии»

Запуск завтра
libo/libo
Смени пароль!
Kaspersky
Podlodka Podcast
Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Радио-Т
Umputun, Bobuk, Gray, Ksenks, Alek.sys
Люди и код
Skillbox Media Code
Lex Fridman Podcast
Lex Fridman