Data Engineering від А до Я

Ingest with Python — pandas та PySpark у data pipelines

Цей випуск завершує серію про ingestion-методи. Говоримо про два популярних інструменти з Python-екосистеми — pandas та PySpark.
Коли варто використовувати кожен? Як зчитувати, обробляти і завантажувати дані з CSV, BigQuery або DataFrame-структури? Чим відрізняються RDD, DataFrame і Dataset у Spark?

Щоб не пропустити нові епізоди — підпишіться на подкаст ✨