Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Люди и код

Содержание выпуска:

— Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.

— Из каких источников в систему приходят сырые данные.

— Куда данные сохраняются и в каком виде.

— Как предварительно обрабатываются и готовятся данные.

— Как отбираются данные для обработки и анализа.

— Как происходит анализ в DS и чем он отличается от традиционной аналитики.

— Какие решения и инструменты существуют для анализа и изучения данных в data science.

— Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.

— Чем занимается отдел data science. Какие роли связаны с data science.

— Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.

— Насколько data science — это программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.

— Какие языки и для каких задач используются.

— Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.

— Какие зарплаты, специализации и перспективы есть в data science.

Полезные ссылки:

— Apache Spark https://spark.apache.org

— Apache Hadoop https://hadoop.apache.org

— Язык программирования Scala https://skillboxcode.mave.digital/ep-35

— Amazon Simple Storage Service (S3) https://aws.amazon.com/ru/s3

— Redis https://ru.wikipedia.org/wiki/Redis

— MLflow https://mlflow.org

— CI/CD https://ru.wikipedia.org/wiki/CI/CD

— Apache Kafka https://kafka.apache.org

— Debezium https://debezium.io

— Micro Batching https://bit.ly/40gr29I

— Витрина данных https://bit.ly/40h0tkO

— Слои в data science https://bit.ly/3JuwFes

— REST API https://bit.ly/3Jsrrjh

— Модель вычислений MapReduce https://ru.wikipedia.org/wiki/MapReduce

— Google File System https://ru.wikipedia.org/wiki/Google_File_System

— HDFS https://bit.ly/3XVnS9I

— Захват изменения данных https://bit.ly/3wIYR5V

— Apache NiFi https://ru.wikipedia.org/wiki/Apache_NiFi

— Nginx https://ru.wikipedia.org/wiki/Nginx

— Apache Airflow https://ru.wikipedia.org/wiki/Apache_Airflow

— Dimensional modeling https://en.wikipedia.org/wiki/Dimensional_modeling

— Сайт-тренажёр sql-ex.ru

— «Книга с кабанчиком» https://habr.com/ru/post/423981

— Codewars https://www.codewars.com

— LeetCode https://leetcode.com

— YouTube-канал «Диджитализируй!» https://bit.ly/3kWYvG0

— Марк Лутц. «Изучаем Python»

— Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»

Гость: Влад Гоцуля

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes, and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada