Опівночні Балачки Денис, Ігор, Саша
-
- Technology
Машинне навчання (Machine Learning aka ML), програмування і драми в айті.
🇺🇦україномовний, наскільки ми можемо🇺🇦
Про технології і штучний інтелект від айтівців.
-
№43: Дизайн-інтерв'ю
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
0:00-1:16 Інтро
1:17-4:35 Як проходить дизайн-інтерв'ю? Мета-кроки, які повторюються.
4:36-7:09 Особливість інструментів для дизайн-інтерв'ю. Усякі https://excalidraw.com/, https://miro.com/ і подібне. А також варіант для багатих – беріть планшет
7:10-9:54 Основні аспекти дизайн інтерв'ю. Компоненти і їх взаємодія. Збереження даних. Нефункціональні вимоги, де довгий перелік *bility штук
9:55-12:31 Чи будуть на дизайн-інтерв'ю питати про внутрянку Postgres?
12:32-14:06 Можливі варіації дизайн задач. Питання щодо речей, про які ви не думаєте в стартапі на 3 юзера
14:07-21:49 Як готуватися до дизайн інтерв'ю? bytebytego, donnemartin/system-design-primer. Блоги github, discord. Блог AWS Solutions. https://www.educative.io
21:49-25:50 А тепер насправді, як готуватися. Dry-run інтерв'ю. І в цілому про важливість говорити слова ротом. ExponentTV на ютуб
25:51-28:23 Хот-тейки від Ігоря. 7 DBs in 7 Weeks.
28:24-33:09 За що можуть "віднімати бали" при проходженні. Чи варто казати, що юзатимеш технологію, з якою не знайомий? Показуйте ініціативність. І не сперечайтеся
33:10-36:57 Висновки. Що прикольне/не прикольне в дизайн-інтерв'ю. Outro
Долучайтесь до наших соцмереж:
https://t.me/midnight_chatter
Twitter @O_Balachky
TikTok @o_balachky
Музика: https://www.streambeats.com/ | @stasgavrylov -
№42: Рекомендаційні системи, ч.2. Будуємо моделі, зворотній зв'язок, а як схочемо, то і ChatGPT підключимо
В гостях Дмитро Войтех, СТО @ S-PRO
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
00:00 - 00:56 – Intro
00:57 - 02:50 – з чого почати побудову recommender system; як будувати baseline моделі
02:51 - 04:10 – говоримо про бейзлайн систему рекомендації для зображень
04:11 - 7:30 – говоримо про бейзлайн систему рекомендації для текстових даних; Bag of Words; BM-25
7:31 - 11:15 – які хороші методи для отримування вектора ознак для тексту? TF-IDF
11:16 - 14:47 – проблема холодного старту (Cold Start)
14:48 - 20:10 – моделі рекомендацій на основі механізму зворотнього зв’язку; кенселінг за дієвидло; колаборативна фільтрація – @benfred/implicit, улюблена Alternating Least Squares у каглерів
20:11 - 22:06 – знову говоримо про cold start; маленький кейс megogo
22:07 - 30:25 – Word2Vec, чи то пак Entity2Vec — як оригінальний NLP алгоритм можна використовував для побудови рекомендацій
30:26 - 33:20 – векторна арифметика на елементах вашої системи — як віднімати та додавати зображення та тексти один від/до одного; фантазуємо, які пошукові системи потрібні людям; слухайте подкаст з Олесем Петрівом, де космічні кораблі подорожують просторами ембедінгів
33:21 - 36:53 – рекомендації на базі графових нейронних мереж (GNN); чому це можна розглядати як логічне продовження моделей на базі Word2Vec; кейс AliBaba;
36:54 - 39:45 – чим графові нейронні мережі схожі на конволюційні; 3b1b про конволюції
39:46 - 45:50 – як використовувати Mixture of Experts моделі в рекомендаціях; пейпер Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer; згадуємо symbolic AI та експретні системи
45:51 - 51:56 – рекомендаційні системи на основні архітектури нейронних мереж Трансформер; паралелі з Deep & Wide model; слідкуйте за https://eugeneyan.com/
51:57 - 1:01:46 – алгоритми Learning to Rank (навчання ранжуванню) — побороли recall, починаємо бороти precision; поточкові, попарні та помножинні підходи; RankNet; LambdaMart
1:01:47 - 1:06:19 – рекомендації на базі моделі CLIP - Contrastive Language–Image Pre-training; як тюнити CLIP
1:06:20 - 1:07:28 – знову фантазуємо про просунуті пошукові інтерфейси; reverse image search
1:07:29 - 1:11:40 – як використовувати LLM для рекомендацій? Забудьте про ембеддінги – несемо prompt engineering в маси!
1:11:41 - 1:17:18 – крейзі ідеї в світі LLM – ChatGPT розкаже вам, як спати та бігати, враховуючи дані з вашого Apple Watch; як LLM обробляє великі дані через маленьке контекстн -
№41: Рекомендаційні системи, ч.1. CTO про побудову рекомендаційних систем, їх складові і оцінку якості.
В гостях Дмитро Войтех, СТО @ S-PRO
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
0:00-0:30 Інтро
0:30 - 1:18 — рекомендаційна система для банок на донати - поповнюйте рахунки Повернись Живим
1:19 - 5:45 — Дмитро (ex-Giphy, CTO@S-PRO) розказує, чому він хороша людина на поговорити про рекомендаційні системи
5:46 - 8:10 — чутки про те, в який ML/AI хочуть вкладати гроші європейські компанії
8:10 - 11:43 — визначимо проблему рекомендацій, говоримо про задачу отримання інформації (information retrieval)
11:44 - 12:20 — чому задачу рекомендацій варто розбивати на підсистеми
12:21 - 17:15 — candidate generation – бази даних, векторні індекси, текстові індекси
17:16 - 19:20 — що таке precision та recall, скільки потрібно сіньйорів…
19:21 - 22:20 — чому фільтрувати кандидатів в рекомендації є хорошою ідеєю
22:21 - 30:50 — на чому тренувати рекомендаційну систему: не забудьте полайкати наш подкаст на вашій улюбленій платформі!
30:51 - 40:45 – для чого потрібні офлайн та онлайн метрики; роздумуємо про інтуїцію метрик для оцінки якості рекомендацій
40:46 - 46:50 — чому Mean Reciprocal Rank (MRR) — ймовірно, не найкращий вибір для метрики, говоримо про Expected Reciprocal Rank (ERR) — чому структура гріда рекомендацій має значення
46:51 - 47:45 – Click Through Rate (CTR)
47:46 - 49:55 — говоримо про customer satisfaction та функції втрат для тренування рекомендаційної системи
49:56 - 55:28 — проблема feedback loop, exploration vs exploitation, рандомізуємо рекомендації; багаторукі бандити
55:29 - 57:28 — робимо паузу; оутро і канал 'Kyiv Data Science’; чекайте продовження в наступному випуску!
Долучайтесь до наших соцмереж:
https://t.me/midnight_chatter
Twitter @O_Balachky
TikTok @o_balachky
Музика: https://www.streambeats.com/ | @stasgavrylov -
№40: AI Act – законодавство про ШІ з ЄС на експорт
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
0:00-2:43 Інтро про закони і як в майбутньому кіберполіція буде накривати людей, що генерують меми з метою розповсюдження
2:44-6:44 Aritificial Intelligence Act у ЄС 11 травня перейшов на наступний етап законотворчого воркфлоу. Що далі?
6:45-12:45 Що забороняють законом? (Текстовий переказ від the verge). Кейси ШІ на біометричних даних для високоризикових ситуацій – забороняємо.
12:46-15:45 Реєстр високоризикованих систем з використанням ШІ. Приймаємо консент-попапи при вході в ЖК за парканом
15:46-21:08 Змусимо всіх авторів великих моделей оцінювати ризики (і розповідати про датасети). Чим це загрожує Google і OpenAI? Прогнозуємо черговий бум у сфері дата провайдерів
21:09-23:35 Якщо дані – дуже важливі, то буде розквіт… барж з даними? … скоріше, про федеративне навчання і data clean rooms
23:36-27:03 Тут про правове поле в космосі, нейтральні води, застосунки з темних заковулків і першу космічну війну
27:04-27:31 Outro
Долучайтесь до наших соцмереж:
https://t.me/midnight_chatter
Twitter @O_Balachky
TikTok @o_balachky
Музика: https://www.streambeats.com/ | @stasgavrylov -
№39: Практика тестування на Python, ч.2 коротко про більш екзотичні види тестування
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
0:00-0:49 Intro і пояснення існування 2ої частини
0:50-2:25 Hypothesis для property-based testing на python. Неймдропінг atheris
2:26-2:52 cleder/awesome-python-testing і розділи, які ми вирішили скіпати при записі
2:53-11:17 Тестимо швидкодію ваших застосунків за допомогою locust. “Для всього іншого є timeit” © JMeter. Набір утиліт для профайлінга з HTML репортами – elastic/perf8
11:18-11:57 Budget testing (різновид performance testing, але про нього складно гуглити, суто подібне може робити для вас pytest-benchmark)
11:58-14:42 Data tests, чому їх ніхто не пише і пошук того самого апологета дата тестів в коментарях під випуском
14:43-15:20 boxed/mutmut – щось і для мутаційного тестування є на пітоні
15:21-17:10 Остання настанова: підглядайте в опенсорс (і може побачити там matrix) і вчиться у людей
17:11-17:48 Outro
Долучайтесь до наших соцмереж:
https://t.me/midnight_chatter
Twitter @O_Balachky
TikTok @o_balachky
Музика: https://www.streambeats.com/ | @stasgavrylov -
№38: Практика тестування на Python, ч.1 unittest vs pytest
🔞 Тут будуть матюки 🔞
Робочі посилання і коментарі в каналі https://t.me/midnight_chatter
0:00-2:29 Інтро. Мультики, метасюжети і тестування на пітоні
2:30-5:15 Тест-ранери: вбудований unittest, класичний pytest. На додачу tox. Олдскульні nose2 і nose. Зовсім зелений green і свіжий швидкий hammet (мову якого конфузив із-за rye)
5:16-6:37 Як може тест-раннер на python бути швидшим за pytest? Rust скоро з’їсть всі утиліти
6:38-8:00 pytest-parallel і pytest-xdist для паралельного запуску тестів
8:01-19:47 Чому в rspec фікстури кращі, ніж фікстури в pytest? Як жити з pytest в такому випадку? Пишемо більш компактні тести за допомогою fixture і parametrize
19:48-23:17 Писати тести функціями чи класами в pytest? FunctionTestCase в unittest
23:18-29:37 Чому б не включити pytest в стандартну бібліотеку? Не забудьте чекнути, які опції можна передати в CLI пайтесту
29:38-32:14 Скоро нам всім заборонять писати тести без assert’ів. Про пошук тестів pytest’ом і unittest discover
32:15-32:38 Вбудовані фікстури pytest
32:39-35:00 Про генерацію репортів і тест-каверейдж
35:01-37:45 freezegun для підміни часу для тестів. unittest.mock#patch для тимчасової зміни поведінки стороннього коду
37:45-38:46 Outro
Долучайтесь до наших соцмереж:
https://t.me/midnight_chatter
Twitter @O_Balachky
TikTok @o_balachky
Музика: https://www.streambeats.com/ | @stasgavrylov