Сегодня у меня в гостях Рауф Алиев — человек, который варится в поиске уже четверть века. Он начинал с самописного inverted index в начале 2000-х, когда всё приходилось изобретать руками, и дошёл до современных гибридных систем — с векторным поиском, трансформерами и рекомендациями поверх всего этого. Мы обсудили, как вообще устроен полнотекстовый поиск: что такое inverted index на практике, зачем нужен BM25, почему важно учитывать длину документа, что дают proximity и exact match. Отдельно разобрали, почему фасеты — это не совсем «поиск», как работают стемминг и лемматизация, зачем иногда хранить и нормализованный, и оригинальный текст, и почему работа с разными языками — это отдельная инженерная боль. Потом ушли в гибридные модели: как смешиваются ключевые слова, query expansion, синонимы и векторные представления. Поговорили о том, почему векторный поиск лучше понимает смысл, но хуже объясняет свои решения, и как LLM можно использовать не для болтовни в чате, а как инструмент, который превращает человеческий запрос в понятные системе фильтры. Ну и, конечно, обсудили качество. Что такое precision, recall, NDCG на практике, как собрать свой ground truth и как сравнивать конфигурации поиска без мучительных A/B-экспериментов на пользователях. И почему почти всегда, улучшая одну метрику, ты неизбежно просаживаешь другую — и с этим просто приходится жить. Полезные ссылки:https://testmysearch.com/my-books.html Подписывайтесь на канал «Организованное программирование» в Telegram: https://ttttt.me/orgprog– Список подкаст-платформ (Apple Podcast, Google Podcast, Spotify, Яндекс.Музыка и другие): https://podcast.ru/1734325321 🔹 Telegram-канал Организованного Программирования: https://t.me/orgprog🔹Хекслет Клуб в Telegram https://t.me/HexletClubBot🔹Курсы по программированию — начни учиться уже сегодня: https://ru.hexlet.io/courses #программирование #разработка #кириллмокевнин #подкаст #организованноепрограммирование #поисковыесистемы #invertedindex #векторныйпоиск Как работает Search Engine под капотом: ранжирование и релевантность (00:00) - Введение. Поиск сложнее, чем вы думаете - 25 лет опыта за 2 часа (01:07) - От Сфинкса до Elastic: как менялся рынок поисковых систем (06:00) - Теория или практика? Как правильно входить в сложные системы (14:42) - Как SEO и маркетплейсы ломают алгоритмы (19:55) - SEO началось с манипуляций: как PageRank всё изменил (31:12) - Архив за 100 лет и гибридный поиск на практике (44:05) - Гибридный поиск — будущее индустрии (01:01:04) - Транслитерация и языковые ловушки (01:13:53) - Как искать Go или C и не сломать поиск (01:21:54) - LLM как ревизор поисковой системы (01:28:19) - Локальные поисковики против Google (01:32:21) - Китайский без пробелов и другие языковые боли (01:36:45) - Заключение. Поиск — это компромисс между математикой и бизнесом ★ Support this podcast ★