Согласно исследованию GDPval, большие языковые модели (БЯМ) и искусственный интеллект (ИИ) демонстрируют высокую эффективность в выполнении задач, связанных с интеллектуальной работой в производственных специальностях, приближаясь по качеству к уровню опытных экспертов, и имеют потенциал значительной экономии времени и средств.
GDPval — это бенчмарк, который оценивает возможности ИИ на реальных, экономически значимых задачах.
Охват производственных специальностей
Бенчмарк GDPval охватывает 44 профессии в 9 основных секторах, вносящих наибольший вклад в ВВП США. В числе этих секторов — Производство (Manufacturing), который составляет 10,0% от ВВП США.
В секторе "Производство" в бенчмарк были включены задачи, связанные со следующими профессиями:
• Инженеры-механики (Mechanical Engineers).
• Промышленные инженеры (Industrial Engineers).
• Агенты по закупкам и покупатели (Buyers and Purchasing Agents).
• Служащие по отгрузке, приему и инвентаризации (Shipping, Receiving, and Inventory Clerks).
• Младшие руководители производства и эксплуатационных рабочих (First-Line Supervisors of Production and Operating Workers).
Задачи, используемые в GDPval, были разработаны отраслевыми экспертами со средним стажем 14 лет. Промышленный инженер (Lead Industrial Engineer) с более чем 5-летним опытом подтвердил, что задачи по редизайну (например, разработка приспособлений/оснастки) точно соответствуют реальной практике. Эти задачи включали специфические компоненты дизайна, подробные чертежи с точными измерениями и фокусировались на таких практических аспектах, как видимость и оптимизация расстояний для ходьбы, что отражает фактические инженерные и операционные приоритеты.
Результаты эффективности и качества
Исследование показало, что лучшие современные модели начинают приближаться к паритету с отраслевыми экспертами по качеству результатов.
• Лучшие модели: Claude Opus 4.1 и GPT-5 показали наилучшие результаты, приближаясь к качеству профессиональных решений.
• Качество: В золотом подмножестве GDPval (220 задач) 47,6% результатов, созданных Claude Opus 4.1, были оценены экспертами как лучшие или не хуже (ничьи) по сравнению с результатами, созданными человеком-экспертом.
• Сильные стороны: GPT-5 преуспел в точности (например, строгое следование инструкциям и правильные расчеты), тогда как Claude Opus 4.1 выделялся в эстетике (например, форматирование документов и расположение слайдов).
Скорость и стоимость
Анализ показал, что ИИ может предложить значительную экономию времени и средств, если используется под контролем человека-эксперта.
• В сценариях, когда эксперт использовал модель, оценивал результат и сам исправлял его в случае неудовлетворительного качества, использование ИИ потенциально может сэкономить время и деньги по сравнению с работой невооруженных экспертов.
• С точки зрения чистого времени инференса и стоимости API, модели могут выполнять задачи GDPval примерно в 100 раз быстрее и дешевле, чем эксперты.
Ограничения и недостатки
Несмотря на высокую эффективность, модели все еще имеют серьезные недостатки:
1. Следование инструкциям: Эксперты чаще всего отдавали предпочтение результатам человека, поскольку модели не смогли полностью следовать инструкциям по задачам GDPval.
2. Ошибки: Модели иногда галлюцинировали данные или делали неправильные расчеты. У GPT-5 наиболее частой причиной проигрыша была категория "приемлемо, но хуже" (acceptable but subpar), однако примерно 29% всех провалов GPT-5 были оценены как "плохие" или "катастрофические" (около 3% "катастрофических").
3. Характер задач: Текущая версия GDPval сосредоточена только на интеллектуальной работе (knowledge work), которую можно выполнить на компьютере. Она не включает ручной труд, физические задачи, обширные неявные знания (tacit knowledge), командную работу, взаимодействие между людьми или работу с конфиденциальной информацией. Кроме того, задачи являются "однократными" (one-shot) и точно определенными, что не отражает реальных ситуаций, требующих итераций, построения контекста или навигации в условиях двусмысленности.
В целом, в производственных специальностях ИИ демонстрирует способность выполнять значительную часть интеллектуальной работы (например, проектирование, анализ, создание документации) на уровне, близком к экспертному, особенно при использовании с человеческим контролем.
https://openai.com/index/gdpval/
https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
Information
- Show
- FrequencyUpdated Daily
- PublishedOctober 2, 2025 at 7:27 AM UTC
- Length20 min
- Episode52
- RatingClean