
Примерно два года назад генеральный директор Microsoft Сатья Наделла предположил, что ИИ вскоре преобразит работу, связанную с мышлением и обучением. Однако большинство юридических фирм и инвестиционных банков по-прежнему в значительной степени полагаются на человеческих сотрудников. Недавнее исследование компании Mercor, специализирующейся на обучающих данных для ИИ, показывает причину медленного прогресса: современная технология ИИ испытывает трудности с непредсказуемым и сложным характером реальных рабочих сред.
Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.
Прочитать отчет 10-KПроверка реальности для теории «замены»
Mercor представила сложный новый AI-тест под названием APEX-Agents. Вместо простых задач, таких как написание или решение уравнений, он использует реальные запросы от профессионалов – юристов, консультантов и банкиров. Тест требует от AI-моделей решения сложных, многошаговых задач, которые включают поиск и соединение различных видов информации.
Результаты оказались на удивление низкими. Даже самые продвинутые модели, такие как Gemini 3 Flash и GPT-5.2, не смогли достичь точности более 25%. Gemini показал наилучший результат, достигнув 24%, за ним тесно следовал GPT-5.2 с результатом 23%. Большинство других моделей показали еще более низкие результаты, обычно в диапазоне 10-19%.
Почему ИИ проваливает «офисный тест»
По словам генерального директора Mercor Брендана Фуди, проблема не в недостатке интеллекта, а в недостатке легкодоступной релевантной информации. В отличие от ИИ, который получает прямые ответы, людям нужно собирать информацию из различных источников – таких как сообщения Slack, нормативные документы и электронные таблицы – а затем объединять все это для решения проблем, например, для понимания правил GDPR.
Как исследователь, я заметил, что люди без усилий переключаются между разными темами и источниками информации. Однако, системы ИИ испытывают с этим большие трудности. Когда я пытаюсь заставить эти модели находить информацию, разбросанную по нескольким местам, они часто путаются, предоставляют неточные ответы или просто вообще не отвечают.
«Ненадёжный стажёр»
Если вы беспокоитесь о потере работы из-за ИИ, эта новость должна вас успокоить. Новое исследование показывает, что ИИ в настоящее время работает скорее как неопытный стажёр – правильно выполняя задачи только примерно в 25% случаев – чем как квалифицированный профессионал.
Несмотря на это, скорость улучшения впечатляет. Всего год назад эти модели ИИ показывали результаты на уровне 5-10%, но сейчас они достигли 24%. Хотя они пока не способны к полностью самостоятельной работе, они учатся гораздо быстрее, чем ожидалось. Однако, значительный сдвиг в нашем подходе к работе, требующей мышления и решения проблем, придется ждать, пока эти системы смогут эффективно справляться с несколькими задачами одновременно.
Смотрите также
- 6 лучших планшетов для путешествий в 2024 году
- Я думал, что этот Android-телефон за 250 долларов станет катастрофой. Это не было
- Я нашел идеальный аксессуар для ношения моего iPhone 16 Pro Max
- Onyx Boox Palma 2 — гаджет, о котором я даже не подозревал
- PI криптовалюта и прогнозы цен на PI
- OnePlus 15 против Oppo Find X9 Pro: Флагманы в сравнении
- Настоящая поддержка Markdown появится в Google Docs не раньше, чем сейчас.
- Я носил часы, которые производились 50 лет. Вот почему это так особенно
- На дворе 2025 год, а OnePlus Pad 2 по-прежнему остается моим любимым планшетом на базе Android.
- Onyx Boox Palma — самый крутой гаджет, который я использовал в 2024 году.
2026-01-25 02:28