Новое исследование показывает, что ИИ пока не готов к офисной работе.

Примерно два года назад генеральный директор Microsoft Сатья Наделла предположил, что ИИ вскоре преобразит работу, связанную с мышлением и обучением. Однако большинство юридических фирм и инвестиционных банков по-прежнему в значительной степени полагаются на человеческих сотрудников. Недавнее исследование компании Mercor, специализирующейся на обучающих данных для ИИ, показывает причину медленного прогресса: современная технология ИИ испытывает трудности с непредсказуемым и сложным характером реальных рабочих сред.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Прочитать отчет 10-K

Проверка реальности для теории «замены»

Mercor представила сложный новый AI-тест под названием APEX-Agents. Вместо простых задач, таких как написание или решение уравнений, он использует реальные запросы от профессионалов – юристов, консультантов и банкиров. Тест требует от AI-моделей решения сложных, многошаговых задач, которые включают поиск и соединение различных видов информации.

Результаты оказались на удивление низкими. Даже самые продвинутые модели, такие как Gemini 3 Flash и GPT-5.2, не смогли достичь точности более 25%. Gemini показал наилучший результат, достигнув 24%, за ним тесно следовал GPT-5.2 с результатом 23%. Большинство других моделей показали еще более низкие результаты, обычно в диапазоне 10-19%.

Почему ИИ проваливает «офисный тест»

По словам генерального директора Mercor Брендана Фуди, проблема не в недостатке интеллекта, а в недостатке легкодоступной релевантной информации. В отличие от ИИ, который получает прямые ответы, людям нужно собирать информацию из различных источников – таких как сообщения Slack, нормативные документы и электронные таблицы – а затем объединять все это для решения проблем, например, для понимания правил GDPR.

Как исследователь, я заметил, что люди без усилий переключаются между разными темами и источниками информации. Однако, системы ИИ испытывают с этим большие трудности. Когда я пытаюсь заставить эти модели находить информацию, разбросанную по нескольким местам, они часто путаются, предоставляют неточные ответы или просто вообще не отвечают.

«Ненадёжный стажёр»

Если вы беспокоитесь о потере работы из-за ИИ, эта новость должна вас успокоить. Новое исследование показывает, что ИИ в настоящее время работает скорее как неопытный стажёр – правильно выполняя задачи только примерно в 25% случаев – чем как квалифицированный профессионал.

Несмотря на это, скорость улучшения впечатляет. Всего год назад эти модели ИИ показывали результаты на уровне 5-10%, но сейчас они достигли 24%. Хотя они пока не способны к полностью самостоятельной работе, они учатся гораздо быстрее, чем ожидалось. Однако, значительный сдвиг в нашем подходе к работе, требующей мышления и решения проблем, придется ждать, пока эти системы смогут эффективно справляться с несколькими задачами одновременно.

Смотрите также

2026-01-25 02:28