
Примерно два года назад генеральный директор Microsoft Сатья Наделла предположил, что ИИ вскоре преобразит работу, связанную с мышлением и обучением. Однако большинство юридических фирм и инвестиционных банков по-прежнему в значительной степени полагаются на человеческих сотрудников. Недавнее исследование компании Mercor, специализирующейся на обучающих данных для ИИ, показывает причину медленного прогресса: современная технология ИИ испытывает трудности с непредсказуемым и сложным характером реальных рабочих сред.
Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.
Прочитать отчет 10-KПроверка реальности для теории «замены»
Mercor представила сложный новый AI-тест под названием APEX-Agents. Вместо простых задач, таких как написание или решение уравнений, он использует реальные запросы от профессионалов – юристов, консультантов и банкиров. Тест требует от AI-моделей решения сложных, многошаговых задач, которые включают поиск и соединение различных видов информации.
Результаты оказались на удивление низкими. Даже самые продвинутые модели, такие как Gemini 3 Flash и GPT-5.2, не смогли достичь точности более 25%. Gemini показал наилучший результат, достигнув 24%, за ним тесно следовал GPT-5.2 с результатом 23%. Большинство других моделей показали еще более низкие результаты, обычно в диапазоне 10-19%.
Почему ИИ проваливает «офисный тест»
По словам генерального директора Mercor Брендана Фуди, проблема не в недостатке интеллекта, а в недостатке легкодоступной релевантной информации. В отличие от ИИ, который получает прямые ответы, людям нужно собирать информацию из различных источников – таких как сообщения Slack, нормативные документы и электронные таблицы – а затем объединять все это для решения проблем, например, для понимания правил GDPR.
Как исследователь, я заметил, что люди без усилий переключаются между разными темами и источниками информации. Однако, системы ИИ испытывают с этим большие трудности. Когда я пытаюсь заставить эти модели находить информацию, разбросанную по нескольким местам, они часто путаются, предоставляют неточные ответы или просто вообще не отвечают.
«Ненадёжный стажёр»
Если вы беспокоитесь о потере работы из-за ИИ, эта новость должна вас успокоить. Новое исследование показывает, что ИИ в настоящее время работает скорее как неопытный стажёр – правильно выполняя задачи только примерно в 25% случаев – чем как квалифицированный профессионал.
Несмотря на это, скорость улучшения впечатляет. Всего год назад эти модели ИИ показывали результаты на уровне 5-10%, но сейчас они достигли 24%. Хотя они пока не способны к полностью самостоятельной работе, они учатся гораздо быстрее, чем ожидалось. Однако, значительный сдвиг в нашем подходе к работе, требующей мышления и решения проблем, придется ждать, пока эти системы смогут эффективно справляться с несколькими задачами одновременно.
Смотрите также
- Обзор TCL 65C8K
- 20 лучших циферблатов Samsung Galaxy Watch, которые вам стоит использовать
- Зло возвращается, и на этой неделе, 20 мая, выйдут три новых фильма ужасов.
- Обзор Bluetooth-наушников QCY H3S ANC: Шок и трепет
- Хит Apple TV с Харрисоном Фордом и Майклом Дж. Фоксом возвращается к редкой идеальной оценке на Rotten Tomatoes.
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- DJI Osmo Nano против Insta360 Go Ultra: как сравниваются экшн-камеры?
- Адаптер для ПК PlayStation VR2 выйдет в августе этого года, но в нем отсутствуют функции
- Как отменить подписку на Photoshop
- Обзор PrivadoVPN: новый бюджетный VPN, которым можно пользоваться бесплатно
2026-01-25 02:28