
Примерно два года назад генеральный директор Microsoft Сатья Наделла предположил, что ИИ вскоре преобразит работу, связанную с мышлением и обучением. Однако большинство юридических фирм и инвестиционных банков по-прежнему в значительной степени полагаются на человеческих сотрудников. Недавнее исследование компании Mercor, специализирующейся на обучающих данных для ИИ, показывает причину медленного прогресса: современная технология ИИ испытывает трудности с непредсказуемым и сложным характером реальных рабочих сред.
"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.
Найти недооцененные активыПроверка реальности для теории «замены»
Mercor представила сложный новый AI-тест под названием APEX-Agents. Вместо простых задач, таких как написание или решение уравнений, он использует реальные запросы от профессионалов – юристов, консультантов и банкиров. Тест требует от AI-моделей решения сложных, многошаговых задач, которые включают поиск и соединение различных видов информации.
Результаты оказались на удивление низкими. Даже самые продвинутые модели, такие как Gemini 3 Flash и GPT-5.2, не смогли достичь точности более 25%. Gemini показал наилучший результат, достигнув 24%, за ним тесно следовал GPT-5.2 с результатом 23%. Большинство других моделей показали еще более низкие результаты, обычно в диапазоне 10-19%.
Почему ИИ проваливает «офисный тест»
По словам генерального директора Mercor Брендана Фуди, проблема не в недостатке интеллекта, а в недостатке легкодоступной релевантной информации. В отличие от ИИ, который получает прямые ответы, людям нужно собирать информацию из различных источников – таких как сообщения Slack, нормативные документы и электронные таблицы – а затем объединять все это для решения проблем, например, для понимания правил GDPR.
Как исследователь, я заметил, что люди без усилий переключаются между разными темами и источниками информации. Однако, системы ИИ испытывают с этим большие трудности. Когда я пытаюсь заставить эти модели находить информацию, разбросанную по нескольким местам, они часто путаются, предоставляют неточные ответы или просто вообще не отвечают.
«Ненадёжный стажёр»
Если вы беспокоитесь о потере работы из-за ИИ, эта новость должна вас успокоить. Новое исследование показывает, что ИИ в настоящее время работает скорее как неопытный стажёр – правильно выполняя задачи только примерно в 25% случаев – чем как квалифицированный профессионал.
Несмотря на это, скорость улучшения впечатляет. Всего год назад эти модели ИИ показывали результаты на уровне 5-10%, но сейчас они достигли 24%. Хотя они пока не способны к полностью самостоятельной работе, они учатся гораздо быстрее, чем ожидалось. Однако, значительный сдвиг в нашем подходе к работе, требующей мышления и решения проблем, придется ждать, пока эти системы смогут эффективно справляться с несколькими задачами одновременно.
Смотрите также
- Безопасно ли использовать менеджер паролей Bitwarden?
- Шокирующее исследование заставило меня пересмотреть, как я использую ИИ, и вам, вероятно, тоже стоит это сделать.
- Новый сериал от Netflix о Охотниках за привидениями устанавливает официальное окно релиза с возвращением оригинальной звезды.
- Хит-сериал Тома Харди из 8 частей, посвященный криминальному триллеру, незаметно возвращается как глобальный успех стриминга.
- Google представляет безэкранный Fitbit Air и приложение Google Health, призванное заменить Fitbit.
- Netflix’s The Chestnut Man Официально возвращается как ближайшая тёмная замена на данный момент.
- Google отвечает на скрытную установку Gemini Nano в Chrome, не затрагивая вопрос согласия.
- 9-частный спин-офф Yellowstone Тейлора Шеридана подтверждает неожиданную замену Кевину Костнеру.
- 4-серийный забытый научно-фантастический сериал — это идеальное шоу о киберпанк-путешествиях во времени.
- Судьба 2-го сезона R.J. Decker официально определена каналом ABC.
2026-01-25 02:28