Новое исследование показывает, что ИИ пока не готов к офисной работе.

Mercor представила сложный новый AI-тест под названием APEX-Agents. Вместо простых задач, таких как написание или решение уравнений, он использует реальные запросы от профессионалов – юристов, консультантов и банкиров. Тест требует от AI-моделей решения сложных, многошаговых задач, которые включают поиск и соединение различных видов информации.








