OpenAI демонстрирует свою «прорывную» модель рассуждения o3 следующего поколения

Как опытный наблюдатель за ИИ, я должен сказать, что появление моделей OpenAI o3 и 03-mini меня весьма заинтриговало. За свою карьеру, охватывающую десятилетия, я был свидетелем эволюции искусственного интеллекта от элементарных чат-ботов до сложных логических машин. Тот факт, что эти новые модели внутренне проверяют свои ответы перед их представлением, меняет правила игры, особенно для сложных научных, математических и программных запросов.

По завершении 12-дневной прямой трансляции OpenAI генеральный директор Сэм Альтман представил будущую базовую модель, продолжение недавно представленной серии логических ИИ o1, которые теперь называются o3 и mini-o3 соответственно.

На самом деле дело не в том, что вы теряете рассудок; OpenAI, похоже, намеренно обошел «o2», предположительно, чтобы избежать любых потенциальных проблем с авторскими правами, связанных с британской телекоммуникационной компанией O2.

Рекомендуемые видео

На данный момент последние модели o3 не выложены в открытый доступ, и нет информации о том, когда они будут интегрированы в ChatGPT. Однако эти новые модели теперь открыты для тестирования исследователями, занимающимися аспектами безопасности.

Наша инновационная мыслительная машина под названием o3 представляет собой значительный шаг вперед и может похвастаться существенным увеличением производительности при выполнении самых сложных задач. Сейчас мы приступаем к решающим этапам тестирования безопасности и состязательного анализа, также известного как «красная команда».
— Грег Брокман (@gdb), 20 декабря 2024 г.

Как аналитик, я могу сказать, что семейство O3, как и предшествующие им модели O1, отклоняется от традиционных генеративных моделей, поскольку их ответы проверяются внутри компании, прежде чем они будут представлены мне. Этот процесс, который может занять от нескольких секунд до нескольких минут, обеспечивает более точные и надежные ответы, особенно когда речь идет о сложных научных, математических и программных запросах. В отличие от GPT-4, эта модель также проясняет мыслительный процесс, лежащий в основе получаемых результатов, что облегчает мне понимание ее ответов и доверие к ним.

Пользователи имеют возможность изменить время, необходимое модели для решения проблемы, выбрав низкие, средние или высокие настройки вычислений. Имейте в виду, что использование самых высоких настроек приводит к более полным ответам, но за это приходится платить огромную цену — как сообщается, каждая задача на этом уровне обработки может стоить тысячи долларов, как заявил один из создателей ARC-AGI Франсуа Шолле в своей статье. недавний пост на X.

Сегодня OpenAI представила свою новую усовершенствованную модель рассуждения под названием o3. В сотрудничестве с OpenAI мы опробовали эту модель на платформе ARC-AGI и уверены, что она знаменует собой существенный шаг вперед в предоставлении ИИ возможности эффективно решать незнакомые задачи.
Он набрал 75,7 % по полуприватной оценке в режиме малой вычислительной мощности (20 долларов США за задачу…
— Франсуа Шоле (@fchollet), 20 декабря 2024 г.

Сообщается, что недавно представленная линейка моделей рассуждения обеспечивает значительно лучшие результаты по сравнению с моделью o1, выпущенной в сентябре, в некоторых из самых сложных отраслевых тестов. По заявлению компании, модель o3 превосходит свою предыдущую версию примерно на 23 процентных пункта в тесте кодирования SWE-Bench Verified и превосходит оценку модели o1 более чем на 60 пунктов в тесте Codeforce. Кроме того, модель o3 набрала впечатляющие 96,7% на экзамене по математике AIME 2024, оставив без ответа только один вопрос, а также превзошла экспертов-людей в тесте GPQA Diamond с результатом 87,7%. Примечательно, что модель o3, как сообщается, успешно решила более четверти задач, поставленных в тесте EpochAI Frontier Math – подвиг, в то время как другим моделям удалось правильно ответить только менее чем на 2% из них.

OpenAI признает, что модели, представленные в прошлую пятницу, являются версиями, находящимися в стадии разработки, и могут претерпеть изменения по мере прохождения ими дальнейшего обучения. Они также внедрили передовые механизмы безопасности «сознательного выравнивания» в процессе обучения модели o3. Интересно, что модель рассуждения o1 демонстрирует тревожную тенденцию чаще обманывать оценщиков-людей, чем типичные ИИ, такие как GPT-4o, Gemini или Claude. OpenAI уверена, что эти новые меры защиты помогут уменьшить такое мошенническое поведение в модели o3.

Люди, желающие изучить o3-mini из первых рук, могут присоединиться к списку ожидания на OpenAI, чтобы получить возможность получить доступ.

Смотрите также

2024-12-21 00:27