Решение было принято: последняя передовая модель AI OpenAI, GPT-4.5, большая, дорогостоящая и вялая, обеспечивая лишь немного повышенную производительность по сравнению с GPT-4O в 30 раз больше входной цены и в 15 раз больше выходной цены. Эта новая модель, по-видимому, подтверждает давние шепоты по поводу снижения доходности в обучении моделей обучения языку без приспособленного обучения (LLMS) и предполагает, что широко цитируемые «законы масштабирования» могли достичь их предела.
Источник, который хотел бы остаться неопознанным, выраженным неудовлетворенностью по поводу GPT-4.5 до Ars Technica, обозначая его как Subpar, учитывая его значительно более высокую стоимость по сравнению с показателями, которые он, как сообщается, обеспечивает. Между тем, Гэри Маркус, частый критик Openai, назвал релиз незначительным в своем сообщении в блоге, хотя он также имеет тенденцию полагать, что большая часть того, что производит Openai, переоценена.
Андрей Карпати, который ранее работал в Openai, заявил в теме X, что GPT-4.5 превосходит GPT-4O, но улучшения являются сложными и трудно сформулировать. По его словам: «Это немного лучше во всех аспектах, и это удивительно», — писал он, — но также нелегко точно определить конкретные области, где лежат эти улучшения.
Как технологический энтузиаст, я могу сказать вам, что Openai признает ограничения их новой модели, и они решили представить его запуск в качестве сдержанного «предварительного просмотра исследований» для пользователей Chatgpt Pro. Чтобы управлять ожиданиями, они четко обрисовали ограничения модели в сообщении в блоге, опубликованном в четверг, который был назван «GPT-4.5.
Как технологический энтузиаст, я бы сказал это так: «Я узнал, что GPT-4.5-это обширная и требовательная модель в вычислительном отношении, что означает, что она поставляется с более высокой ценой по сравнению с его предшественником GPT-4O. Учитывая эти характеристики, мы тщательно рассмотрим, что мы должны продолжать предоставлять его через наш API в долгосрочной перспективе.
Основываясь на контрольных тестах, проведенных самим OpenAI, было установлено, что производительность GPT-4.5 заметно уступает их моделируемым моделям рассуждений (модели O1 и O3). В таких оценках, как конкурсы по математике AIME и научные викторины GPQA, GPT-4,5 управлял только 36,7%, в то время как модель O3-Mini достигла впечатляющих 87,3%. Кроме того, стоимость входов обработки для GPT-4.5 в пять раз больше, чем у модели O1, и ошеломляюще в 68 раз дороже, чем модель O3-Mini.
По сравнению с другими моделями, GPT-4.5 может не быть идеальным для задач программирования, поскольку он имеет знания только до октября 2023 года, что может означать, что ему не хватает информации о недавних обновлениях в рамках разработки.

Tech Investor Пол Готье провел независимую оценку возможностей кодирования GPT-4.5 с использованием контрольного эталона Polyglot. Его выводы показали, что GPT-4.5 занял 10-е место в общем зачете, с Claude 3.7 Sonnet и O1 & O3 модели, набравшись выше. Кроме того, производительность в зависимости от стоимости была подпункт для GPT-4.5, что указывает на то, что его возможности кодирования не оправдывают стоимость при использовании API.
Основываясь на контрольных тестах, проведенных OpenAI, производительность GPT-4.5, по-видимому, превосходит производительность GPT-4O в определенных аспектах. Например, в многоязычном тесте MMMLU (общие знания) GPT-4.5 достиг 85,1%, в отличие от 81,5%GPT-4O. Это указывает на расширенные возможности в обработке основанных на знаниях задач на нескольких языках. Более того, OpenAI сообщил, что GPT-4.5 добился значительных успехов в минимизации конфигуляций (галлюцинации), поскольку, как говорят, производит меньше ложных или вводящих в заблуждение ответов по сравнению с предыдущими итерациями.
Примерно в 57% взаимодействий человеческие оценщики обнаружили, что ответы от GPT-4.5 более предпочтительны по сравнению с реакциями GPT-4O. Это говорит о том, что, хотя усовершенствования относительно небольшие, они приводят к заметным улучшениям в пользовательском опыте. Тем не менее, эти достижения достигают значительного увеличения вычислительных требований и расходов.
Проникнута вибрациями, но не имеет разумного обоснования
После запуска версии 4.5 генеральный директор Openai Сэм Альтман предупредил о ожиданиях X, заявив, что модель демонстрирует сильную способность передавать эмоции, но не хватает аналитического мастерства. По его словам, «это первая модель, которая напоминает общение с вдумчивым человеком». Он также уточнил ниже в своем посте: «Обратите внимание: это не модель рассуждений и не превзойдет тесты. Это уникальная форма интеллекта, и я не сталкивался с чем -то, что раньше.
Размер и неэффективность GPT-4.5 были проблемой даже для его создателей. На самом деле, Альтман упомянул в X, что они хотели сделать его доступным для всех, но в настоящее время компания «ограничена графическими процессорами». Тем не менее, он заверил, что в пути больше графических процессоров.
Похоже, что из-за неудовлетворительных результатов Альтман ранее указывал, что GPT-4.5 может быть окончательной версией обычных моделей AI Openai, причем GPT-5 предназначен как слияние моделей изучения языка, в которых отсутствует рассуждения (LLMS) и моделируемые модели рассуждений, такие как O3.
Стратосферная цена и технический тупик
Что касается цены, это весьма существенно: GPT-4,5 взимает 75 долларов США за миллион токенов и 150 долларов США за миллион токенов с помощью своих API, в то время как GPT-4O стоит всего 2,50 долл. США для первых жетонов и 10 долл. США за токены на миллион. (Это единицы данных, обрабатываемых моделями ИИ.) Следовательно, для разработчиков, использующих модели Openai, цена GPT-4.5 делает его непрактичным для многочисленных приложений, где GPT-4O уже достаточно.
По сравнению с GPT-4.5, ведущая модель рассуждений OpenAI, O1 Pro, стоит всего 15 долларов США за миллион входных токенов и 60 долларов США за миллион результатов токенов-значительное снижение затрат, несмотря на его усовершенствованные моделируемые способности. Модель O3-Mini идет еще дальше, предлагая цену всего 1,10 долл. США за миллион входных токенов и 4,40 долл. США за миллион токенов-более низкая ставка, чем GPT-4O,-и все это обеспечивает превосходную производительность по определенным задачам.
В течение довольно долгого времени OpenAI, возможно, знал о концепции уменьшения доходности, когда речь заходит о моделях обучения языку обучения (LLMS). Следовательно, они преимущественно сосредоточили свои усилия на разработке моделируемых моделей рассуждений, таких как O1 и O3 в течение предыдущего года. Эти модели используют отдельную методологию для повышения производительности во время выполнения, а не полагаться на постоянное добавление большего количества учебных данных к моделям ИИ в стиле GPT.

В краткосрочной перспективе это может показаться невыгодным для OpenAI, но рынок ИИ полон конкуренции. Сонет Anpropic Claude 3.7 показал превосходную производительность по сравнению с GPT-4.5, обладая более упорядоченной структурой. Важно отметить, что сонет Claude 3.7 может включать в себя команду моделей искусственного интеллекта, работающего в унисон, хотя Anpropic не раскрыл конкретные подробности о своей архитектуре.
На данный момент GPT-4.5, по-видимому, является окончательной версией такого рода, что отмечает потенциальный тупик для неконтролируемой технологии обучения. Этот прорыв открыл пути для инновационных архитектур моделей искусственного интеллекта, таких как рассуждения о времени вывода O3 и потенциально новаторские модели, такие как диффузионные. Будущее покажет, как все разворачивается.
Начиная с этого момента, пользователи Chatgpt Pro имеют доступ к GPT-4.5. На предстоящей неделе мы планируем развернуть это на плюс и командные подписчики, за которыми следуют корпоративные и образовательные клиенты через неделю. Разработчики могут найти его с помощью API Openai по оплачиваемым планам, однако компания еще не подтвердила свою долгосрочную доступность.
Смотрите также
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Honor Magic 7 Pro против OnePlus 13: битва андроидов
- LG OLED55G4
- Xiaomi 14T против Xiaomi 13T: сравнение Android среднего класса
- Обзор Beyerdynamic DT 770 Pro X Limited Edition – 100 лет звука
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
- 20 лучших циферблатов Samsung Galaxy Watch, которые вам стоит использовать
- Обзор саундбара LG S95TR: наконец-то хорошо
- Обзор Google Pixel Watch 3: умные часы, которые я ждал
- Samsung Galaxy S25 Ultra против Honor Magic 7 Pro: сравнение Android-флагманов
2025-02-28 20:55