Последняя модель ChatGPT может привести к снижению производительности

Как технический энтузиаст с более чем двадцатилетним опытом работы за плечами, я должен сказать, что недавний поворот событий весьма заинтриговал и немного обеспокоил меня. Я был свидетелем эволюции моделей ИИ от их скромного начала до продвинутых объектов, с которыми мы взаимодействуем сегодня. Последний отчет Artificial Analysis, предполагающий значительное снижение производительности GPT-4o, действительно озадачивает, особенно с учетом недавних заявлений об обновлении, сделанных OpenAI.


Судя по недавнему отчету Artificial Analysis, выяснилось, что основная модель большого языка OpenAI для ChatGPT, GPT-4, за последние несколько недель испытала заметное снижение производительности. Эта неудача приблизила возможности современной модели к возможностям гораздо меньшей и менее функциональной мини-модели GPT-4.

Эта оценка была проведена в течение 24 часов после того, как компания представила улучшения своей модели GPT-4o. OpenAI заявила на X, что навыки письма модели значительно улучшились, стали более естественными, привлекательными и нацеленными на повышение релевантности и читабельности. Кроме того, было сказано, что он более умело обращается с загруженными файлами, предлагая более подробную информацию и исчерпывающие ответы. Однако сейчас эти утверждения подвергаются сомнению.

Рекомендуемые видео

Вчера компания Artificial Analysis сообщила в сообщении Reddit, что они завершили оценку последней версии GPT-4o от OpenAI. Они отметили, что полученные оценки значительно ниже по сравнению с августовским выпуском GPT-4o. Кроме того, они подчеркнули, что индекс качества модели, измеренный с помощью искусственного анализа, упал с 77 до 71, что теперь соответствует показателю мини-модели GPT-4o.

Кроме того, стоит отметить, что балл в тесте GPQA Diamond для GPT-4 упал с 51% до 39%, а производительность в тестах MATH также снизилась с 78% до 69%.

Одновременно исследователи обнаружили, что скорость ответа модели увеличилась более чем вдвое, подскочив примерно с 80 выходных токенов в секунду до примерно 180 токенов в секунду. В своей статье исследователи упомянули, что они обычно замечают более высокую скорость в первый день запуска моделей OpenAI (возможно, из-за способности OpenAI подготовиться перед использованием), но раньше они не замечали увеличения скорости в 2 раза.

Подождите, новый GPT-4o — модель меньшего размера и менее интеллектуальная?

Вчера мы завершили проведение индивидуальных оценок выпуска GPT-4o от OpenAI. По сравнению с августовской версией GPT-4o мы постоянно наблюдаем значительно более низкие результаты оценки.

GPT-4o (ноябрь) и GPT-4o (август):
➤…

— Искусственный анализ (@ArtificialAnlys) 21 ноября 2024 г.

Судя по доступной информации, кажется правдоподобным, что модель GPT-4, выпущенная OpenAI 20 ноября, меньше модели, выпущенной в августе. Поскольку OpenAI не снизила цены на новую версию, мы советуем разработчикам проявлять осторожность перед переносом рабочих нагрузок из августовской модели, поскольку сначала необходимо провести тщательное тестирование.

Первоначально выпущенный в мае 2024 года, GPT-4o был разработан, чтобы затмить своих предшественников, модели GPT-3.5 и GPT-4. GPT-4o отличается высочайшей производительностью при выполнении голосовых, многоязычных задач и задач, связанных с зрением, как утверждает OpenAI. Это делает его особенно подходящим для сложных приложений, таких как перевод в реальном времени и расширенный диалоговый искусственный интеллект.

Смотрите также

2024-11-22 02:27