Как исследователь с опытом работы в области искусственного интеллекта и машинного обучения, я считаю, что последняя разработка OpenAI, CriticGPT, является интригующим решением распространенной проблемы совершенствования моделей ИИ. Непрерывный процесс улучшения языковых моделей, таких как GPT-4, посредством обучения с подкреплением на основе обратной связи с человеком (RLHF), необходим для достижения более высокой производительности и точности. Однако по мере развития возможностей системы она может опережать инструкторов-людей, что затрудняет выявление ошибок и ошибок.
OpenAI создала ИИ под названием CriticGPT, специально разработанный для сотрудничества с тренерами OpenAI в улучшении модели GPT-4. Его уникальная способность заключается в выявлении сложных ошибок кодирования, которые люди потенциально могут не заметить.
После первоначального обучения продвинутая языковая модель, такая как GPT-4, проходит фазу постоянного улучшения с использованием метода под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). На этом этапе инструкторы-люди взаимодействуют с системой и отмечают соответствующие ответы на различные запросы, а также оценивают различные ответы относительно друг друга. Эта обратная связь позволяет модели узнать, какой ответ является предпочтительным, и повышает общую точность ответа.
По мере того, как система становится более опытной, она может превзойти уровень знаний своего инструктора, что затрудняет выявление ошибок и неточностей.
Преподаватели искусственного интеллекта из OpenAI в прошлом году не обязательно были специалистами по конкретным предметам. Однако выяснилось, что они прибегли к передаче этой задачи кенийским работникам за минимальную оплату, около 1,60 доллара в час, чтобы повысить эффективность своих моделей.
Проблема возникает, в частности, при расширении возможностей системы по генерации кода, и именно здесь CriticGPT оказывается полезным.
Как аналитик, я разработал модель CriticGPT, основанную на GPT-4, для выявления ошибок в выводе кода, генерируемого ChatGPT. Согласно нашим недавним данным, когда пользователи получают помощь от CriticGPT при просмотре кода ChatGPT, им удается превзойти тех, кто работает в одиночку, примерно в 60% случаев.
Кроме того, корпорация представила исследовательскую работу по этой теме под названием «Критики LLM превосходят людей в обнаружении ошибок LLM». Результаты показали, что LLM выявляют значительно больше ошибок в кодировании, чем квалифицированные люди, выполняющие оценку кода, а также показали, что критика модели предпочтительнее критики человека в более чем 80% случаев.
Интересно отметить, что в этом исследовании частота галлюцинативных реакций у CriticGPT снизилась при сотрудничестве с людьми. Однако оно оставалось больше, чем когда задачу выполнял только человек самостоятельно.
Смотрите также
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- HannsNote 2 — Android-планшет, непохожий ни на один другой
- 20 лучших циферблатов Samsung Galaxy Watch, которые вам стоит использовать
- Шокз ОпэнФит 2+
- Обзор MobLand (сериал — 2025) — Похоже, у нас развивается ситуация.
- Asus объявляет о скоростной клавиатуре в день ее запрета
- Как проверить, какая у вас материнская плата, за два простых шага
- Xiaomi 14T Pro против Samsung Galaxy S24: что купить?
- Оппо Найди Икс8 Ультра против Сяоми 15 Ультра: Битва флагманов камерных устройств
- Вы купили Google Pixel 8a? Это первые 9 вещей, которые вам нужно сделать
2024-06-28 21:27