Как исследователь с опытом работы в области искусственного интеллекта и машинного обучения, я считаю, что последняя разработка OpenAI, CriticGPT, является интригующим решением распространенной проблемы совершенствования моделей ИИ. Непрерывный процесс улучшения языковых моделей, таких как GPT-4, посредством обучения с подкреплением на основе обратной связи с человеком (RLHF), необходим для достижения более высокой производительности и точности. Однако по мере развития возможностей системы она может опережать инструкторов-людей, что затрудняет выявление ошибок и ошибок.
OpenAI создала ИИ под названием CriticGPT, специально разработанный для сотрудничества с тренерами OpenAI в улучшении модели GPT-4. Его уникальная способность заключается в выявлении сложных ошибок кодирования, которые люди потенциально могут не заметить.
После первоначального обучения продвинутая языковая модель, такая как GPT-4, проходит фазу постоянного улучшения с использованием метода под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). На этом этапе инструкторы-люди взаимодействуют с системой и отмечают соответствующие ответы на различные запросы, а также оценивают различные ответы относительно друг друга. Эта обратная связь позволяет модели узнать, какой ответ является предпочтительным, и повышает общую точность ответа.
По мере того, как система становится более опытной, она может превзойти уровень знаний своего инструктора, что затрудняет выявление ошибок и неточностей.
Преподаватели искусственного интеллекта из OpenAI в прошлом году не обязательно были специалистами по конкретным предметам. Однако выяснилось, что они прибегли к передаче этой задачи кенийским работникам за минимальную оплату, около 1,60 доллара в час, чтобы повысить эффективность своих моделей.
Проблема возникает, в частности, при расширении возможностей системы по генерации кода, и именно здесь CriticGPT оказывается полезным.
Как аналитик, я разработал модель CriticGPT, основанную на GPT-4, для выявления ошибок в выводе кода, генерируемого ChatGPT. Согласно нашим недавним данным, когда пользователи получают помощь от CriticGPT при просмотре кода ChatGPT, им удается превзойти тех, кто работает в одиночку, примерно в 60% случаев.
Кроме того, корпорация представила исследовательскую работу по этой теме под названием «Критики LLM превосходят людей в обнаружении ошибок LLM». Результаты показали, что LLM выявляют значительно больше ошибок в кодировании, чем квалифицированные люди, выполняющие оценку кода, а также показали, что критика модели предпочтительнее критики человека в более чем 80% случаев.
Интересно отметить, что в этом исследовании частота галлюцинативных реакций у CriticGPT снизилась при сотрудничестве с людьми. Однако оно оставалось больше, чем когда задачу выполнял только человек самостоятельно.
Смотрите также
- На фотографии iPhone 16 Pro Max видны удивительно тонкие рамки
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
- Приложение Google Gemini AI получает более широкую версию. Ваш телефон есть в списке?
- Если вы скучаете по старым Windows Phone от Nokia, вам понравится HMD Skyline.
- Xiaomi Mix Fold 4 против Xiaomi Mix Flip: в чем разница?
- Что лучше: Dell Latitude или Inspiron?
- Эта функция Apple Watch сводила меня с ума. Вот как я это исправил
- Программное обеспечение и прошивка Framework были в беспорядке, но над ними работают
- Официально: AMD Ryzen AI 300 до 40% быстрее
- Samsung может разработать тройной телефон к следующему году
2024-06-28 21:27