Nvidia только что выпустила LLM с открытым исходным кодом, чтобы конкурировать с GPT-4

Как опытный исследователь с более чем двадцатилетним опытом работы в сфере искусственного интеллекта и высоких технологий, я нахожу объявление Nvidia о своей модели большого языка с открытым исходным кодом NVLM 1.0 просто интригующим. Помню, когда я только начинал свою карьеру, гиганты этой области держали свои карты на груди, охраняя свои фирменные модели железной рукой. Но времена изменились, и приятно видеть, что такая компания, как Nvidia, делает смелый шаг к открытости и сотрудничеству.


Nvidia, компания, известная созданием графических процессоров высшего уровня, популярных в секторе искусственного интеллекта, объявила о запуске языковой модели с открытым исходным кодом. Говорят, что эта модель обеспечивает производительность, эквивалентную ведущим проприетарным моделям OpenAI, Anthropic, Meta и Google.

В недавно опубликованном официальном документе наша компания представила серию NVLM 1.0, в основе которой лежит мощная модель NVLM-D-72B с 72 миллиардами параметров. Как заявили наши исследователи: «Мы представляем NVLM 1.0, семейство передовых мультимодальных моделей большого языка, которые обеспечивают высочайшую производительность при решении задач визуального языка, соответствуя или превосходя результаты популярных проприетарных моделей (таких как GPT-4o) и открытых -исходные модели.

Представляем NVLM 1.0, серию передовых мультимодальных моделей изучения языка, которые обеспечивают высочайшую производительность при решении задач, связанных с визуальным языком. Эти модели соответствуют или превосходят результаты, достигнутые ведущими коммерческими моделями, такими как GPT-4o, и моделями с открытым исходным кодом, такими как InternVL 2.

— Вэй Пин (@_weiping) 18 сентября 2024 г.

Говорят, что последняя версия этого семейства моделей обладает «мультимодальностью производственного уровня», что означает, что она обеспечивает выдающиеся результаты при решении множества задач по зрению и языку. Более того, его текстовые ответы значительно лучше, чем у оригинального LLM, на основе которого было разработано семейство NVLM. Чтобы создать эту способность, исследователи объединили большой набор высококачественных текстовых данных с обширными мультимодальными математическими данными и данными для рассуждений во время обучения. По их словам, это привело к улучшению математических навыков и навыков программирования во всех аспектах.

В результате появилась LLM (модель изучения языка), способная как анализировать юмор в мемах, так и шаг за шагом разбирать сложные математические уравнения. Nvidia смогла повысить точность модели только для текста в среднем на 4,3 балла по стандартным отраслевым тестам, во многом благодаря своей уникальной методологии мультимодального обучения.

Nvidia, похоже, стремится обеспечить соответствие своей модели NVLM последним критериям «открытого исходного кода» Open Source Initiative, не только раскрывая свои обучающие веса для общественного контроля, но и планируя сделать свой исходный код доступным в ближайшие дни. Это отличает Nvidia от конкурентов, таких как OpenAI и Google, которые хранят в секрете информацию о весе и исходных кодах своих LLM. Таким образом, Nvidia позиционирует семейство NVLM как основу для сторонних разработчиков для разработки собственных чат-ботов и приложений искусственного интеллекта, а не напрямую конкурирует с ChatGPT-4o или Gemini 1.5 Pro.

Смотрите также

2024-10-02 19:57