10 объявлений, которые сделали 2024 год знаковым для ИИ

Как человек, который уже довольно давно внимательно следит за искусственным интеллектом и взаимодействует с ним, я должен сказать, что 2024 год стал поистине впечатляющим для этой быстро развивающейся области. Успехи, достигнутые всего за один год, повергли меня в трепет и воодушевили тем, что ждет меня впереди.

Как технический энтузиаст, я не могу не восхищаться ускоренным ростом, который мы наблюдаем в мире искусственного интеллекта за последние два года. Вместо того, чтобы замедлиться, он, кажется, набирает обороты с почти ошеломляющей скоростью! Сфера генеративного искусственного интеллекта расширяется с поразительной скоростью, с неумолимой энергией проникая в различные платформы, среды и даже устройства. Это действительно захватывающее время — стать частью этой технологической революции!

Вот 10 объявлений, которые сделали 2024 год монументальным в мире искусственного интеллекта.

Рекомендуемые видео

OpenAI выпускает GPT-4o

Первоначально, когда ChatGPT (на базе GPT-3.5) дебютировал в ноябре 2022 года, его можно было рассматривать как усложненную версию Mad Libs, в которую можно играть на компьютере. Хотя на тот момент его возможности были новаторскими, только после запуска GPT-4o в мае 2024 года генеративные системы искусственного интеллекта действительно начали проявлять весь свой потенциал.

Расширяя возможности своей предыдущей версии по обработке и созданию текста и изображений, GPT-4o предлагает более глубокое понимание контекста, чем просто GPT-4. Это приводит к повышению производительности в различных областях, включая описание изображений, визуальную интерпретацию, а также создание творческого и аналитического контента, такого как графики, диаграммы и визуальные эффекты.

Расширенный голосовой режим помогает компьютерам говорить как люди

В сентябре OpenAI укрепила свой статус ведущей компании в области искусственного интеллекта, предоставив подписчикам ChatGPT расширенный голосовой режим. Это нововведение устранило необходимость для пользователей вводить запросы в диалоговое окно, что позволило им взаимодействовать с ИИ так же, как при разговоре с другим человеком.

Используя быструю, человеческую скорость реакции GPT-4o, расширенный голосовой режим значительно изменил способ взаимодействия людей с искусственным интеллектом. Это нововведение позволило пользователям полностью раскрыть творческий потенциал, который может предложить ИИ.

Генеративный ИИ выходит на передний план

Еще в 2022 году я заметил, что ChatGPT был единственным ИИ-присутствием, ограниченным только одним местом: ChatGPT.com. Но, ох, как все изменилось! В настоящее время генеративный искусственный интеллект распространен повсеместно и появляется в различных устройствах, таких как смартфоны, умные дома, автономные транспортные средства и гаджеты для мониторинга здоровья. Например, вы можете получить доступ к ChatGPT через настольное приложение, API, мобильное приложение или даже набрав номер 800. Microsoft пошла еще дальше, интегрировав искусственный интеллект непосредственно в свою серию ноутбуков Copilot+.

Одна из возможных перефразировок могла бы звучать так: «ИИ Apple, или искусственный интеллект, возможно, не дебютировал безупречно (поскольку некоторые функции еще не реализованы), но он выделяется как решающий шаг на пути к тому, чтобы сделать передовые технологии генеративного ИИ легко доступными для масс». .

Как сторонний наблюдатель, я заметил, что ни ПК Copilot+, ни Apple Intelligence не развернулись совсем так, как предполагали их создатели, особенно для Microsoft. Однако всем ясно, что это только начало новой главы.

Возрождение атомной энергетики

В Америке до этого года ядерная энергетика в целом считалась убыточным предприятием из-за ее предполагаемой ненадежности и опасности, во многом вызванной инцидентом на острове Три-Майл в 1979 году, когда один из главных реакторов станции частично расплавился, выпустив токсичные радиоактивные вещества. вещества в окружающую среду. Однако, учитывая растущие энергетические потребности крупномасштабных языковых моделей и значительную нагрузку, которую они оказывают на электросети, несколько известных компаний, занимающихся искусственным интеллектом, сейчас задумываются об использовании своих центров обработки данных на атомной энергии.

Например, в марте Amazon купила у Talen центр обработки данных, работающий на ядерной энергии, а в октябре последовало соглашение о закупке компактных, автономных малых модульных реакторов (SMR) у Energy Northwest. В ответ Microsoft приобрела производственные мощности Три-Майл-Айленда и теперь усердно работает над перезапуском первого реактора и возобновлением производства электроэнергии.

Агенты могут стать следующим большим достижением в области генеративного искусственного интеллекта

Похоже, что после предоставления большой языковой модели с обширными обучающими данными, мощностью и ресурсами наступает момент, когда добавление большего количества не приводит к значительному улучшению ее производительности — это известно как проблема убывающей отдачи. С этой проблемой столкнулась индустрия искусственного интеллекта в 2024 году, что привело к отходу от крупномасштабных языковых моделей (LLM), которые когда-то были синонимом генеративного опыта искусственного интеллекта, к агентам; компактные модели, созданные для решения конкретных задач, а не для удовлетворения всех возможных запросов пользователя.

В октябре Anthropic представила своего агента, который они назвали «Использование компьютера». Позже в ноябре Microsoft представила аналогичный агент под названием «Copilot Actions», и ходят слухи, что OpenAI представит свою функцию агента примерно в январе.

Распространение моделей рассуждения

Многие современные модели больших языков при формировании ответов отдают приоритет скорости, а не точности, иногда за счет правильности. Однако модель рассуждения o1 OpenAI использует противоположную стратегию: она жертвует скоростью на внутреннюю проверку своих рассуждений, лежащих в основе ответа, стремясь убедиться, что его ответ является максимально точным и всеобъемлющим.

Несмотря на то, что общественность еще не получила широкого распространения этой технологии (в настоящее время она доступна только подписчикам уровней Plus и Pro), крупные компании, занимающиеся искусственным интеллектом, продолжают разрабатывать свои собственные версии. Google представила свой аналог под названием Gemini 2.0 Flash Thinking Experiment 19 декабря, а OpenAI сообщила, что они уже работают над обновлением под названием o3, во время прямой трансляции 12 дней OpenAI 20 декабря.

Поиск с помощью искусственного интеллекта распространяется по всему Интернету

В настоящее время кажется почти неизбежным использование генеративного ИИ в различных местах. Итак, разве не логично включить такую ​​технологию в один из фундаментальных аспектов Интернета? Например, Google экспериментирует с этой технологией уже около двух лет. Первоначально они представили функцию генерации поиска еще в мае 2023 года, а в мае прошлого года представили функцию обзора ИИ. Этот инструмент обзора ИИ создает краткую сводку информации, которую ищет пользователь, и отображает ее в верхней части страницы результатов поиска.

ИИ по имени Перплексити продвигает этот метод на дополнительный уровень. Вместо того, чтобы просто предоставлять ответы, его «генератор ответов» ищет в Интернете информацию, которую запрашивает пользователь, и компилирует эти данные в связный и диалоговый ответ, дополненный цитатами. Это избавляет от необходимости переходить по многочисленным ссылкам. Точно так же компания OpenAI, известная своими инновационными подходами, создала аналогичную систему для своего чат-бота под названием ChatGPT Search, которую они представили в октябре.

Artifact от Anthropic начинает совместную революцию

Работа с обширными документами, такими как длинные творческие статьи или разделы кодирования, прямо здесь, в нашем чате, может оказаться слишком трудоемкой из-за необходимости непрерывной прокрутки вверх и вниз, чтобы увидеть весь файл.

Как исследователь, я обнаружил огромную ценность функции «Артефакты» Anthropic, представленной в июне, которая предлагает отдельное окно предварительного просмотра для просмотра текста, сгенерированного ИИ, отдельно от основного разговора. Эта функция получила высокую оценку, что побудило OpenAI также оперативно представить свою собственную версию.

В этом году передовые модели и инновационные функции Anthropic сделали его сильным конкурентом как OpenAI, так и Google, и эта разработка выделяется сама по себе.

Генераторы изображений и видео наконец-то разобрались с пальцами

Используйте управление камерой, чтобы целенаправленно направлять каждый кадр.

Узнайте, как это сделать, с помощью сегодняшней Runway Academy.

— Подиум (@runwayml), 2 ноября 2024 г.

Когда-то отличить изображения и видео, созданные ИИ, было относительно просто; если у субъекта было более двух рук, ног или десяти пальцев, это, скорее всего, было искусственным, и ярким примером в июне послужили визуальные эффекты Stable Diffusion 3, вдохновленные Кроненбергом. Однако по мере приближения к концу 2024 года отличить созданный человеком контент от контента, созданного машинами, стало заметно сложнее из-за быстрого улучшения качества и анатомической точности этих генераторов изображений и видео.

Современные видеосистемы с искусственным интеллектом, такие как Kling Gen 3 Alpha, Movie Gen и другие, теперь способны создавать высокореалистичные видеоклипы с очень небольшими искажениями и точным контролем над движениями камеры. Между тем, такие технологии, как Midjourney, Dall-E 3 и Imagen 3, способны создавать потрясающе реалистичные изображения в самых разных художественных стилях с минимальным количеством непреднамеренных визуальных артефактов.

Действительно, стоит отметить, что модель OpenAI, Sora, была представлена ​​во время анонсов в декабре прошлого года. Конкуренция в области видеомоделей, генерируемых искусственным интеллектом, значительно усилилась, и к 2024 году эти модели продемонстрировали весьма впечатляющие возможности.

Усилия Илона Маска стоимостью 10 миллиардов долларов по созданию крупнейшего в мире кластера обучения искусственному интеллекту

В этом году xAI представила Grok 2.0, свою последнюю модель, полностью интегрированную в X. Однако основной шум вокруг проекта искусственного интеллекта Илона Маска и его будущего направления. В 2024 году Маск приступил к созданию крупнейшего в мире суперкомпьютера, расположенного недалеко от Мемфиса, штат Теннесси. Эта колоссальная машина была включена в 4:20 утра 22 июля. Этот суперкомпьютерный кластер, оснащенный 100 000 графическими процессорами Nvidia H100, предназначен для точной настройки новых итераций модели генеративного искусственного интеллекта Grok от xAI. Маск утверждает, что эти обновленные модели в конечном итоге превзойдут все остальные и станут самой мощной в мире системой искусственного интеллекта.

Прогнозируется, что в 2024 году Илон Маск инвестирует около 10 миллиардов долларов на капитальные и операционные расходы. Однако, по слухам, он приложит усилия, чтобы удвоить количество графических процессоров (GPU), используемых в его суперкомпьютере, в следующем году.

Смотрите также

2024-12-25 17:28