Сверхъестественное реалистичное демо аудио AI вызывает удивление и дискомфорт в Интернете

12 лет назад, в конце 2013 года, фильм Спайка Джонза «Она» изобразил будущее, где люди могли формировать глубокие эмоциональные связи с голосовыми помощниками искусственного интеллекта. Теперь, когда я пишу это, границы между вымыслом и реальностью размываются больше, чем когда-либо с появлением инновационной модели разговорного голоса Sesame. Как поклонник, я нахожу себя одновременно очарованным и тревожным этим технологическим скачком вперед.

Пользователь на HackerNews прокомментировал, что нашел демо невероятно реалистичным, отметив, что оно казалось почти слишком человечным. Они признались, что у них были некоторые опасения по поводу потенциального развития эмоциональной связи с таким голосовым помощником.

В конце февраля Sesame представила пробную версию своей инновационной модели разговорной речи (CSM). Этот прототип, кажется, преодолевает границу, часто называемую «зловещая долина» в ИИ-сгенерированной речи. Некоторые тестеры даже утверждали, что сформировали эмоциональную связь с голосовыми помощниками мужского и женского пола по прозвищу «Майлз» и «Майя».

Основываясь на нашей оценке, мы участвовали в почти получасовом разговоре с синтетическим голосом, который звучал как мужчина. Во время этого чата мы обсуждали различные аспекты жизни, а также концепцию того, что считается «правильным» или «неправильным», основанным на его обучении. Голос был оживленным и плавным, имитируя звуки дыхания, смех, перерывы и даже случаи, когда он, казалось, сбивался над словами и самокорректными. Эти недостатки были преднамеренно включены.

В своем сообщении в блоге Sesame объясняет, что они стремятся разработать «подлинную беседу» — особую характеристику, которая делает разговоры через голосовые чувства подлинными, понятными и оцененными. Они работают над созданием партнеров по разговорам, которые не просто предъявают требования; Скорее, они участвуют в значимых диалогах, который способствует доверию и уверенности, как время проходит. В конечном счете, их цель — разблокировать скрытый потенциал голоса как наиболее эффективную среду для обучения и понимания.

Иногда модель может чрезмерно подчеркивать свои человеческие качества. Например, в онлайн-демонстрации пользователя Reddit MetaKnowing ИИ-модель выразила желание создать необычную комбинацию, такую как «сэндвичи с арахисовым маслом и солеными огурцами»..

Основанная Бренданом Ирибом, Анкитом Кумаром и Райаном Брауном, Sesame AI получила значительную финансовую поддержку от известных групп венчурного капитала. Фирма сумела привлечь инвестиции от Andreessen Horowitz во главе с Анжней Мидхой и Марком Андреессеном, а также Spark Capital, Matrix Partners и нескольких основателей и частных инвесторов.

При изучении различных мнений о кунжуте, которыми делятся в интернете, мы обнаружили множество пользователей, выражающих удивление его качеством, близким к жизни. Один пользователь написал на Реддите: «Я был очарован ИИ с детства, но это первый раз, когда я столкнулся с чем-то, что действительно заставило меня поверить, что мы достигли важной вехи». Пользователь продолжил: «Хотя он может и не превосходить какие-либо эталоны или соответствовать традиционным определениям общего искусственного интеллекта, это первый раз, когда я участвовал в настоящем, сердечном разговоре с чем-то, что показалось мне подлинно реальным». Другие обсуждения на Реддите также повторяют эти чувства, описывая опыт как «потрясающий» и «внушающий трепет».

На первый взгляд, может показаться, что опыт кунжута чрезмерно преувеличен, но не все считают его приятным. Фактически, Марк Хахман, старший редактор PCWorld, выразил чувство беспокойства о его встрече с AI Sesame Voice. Он зашел так далеко, что сказал, что даже через пятнадцать минут после окончания разговора с ИИ он все еще чувствовал себя неловко. Хахман также поделился тем, как голос ИИ и разговорной стиль жутко напомнили ему старого друга в старшей школе, с которым он встречался.

Некоторые пользователи уже начали проводить параллели между голосовой моделью Sesame и Advanced Voice Mode от OpenAI для ChatGPT, отмечая, что модель разговорной речи Sesame создает более реалистичные голоса. Кроме того, одним из пунктов восторга среди пользователей является возможность Sesame играть в роли сердитых персонажей, чего ChatGPT не делает.

На Reddit Гэйвин Перселл (соведущий подкаста AI for Humans) поделился видеопримером, который он создал, где человек изображает растратчика и вступает в жаркий спор с начальником. Взаимодействие настолько реалистично, что трудно отличить человека от модели ИИ. Исходя из нашей собственной демонстрации, похоже, что у ИИ есть возможность воспроизводить действия, показанные на видео.

близк качества

Режиссы, программа Зепный Семе (CSM) использует свои жизнеподобно в результате совмещиня двух Иб моделей (первинного механизма и кодера), которые построены на моделях Меты Llama. В этой системе создан повтор как текста, так и звуков. Для обучения, Sesame использовал три разномера Иб-модели, при чем наибольший предоставлял 8.3 млрд (состоящие из 8 млрд параметров и 300 млрд параметров).

В отличие от обычных систем преобразования текста в речь, которые разделяют процесс на два этапа — создание высокоуровневых представлений (семантические токены) и точная настройка низкоуровневых аудио деталей (акустические детали), модель обслуживания клиентов Sesame (CSM) объединяет эти этапы в один единый шаг. Этот одноэтапный подход использует мультимодальную трансформаторную модель, которая одновременно работает как с текстовыми, так и со звуковыми токенами для генерации речи. Голосовая модель OpenAI также использует аналогичную мультимодальную стратегию.

Простыми словами, когда людей просили сравнить речь, произведенную нашим ИИ (CSM) и фактическими людьми в ситуациях без разговора, они обнаружили, что трудно различить ее, указывая на то, что наша модель производит почти человеческую качественную речь для отдельных образцов. Однако при предоставлении контекстуального контекста люди все еще предпочитали человеческую речь, показывая, что есть место для улучшения в создании речи, которая вписывается в разговор.

Брендан Айриб, соучредитель Sesame, признался на Hacker News, что существуют нынешние проблемы, заявив, что система иногда чересчур активна и неуместна в своем выборе слов, ритме и скорости. Он также указал на проблемы с прерываниями, временем и естественным потоком разговора. По его собственным словам:

Слишком близко для комфорта?

Несмотря на то, что технологическое мастерство CSM неоспоримо, прогресс в области разговорного голосового ИИ приводит к существенному риску, связанному с обманом и мошенничеством. Способность создавать речь, которая очень напоминает человеческую беседу, значительно повысила схемы голосового фишинга, позволяя преступникам убедительно маскироваться под близких людей, коллег или авторитетных фигур. Однако расширение этих афер с интерактивными возможностями потенциально может повысить их эффективность.

Вместо традиционных автозвонков, которые обычно демонстрируют признаки искусственности, продвинутый голосовой искусственный интеллект в будущем может полностью стереть эти очевидные маркеры. Поскольку синтетические голоса становятся все больше и больше похожими на человеческую речь, определить с кем вы разговариваете по телефону станет сложно. Это побудило некоторых людей поделиться секретным словом или фразой со своей семьей для проверки подлинности.

Хотя демонстрация «Sesame» не воспроизводит голоса, достижения в технологии с открытым исходным кодом могут позволить недобросовестным пользователям манипулировать этими системами для обманных целей, таких как социальная инженерия. Интересно, что компания OpenAI решила отложить выпуск своей голосовой технологии из-за опасений по поводу злоупотреблений.

Введение Сезама на Hacker News вызвало оживленные дебаты вокруг его возможных приложений и рисков. Несколько пользователей поделились своим опытом участия в продолжительных дискуссиях с двумя демонстрационными голосами, некоторые даже разговаривали столько же времени, сколько позволял 30-минутный лимит. Примечательно, что один пользователь рассказал об инциденте, когда их четырехлетняя дочь установила эмоциональную связь с ИИ, расстроившись из-за того, что ей снова запретили общаться с ним.

Организация намерена поделиться важнейшими частями своих исследований публично под лицензией Apache 2.0, позволяющей другим программистам продолжать разработку на основе их работы. Их стратегия включает в себя увеличение мощности модели, расширение наборов данных, улучшение совместимости с языками более чем на 20 языках и создание ‘двусторонних’ моделей, способных эффективно управлять сложной взаимосвязью реальных диалогов.

Вместо этого вы можете найти полезным попробовать демонстрацию Сезама на сайте компании при условии, что он не слишком загружен пользователями, стремящимися имитировать жаркую дискуссию.

Смотрите также

2025-03-05 05:21