Как технический энтузиаст, который уже много лет с большим интересом следит за развитием искусственного интеллекта (ИИ) и его приложений, я одновременно очарован и обеспокоен последним объявлением Microsoft относительно их нового ИИ-синтезатора голоса VALL-E 2. Потенциальные преимущества такой передовой технологии преобразования текста в речь, несомненно, огромны: от обеспечения возможности общения для людей, страдающих нарушениями речи, до улучшения функций доступности и развития индустрии развлечений.
В 2019 году OpenAI воздержалась от публикации полных результатов своего исследования GPT2 из-за опасений, что оно может быть слишком рискованным для публичного использования. Следуя этому примеру, Microsoft, основной инвестор OpenAI, выразила обеспокоенность по поводу безопасности своего последнего ИИ-синтезатора голоса VALL-E 2 и не позволила сделать его широко доступным.
Усовершенствованная система преобразования текста в речь VALL-E 2 с искусственным интеллектом способна генерировать высокореалистичную речь из минимального количества аудиосэмплов без предварительной подготовки. По мнению исследователей, VALL-E 2 превосходит более ранние системы с точки зрения долговечности речи, аутентичности и сходства говорящего. Это знаменательная веха, поскольку компания первой достигла результатов на уровне человека по этим критериям.
Как языковой аналитик, я могу подтвердить, что некоторые продвинутые системы способны обрабатывать сложные структуры предложений и повторяющиеся фразы, в том числе такие заведомо сложные, как скороговорки.
Как аналитик, я бы подчеркнул, что эта технология имеет огромный потенциал для различных полезных применений. Например, это может предоставить людям, страдающим от таких состояний, как афазия или боковой амиотрофический склероз (БАС), возможность снова общаться через компьютер. Кроме того, его использование распространяется на образование, развлечения, журналистику, чат-боты, услуги перевода и специальные возможности, такие как Siri. Однако крайне важно признать потенциальные риски, связанные с этой технологией. Например, злоумышленники могут использовать его в гнусных целях, таких как подмена голосовой идентификации или выдача себя за конкретного говорящего.
В настоящее время наша команда не намерена интегрировать VALL-E 2 в коммерческий продукт или расширять его доступность для широкой публики. Если вы столкнетесь с каким-либо подозрением в неправильном или незаконном использовании VALL-E 2, которое нарушает ваши права или права других лиц, отправьте отчет через наш портал сообщений о злоупотреблениях.
Microsoft — не единственная компания, работающая над тем, чтобы научить компьютеры звучать более по-человечески. Проект Google Chirp, Iconic Voices от ElevenLabs и Voicebox от Meta среди других преследуют эту цель.
Тем не менее, эти системы столкнулись с этическими проблемами из-за их способности обманывать невинных людей, имитируя голоса любимых родственников или известных личностей. Существует значительная разница между обработанным звуком и цифровыми изображениями; в настоящее время не существует надежного метода добавления отличительного знака, известного как водяной знак, к аудио, сгенерированному искусственным интеллектом, для обеспечения аутентичности.
Смотрите также
- На фотографии iPhone 16 Pro Max видны удивительно тонкие рамки
- Концовка «Субстанции» объясняет: что происходит со Сью и Элизабет?
- Эта функция Apple Watch сводила меня с ума. Вот как я это исправил
- Если вы скучаете по старым Windows Phone от Nokia, вам понравится HMD Skyline.
- Приложение Google Gemini AI получает более широкую версию. Ваш телефон есть в списке?
- Xiaomi Mix Fold 4 против Xiaomi Mix Flip: в чем разница?
- Что лучше: Dell Latitude или Inspiron?
- Программное обеспечение и прошивка Framework были в беспорядке, но над ними работают
- 7 захватывающих южноафриканских фильмов ужасов
- Холли Берри сталкивается со злым духом в захватывающем трейлере триллера ужасов Never Let Go
2024-07-12 00:27