Новый инструмент искусственного интеллекта, который посчитали «слишком опасным», чтобы его выпускать

Как технический энтузиаст, который уже много лет с большим интересом следит за развитием искусственного интеллекта (ИИ) и его приложений, я одновременно очарован и обеспокоен последним объявлением Microsoft относительно их нового ИИ-синтезатора голоса VALL-E 2. Потенциальные преимущества такой передовой технологии преобразования текста в речь, несомненно, огромны: от обеспечения возможности общения для людей, страдающих нарушениями речи, до улучшения функций доступности и развития индустрии развлечений.

💰

"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.

Найти недооцененные активы

В 2019 году OpenAI воздержалась от публикации полных результатов своего исследования GPT2 из-за опасений, что оно может быть слишком рискованным для публичного использования. Следуя этому примеру, Microsoft, основной инвестор OpenAI, выразила обеспокоенность по поводу безопасности своего последнего ИИ-синтезатора голоса VALL-E 2 и не позволила сделать его широко доступным.

Усовершенствованная система преобразования текста в речь VALL-E 2 с искусственным интеллектом способна генерировать высокореалистичную речь из минимального количества аудиосэмплов без предварительной подготовки. По мнению исследователей, VALL-E 2 превосходит более ранние системы с точки зрения долговечности речи, аутентичности и сходства говорящего. Это знаменательная веха, поскольку компания первой достигла результатов на уровне человека по этим критериям.

Как языковой аналитик, я могу подтвердить, что некоторые продвинутые системы способны обрабатывать сложные структуры предложений и повторяющиеся фразы, в том числе такие заведомо сложные, как скороговорки.

Как аналитик, я бы подчеркнул, что эта технология имеет огромный потенциал для различных полезных применений. Например, это может предоставить людям, страдающим от таких состояний, как афазия или боковой амиотрофический склероз (БАС), возможность снова общаться через компьютер. Кроме того, его использование распространяется на образование, развлечения, журналистику, чат-боты, услуги перевода и специальные возможности, такие как Siri. Однако крайне важно признать потенциальные риски, связанные с этой технологией. Например, злоумышленники могут использовать его в гнусных целях, таких как подмена голосовой идентификации или выдача себя за конкретного говорящего.

В настоящее время наша команда не намерена интегрировать VALL-E 2 в коммерческий продукт или расширять его доступность для широкой публики. Если вы столкнетесь с каким-либо подозрением в неправильном или незаконном использовании VALL-E 2, которое нарушает ваши права или права других лиц, отправьте отчет через наш портал сообщений о злоупотреблениях.

Microsoft — не единственная компания, работающая над тем, чтобы научить компьютеры звучать более по-человечески. Проект Google Chirp, Iconic Voices от ElevenLabs и Voicebox от Meta среди других преследуют эту цель.

Тем не менее, эти системы столкнулись с этическими проблемами из-за их способности обманывать невинных людей, имитируя голоса любимых родственников или известных личностей. Существует значительная разница между обработанным звуком и цифровыми изображениями; в настоящее время не существует надежного метода добавления отличительного знака, известного как водяной знак, к аудио, сгенерированному искусственным интеллектом, для обеспечения аутентичности.

Смотрите также

2024-07-12 00:27