Microsoft объявила о создании нового генератора речи VALL-E 2, который, по словам компании, настолько хорош, что его опасно выпускать в широкий доступ. Это заявление вызывает вопросы: отражает ли оно реальные опасения или является умелым маркетинговым ходом для привлечения внимания? Впрочем, учитывая то, что мы видели в ChatGPT уже поражает, так что результат Microsoft звучит правдоподобно.
Согласно недавнему посту Microsoft, VALL-E 2 — это нейронная модель для синтеза речи, которая впервые достигла "человеческого паритета". Она способна генерировать точную, естественную речь, полностью имитирующую голос оригинального говорящего, сравнимую с человеческой речью. Уникальность VALL-E 2 заключается в том, что она может точно воспроизвести голос конкретного человека на основе образца длиной всего в несколько секунд.
Модель использует обширную обучающую библиотеку, которая сопоставляет вариации произношения, интонации и ритма в модели с образцом и выдает убедительную синтезированную речь. Microsoft предоставила ряд аудиопримеров, демонстрирующих, насколько хорошо VALL-E 2 может превратить короткий образец от трех до десяти секунд в синтезированную речь, часто неотличимую от реального человеческого голоса.
Осознавая потенциальные риски злоупотребления такой технологией, Microsoft заявила, что пока не планирует выпускать VALL-E 2 в публичный доступ. Компания подчеркивает, что это чисто исследовательский проект, и выражает обеспокоенность возможным неправомерным использованием модели, таким как подделка голосовой идентификации или имитация конкретного говорящего.
Подобные опасения Microsoft высказывала и в отношении своей технологии VASA-1, способной превращать статичное изображение человека в убедительное видео с движением. Компания подчеркивает, что эти технологии не предназначены для создания контента, вводящего в заблуждение или обманывающего, но признает потенциальную возможность их неправомерного использования.