Meta представи модела на Voicebox с изкуствен интелект, който генерира и редактира устна реч

Моделът е обучен върху 50 часа аудиокниги, което е достатъчно, за да му даде възможност да разбере добре говоримото слово

18 юни 23 | 22:48

3940

Кристиан Антонов

Инженерите на Meta представиха модел на невронна мрежа Voicebox, който има широк спектър от възможности за работа с устна реч: генериране, редактиране или стилизиране според образеца. Авторите на проекта го описват като пробив в моделите за изкуствен интелект на речта.

Voicebox може да генерира висококачествен глас или да модифицира предварително записан глас, като например да премахва чужди звуци като клаксони на автомобили или лай на кучета, като същевременно запазва съдържанието на речта и стилистиката. Той дори може да възпроизведе част от записа, ако е необходимо, като поправи неправилно произнесена дума например. Поддържат се шест езика: английски, френски, немски, испански, полски и португалски. Voicebox може да се използва като симултанен преводач, като предава гласа и начина на говорене на събеседника.

Моделът е обучен върху 50 часа аудиокниги, което е достатъчно, за да му даде възможност да разбере добре говоримото слово: той генерира профил на гласа и начина на говорене въз основа на извадка с продължителност само две секунди и след това може да го възпроизведе с всеки текст. На практика тези функции могат да се окажат полезни в метауниверситетски приложения, като осигурят естествено звучащи гласове за виртуални асистенти и персонажи, които не са герои от игри; или за хора с увредено зрение моделът може да озвучава писма с гласовете на техните автори.

Meta често публикува своите модели на изкуствен интелект, но не и този път. Компанията не разкрива какви материали са били използвани за обучението на Voicebox и не предлага да тества технологията на практика - страхува се от злоупотреби.

Последвайте ни в Google News Showcase за важните новини

Вижте всички актуални новини от Standartnews.com

Тагове: