Microsoft съобщи, че неговият нов изкуствен интелект за преобразуване на текст в говор може да клонира глас, тон и всичко останало от трисекунден фрагмент от аудио. Неговото име е VALL-E, а технологията, която стои зад системата, Microsoft нарича „езиков модел на невронни кодеци“. Тя е сложна, въпреки че на практика използването на системата изглежда изключително просто.
Разбира се, вече съществуват много приложения за синтез на реч. Повечето новинарски сайтове, предлагат услуги за диктовка, задвижвани от машина, а говорещи асистенти като Siri и Alexa са изключително популярни.
Повечето съществуващи програми за генериране на реч обаче изискват голямо количество въведени данни. Освен това гласовете на AI не могат да звучат особено човешки, най-вече поради факта, че емоционалният тон и малките инфлексии са невероятно сложни за предаване.
Според създателите си VALL-E има редица приложения, а системата за езиково моделиране GPT-3 на OpenAI – технология, която Microsoft, според своята абсолютно огромна инвестиция в OpenAI е вложил много ресурси и вече работи в няколко продукта.
Теоретично, чрез комбиниране на VALL-E и GPT-3 – две мощни части от технология, управлявана от изкуствен интелект – бихте могли да съчетаете един тон реално звучащо, правдоподобно съдържание, невероятно бързо. Според критиците фалшивите и подвеждащи звукови байтове са проблем тук - в края на краищата, ако имате нужда само от три секунди аудио, теоретично бихте могли да използвате всичко - от интервю със знаменитост до история на истински човек в Instagram, за да се представяте за някого.
Въпреки това от Microsoft обясняват, че се въздържат - поне засега - да направят кода отворен поради "потенциални рискове при злоупотреба с модела". Те също така твърдят, че работят върху включването на някакъв вид система, която открива дали аудиото е създадено с помощта на VALL-E.
Вижте всички актуални новини от Standartnews.com