Microsoft-ի նոր նեյրոցանցը 3 վայրկյանանոց ձայնագրության հիման վրա կրկնօրինակում է խոսացողի ձայնը

Ամսաթիվ 11/01/2023 թ.

Microsoft ընկերությունը ներկայացրեց VALL-E կոչվող նոր նեյրոցանցը, որը նախատեսված է մարդու ձայնը կրկնօրինակելու համար: Ընդամենը 3 վայրկյանանոց ձայնագրությունը բավական է, որպեսզի նեյրոցանցը կարողանա կրկնօրինակել խոսացողի ձայնն ու էմոցիաները: Նեյրոցանցը «սովորել» է 60 000 ժամ անգլերեն խոսակցություններ լսելով:

Նախագծի կայքում ներկայացված են այս նոր նեյրոցանցի աշխատանքի օրինակներ: Speaker Prompt սյունակում տեղադրված է 3 վայրկյանանոց ցանկացած խոսակցություն (որի ձայնը նեյրոցանցը կրկնօրինակելու է), Ground Truth սյունակում օրիգինալ ձայնով հնչում է այն խոսակցությունը, որը գեներացնելու է նեյրոցանցը (համեմատության համար), Baseline սյունակում տեղադրված է ձայնի սինթեզավորման ավանդական տեխնոլոգիայով գեներացված խոսակցությունը, իսկ ահա VALL-E սյունակում տեղադրված է այս ներյոցանցի կողմից գեներացված խոսակցությունը, որը փաստացի հանդիսանում է օրիգինալ ձայնի կրկնօրինակումը: Այսինքն VALL-E նեյրոցանցի արդյունավետությունը տեսնելու կարող ենք համեմատել Ground Truth և VALL-E սյունակների ձայնագրությունները:

Բացել կայքը