Главни Иновација Гоогле-ова нова интелигенција претварања текста у говор је толико добра да се кладимо да то не можете рећи од стварног човека

Гоогле-ова нова интелигенција претварања текста у говор је толико добра да се кладимо да то не можете рећи од стварног човека

Ваш Хороскоп За Сутра

Можете ли рећи разлику између рачунарског говора који генерише АИ и стварног, живог човека? Можда сте одувек мислили да можете. Можда су вам драги Алека и Сири, али верујете да никада не бисте помешали ниједну од њих са стварном женом.

Ствари ће постати много занимљивије. Гоогле-ови инжењери су напорно радили на стварању система претварања текста у говор тзв Тацотрон 2 . Према а папир објавили су овог месеца, систем прво креира спектрограм текста, визуелни приказ како говор треба да звучи. Та слика се ставља преко Гоогле-овог постојећег алгоритма ВавеНет, који користи слику за стварање изузетно природног звука људског говора.

мицхаела цонлин удата тј тхине

Користећи ову методу, истраживачи извештавају: „Наш модел постиже средњу оцену мишљења (МОС) од 4,53 упоредиву са оценом МОС од 4,58 за професионално снимљени говор. (Просечна оцена мишљења је телекомуникациони појам који мери колико нешто звучи реално.)

Као што показују Гоогле-ови аудио узорци, Тацотрон 2 може из контекста да открије разлику између именице „пустиња“ и глагола „пустиња“, као и именице „садашњи“ и глагола „садашњи“, и у складу с тим мења свој изговор. Може ставити нагласак на велике речи и применити одговарајућу флексибилност приликом постављања питања уместо давања изјаве.

А може створити текст који звучи толико слично људском говору да је тешко или немогуће знати разлику. Ако желите да видите колико је тешко, посетите Гоогле страница аудио узорака , и померите се до последњег скупа узорака, под називом „Тацотрон 2 ор Хуман?“ Тамо ћете наћи Тацотрон 2 и стварну особу која изговара реченице попут: 'Та девојка је направила видео о кармину из Ратова звезда.'

УПОЗОРЕЊЕ СПОИЛЕРА: Да бисте се тестирали, преслушајте узорке и погодите који је то пре него што прочитате остатак ове колоне.

Па који су узорци претварање текста у говор, а који прави људски глас? Гоогле-ови инжењери не кажу, али су оставили врло важан траг. Сваки од примерака датотеке .вав има назив датотеке који садржи или израз „ген“ или „гт“. На основу рада, велика је вероватноћа да „ген“ указује на говор који генерише Тацотрон 2, а „гт“ је стварни људски говор. („ГТ“ вероватно означава „основну истину“, термин за машинско учење који у основи значи „права ствар“.)

Под претпоставком да је ово тачно, ево одговора на тест:

колико је висока Џули Чен

'Та девојка је снимила видео о кармину из Ратова звезда.'

Узорак 1: Прави човек

Узорак 2: Тацотрон 2

'Докторирала је социологију на Универзитету Колумбија.'

Узорак 1: Тацотрон 2

Пример 2: Прави човек

„Џорџ Вашингтон је био први председник Сједињених Држава“.

Узорак 1: Тацотрон 2

Пример 2: Прави човек

колико је висок Ларри Хернандез

'Превише сам заузет за романтику.'

Узорак 1: Прави човек

Узорак 2: Тацотрон 2

Колико сте добили тачно? И да ли бисте заиста могли да разликујете или сте једноставно морали да погодите?