Tärkein Innovoida Googlen uusi puheesta puheeksi -tekoäly on niin hyvä, että lyöt vetoa, ettet voi sanoa sitä oikealta ihmiseltä

Googlen uusi puheesta puheeksi -tekoäly on niin hyvä, että lyöt vetoa, ettet voi sanoa sitä oikealta ihmiseltä

Horoskooppi Huomenna

Voitteko erottaa tekoälyn tuottaman tietokonepuheen ja todellisen, elävän ihmisen välillä? Ehkä olet aina ajatellut voivasi. Ehkä pidät Alexasta ja Siristä, mutta usko, ettet koskaan sekoita kumpaakaan todelliseen naiseen.

Asiat ovat saamassa paljon mielenkiintoisempia. Google-insinöörit ovat työskennelleet kovasti luodessaan tekstistä puheeksi -järjestelmän nimeltä Takotroni 2 . Mukaan a paperi he julkaisivat tässä kuussa, järjestelmä luo ensin spektrogrammin tekstistä, visuaalisen esityksen siitä, miten puheen tulisi kuulostaa. Tämä kuva laitetaan Googlen olemassa olevan WaveNet-algoritmin kautta, joka käyttää kuvaa tuottamaan erittäin luonnollisen kuulostavan ihmispuheen.

kuinka pitkä on bruce arians

Tätä menetelmää käyttäen tutkijat raportoivat: 'Mallimme saavuttaa keskimääräisen mielipidepisteen (MOS) 4,53, joka on verrattavissa MOS 4,58: een ammattimaisesti tallennetulle puheelle. (Keskimääräinen mielipidepistemäärä on tietoliikennetermi, joka mittaa kuinka tosielämän totta kuulostaa.)

Kuten Googlen ääninäytteet osoittavat, Tacotron 2 pystyy havaitsemaan kontekstista eron substantiivin 'desert' ja verbin 'desert' sekä substantiivi 'present' ja verbin 'present' välillä ja muuttamaan sen ääntämistä vastaavasti. Se voi painottaa isoja kirjaimia ja soveltaa asianmukaista taivutusta kysymyksen esittämisen sijaan lausunnon antamisen sijaan.

Ja se voi tuottaa tekstiä, joka kuulostaa niin samanlaiselta kuin ihmisen puhe, että on vaikea tai mahdotonta tietää eroa. Jos haluat nähdä kuinka vaikea se on, siirry Googlen sivuille ääninäytteiden sivu ja vieritä alas viimeiseen näytesarjaan, jonka otsikko on 'Tacotron 2 tai ihminen?' Sieltä löydät Tacotron 2: n ja oikean henkilön, jotka kukin sanovat lauseita, kuten: 'Tuo tyttö teki videon Star Wars -huulipunasta.'

SPOILER ALERT: Voit testata itseäsi kuuntelemalla näytteitä ja arvaa mikä on ennen tämän sarakkeen loppuosan lukemista.

Joten mitkä näytteet ovat tekstistä puheeksi ja mitkä ovat todellinen ihmisen ääni? Googlen insinöörit eivät sano, mutta he ovat jättäneet erittäin suuren vihjeen. Jokaisella .wav-tiedostomallilla on tiedostonimi, joka sisältää joko termin 'gen' tai 'gt'. Paperin perusteella on erittäin todennäköistä, että 'gen' tarkoittaa Tacotron 2: n tuottamaa puhetta ja 'gt' on todellinen ihmisen puhe. ('GT' tarkoittaa todennäköisesti 'perustotuutta', koneoppimista, joka tarkoittaa periaatteessa 'todellista kauppaa'.)

Jos oletetaan, että tämä on oikein, tässä on testin vastaukset:

koomikko lavell crawford nettovarallisuus

'Tuo tyttö teki videon Star Wars -huulipunasta.'

Näyte 1: Todellinen ihminen

Näyte 2: Tacotron 2

'Hän sai sosiologian tohtorin tutkinnon Columbian yliopistosta.'

Näyte 1: Tacotron 2

Näyte 2: Todellinen ihminen

'George Washington oli Yhdysvaltojen ensimmäinen presidentti.'

Näyte 1: Tacotron 2

Näyte 2: Todellinen ihminen

kuinka pitkä gary owen on

'Olen liian kiireinen romanssiin.'

Näyte 1: Todellinen ihminen

Näyte 2: Tacotron 2

Kuinka monta sinä olet oikeassa? Ja voisitko todella erottaa eron vai pitäisikö sinun vain arvata?