mei 3, 2024

Soest Nu

Soest Nu is de toonaangevende aanbieder van kwalitatief Nederlands nieuws in het Engels voor een internationaal publiek.

Hoe Amazon Alexa Iers leerde spreken

Hoe Amazon Alexa Iers leerde spreken

Net als Henry Higgins, de zanger van het toneelstuk “Pygmalion” van George Bernard Shaw, lieten Marius Kotescu en Georgy Tenchev onlangs zien hoe hun student zijn articulatieproblemen probeerde te overwinnen.

De twee datawetenschappers, die beiden voor Amazon in Europa werken, gaven les aan Alexa, de digitale assistent van het bedrijf. Hun missie: Alexa helpen Engels met een Iers accent onder de knie te krijgen met behulp van kunstmatige intelligentie en opnames van moedertaalsprekers.

Tijdens de demonstratie sprak Alexa over een memorabele avond. ‘Het feest van gisteravond was zo te gek,’ zei Alexa ten slotte, waarbij ze het Ierse woord voor plezier gebruikte. “Op weg naar huis kregen we ijs en we waren blij dat we eruit konden.”

Meneer Tenchev schudde zijn hoofd. Alexa liet de “r” in het woord “Party” vallen, waardoor het woord plat klonk, zoals pah-tee. Hij concludeerde dat hij erg Brits was.

De technologen maken deel uit van een team bij Amazon dat werkt in een uitdagend gebied van datawetenschap dat bekend staat als audiodecodering. Het is een uitdagend probleem dat een nieuwe betekenis heeft gekregen te midden van een golf van AI-ontwikkelingen, aangezien onderzoekers geloven dat de puzzel van spraak en technologie kan helpen om door AI aangedreven apparaten, bots en spraaksynthesizers meer conversatie te geven, dat wil zeggen, in staat om velen aan te spreken regionale spelers. accenten.

Omgaan met fonemisch ontwarren houdt meer in dan alleen woordenschat en grammatica begrijpen. De toonhoogte, het timbre en het accent van de spreker geven vaak een exacte betekenis aan woorden en emotioneel gewicht. Taalkundigen noemen dit taalkenmerk ‘weergave’ en het is iets dat machines moeilijk onder de knie hebben.

Pas de laatste jaren hebben onderzoekers, dankzij de vooruitgang in kunstmatige intelligentie, computerchips en andere apparaten, vooruitgang geboekt bij het oplossen van het probleem van audiodecodering, waardoor computergegenereerde spraak iets aangenamer voor het oor wordt.

Dergelijk werk kan uiteindelijk samenvallen met een explosie van ‘generatieve AI’, aldus de onderzoekers, een technologie waarmee chatbots hun eigen reacties kunnen genereren. Chatbots zoals ChatGPT en Bard kunnen op een dag volledig werken op de spraakopdrachten van gebruikers en mondeling reageren. Tegelijkertijd zullen stemassistenten zoals Alexa en Apple’s Siri spraakzamer worden, wat de interesse van consumenten in een technologiesector die lijkt te zijn vastgelopen, zou kunnen doen herleven, aldus analisten.

READ  Basis PS Plus-games voor mei 2024 aangekondigd

Het was een duur en tijdrovend proces om stemassistenten zoals Alexa, Siri en Google Assistant meerdere talen te laten spreken. Technologiebedrijven hebben stemacteurs ingehuurd om honderden uren spraak op te nemen, wat heeft bijgedragen aan het creëren van kunstmatige stemmen voor digitale assistenten. Geavanceerde kunstmatige-intelligentiesystemen die bekend staan ​​als “tekst-naar-spraak-modellen” – omdat ze tekst omzetten in natuurlijk klinkende synthetische spraak – Ik begin net te vereenvoudigen dit proces.

De technologie is “nu in staat om een ​​menselijke stem en een synthetische stem te creëren op basis van tekstinvoer in verschillende talen, dialecten en dialecten”, zegt Marion Laborie, hoofdstrateeg bij Deutsche Bank Research.

Amazon staat onder druk om concurrenten als Microsoft en Google in te halen in de race rond kunstmatige intelligentie. In april zei Andy Jassy, ​​CEO van Amazon: voor Wall Street-analisten dat het bedrijf van plan was Alexa “actiever en pratender” te maken met behulp van geavanceerde generatieve AI, zei Rohit Prasad, Amazon’s hoofdwetenschapper voor Alexa. zei hij tegen CNBC In mei zag hij de stemassistent als een spraakgestuurde “direct beschikbare persoonlijke AI”.

Irish Alexa maakte zijn commerciële debuut in november, na negen maanden training om een ​​Iers accent te begrijpen en vervolgens te spreken.

“Accent is iets anders dan taal”, zei de heer Prasad in een interview. AI-technieken moeten leren om accenten uit andere delen van spraak te halen, zoals intonatie en frequentie, voordat ze de kenmerken van lokale dialecten kunnen repliceren. Misschien is de ‘a’ bijvoorbeeld platter en worden de ’t’s’ krachtiger uitgesproken.

Deze systemen moeten deze patronen detecteren, zei hij, “zodat ze een geheel nieuw accent kunnen creëren.” “dit is moeilijk.”

READ  PlayStation 5 is nu verkrijgbaar via Sony

Het is nog moeilijker om de technologie ertoe te brengen om vrijwel vanzelf een nieuw accent te leren, vanuit een anders klinkende spraakvorm. Dat is wat het team van meneer Cotescu probeerde om de Ierse Alexa te bouwen. Ze vertrouwden sterk op het bestaande spraakmodel van voornamelijk Engels-Britse accenten – met een veel kleinere selectie van Amerikaanse, Canadese en Australische accenten – om hen te trainen in het spreken van Iers-Engels.

Het team stond voor verschillende taaluitdagingen van de Engels-Ierse taal. De Ieren hebben de neiging om de “h” in de “th” te laten vallen, waarbij ze de letters bijvoorbeeld uitspreken als “t” of “d”, waardoor “bad” klinkt als “vleermuis” of zelfs “slecht”. Iers Engels is ook rhotic, wat betekent dat de letter “r” overdreven wordt uitgesproken. Dit betekent dat de “r” in “party” meer uitgesproken zal zijn dan wat je zou kunnen horen uit de mond van een Londenaar. Alexa moest deze kenmerken van spraak leren en beheersen.

Iers Engels is “moeilijk”, zei Kotescu, die Roemeens is en hoofdonderzoeker was van het Ierse team van Alexa.

Spraakmodellen die de verbale vaardigheden van Alexa ondersteunen, zijn de afgelopen jaren geavanceerder geworden. In 2020 leerden Amazon-onderzoekers Alexa Hij spreekt vloeiend Spaans Van een Engels sprekend model.

De heer Cotescu en het team zagen dialecten als de volgende grens voor Alexa’s spraakmogelijkheden. Ze ontwierpen Irish Alexa om meer te vertrouwen op AI dan op acteurs om haar spraakmodel te bouwen. Als gevolg hiervan werd de Ierse Alexa getraind op een relatief kleine groep – ongeveer 24 uur aan opnames door stemacteurs die 2.000 toespraken in het Iers Engels voordroegen.

Toen Amazon-onderzoekers de Ierse opnames presenteerden aan de nog lerende Ierse Alexa, gebeurden er eerst wat vreemde dingen.

Soms lekten er letters en lettergrepen uit het antwoord. Soms zitten de “S” aan elkaar vast. Een of twee woorden, soms doorslaggevend, werden op onverklaarbare wijze gemompeld en onverstaanbaar. In ten minste één geval zakte de vrouwelijke stem van Alexa een paar octaven en klonk mannelijker. Erger nog, de mannelijke stem klonk duidelijk Brits, het soort flauwekul dat in sommige Ierse huizen de wenkbrauwen doet fronsen.

READ  E3 2022 - Digitaal en fysiek - Officieel geannuleerd

“Het zijn grote zwarte dozen”, zei Tenchev, een Bulgaar en hoofdwetenschapper van Amazon van het project, over de spraakmodellen. “Je moet veel ervaringen hebben om op af te stemmen.”

Dit is wat de technici deden om Alexa’s “partijdige” uitglijder te corrigeren. Ze ontwarden spraak, woord voor woord, geluid (het kleinste hoorbare stukje van een woord) met stem om vast te stellen en te verfijnen waar Alexa uitglijdt. Vervolgens gaven ze Alexa’s Ierse spraakmodel meer opgenomen audiogegevens om de verbale fout te corrigeren.

Resultaat: “r” wordt geretourneerd in “party”. Maar toen verdween de “p”.

Dus datawetenschappers deden hetzelfde proces opnieuw. Ze concentreren zich uiteindelijk op het geluid met de ontbrekende “p”. Daarna hebben ze het model verder verfijnd zodat de “p”-klank terugkeerde en de “r” niet wegging. Alexa leerde eindelijk spreken als een Dublin.

Sindsdien hebben twee Ierse taalkundigen – Eileen Vaughan, die lesgeeft aan de Universiteit van Limerick, en Kate Tallon, een promovendus die werkt in het Phonetics and Speech Lab aan het Trinity College Dublin – Alexa hoge cijfers gegeven voor het Ierse accent. Ze zeiden dat de manier waarop de Ierse Alexa de “r’s” benadrukte en de “t” verzachtte, stopte, en Amazon kreeg het accent precies goed.

‘Het lijkt me echt,’ zei mevrouw Tallon.

Onderzoekers van Amazon zeiden dat ze blij waren met de overwegend positieve feedback. Hun spraakmodellen ontwarden het Ierse accent zo snel, waardoor ze hoopten dat de accenten elders konden worden gerepliceerd.

En ze schreven in de taal van A Onderzoeksdocument van januari Over het Ierse Alexa Project.