LA CARTA IN BREVE
• Miliardi di persone in tutto il mondo comunicano regolarmente online in lingue diverse dalla propria.
• Ciò ha creato un’enorme domanda di modelli di intelligenza artificiale (AI) in grado di tradurre sia testo che parlato.
• Ma la maggior parte dei modelli funziona solo per il testo o utilizza il testo come passaggio intermedio nella traduzione da parlato a parlato e molti si concentrano su un piccolo sottoinsieme delle lingue del mondo.
• Scrivere Naturail team di comunicazione SEAMLESS1 affronta queste sfide per trovare tecnologie chiave che potrebbero rendere la traduzione universale rapida una realtà.
TANEL ALUMÄE: Trucchi puliti e una prospettiva aperta
Gli autori di SEAMLESS hanno ideato un modello di intelligenza artificiale che utilizza un approccio di rete neurale per tradurre direttamente tra circa 100 lingue (Fig. 1a). Il modello può prendere input di testo o vocali da una qualsiasi di queste lingue e tradurli in testo, ma può anche tradurre direttamente in parlato in 36 lingue. Questa traduzione vocale è particolarmente impressionante perché prevede un approccio “end-to-end”: il modello può tradurre direttamente, ad esempio, l’inglese parlato in tedesco parlato, senza prima trascriverlo in testo inglese e tradurlo in tedesco testo (Fig. 1b).

Figura 1 | Traduzione automatica da parlato a parlato. UNIl team di comunicazione SEAMLESS1 ha ideato un modello di intelligenza artificiale (AI) in grado di tradurre direttamente il parlato in circa 100 lingue in parlato in 36 lingue. BI modelli di intelligenza artificiale convenzionali per la traduzione da parlato a parlato utilizzano tipicamente un approccio a cascata, in cui il parlato viene prima trascritto e tradotto in testo in un’altra lingua, prima di essere riconvertito in parlato. CAlcuni modelli convenzionali possono avere allucinazioni (generare risultati errati o fuorvianti), il che potrebbe causare danni considerevoli se tali modelli venissero utilizzati per la traduzione automatica in contesti ad alto rischio, come l’assistenza sanitaria.
Per addestrare il loro modello di intelligenza artificiale, i ricercatori si sono affidati a metodi chiamati apprendimento auto-supervisionato e semi-supervisionato. Questi approcci aiutano un modello ad apprendere da enormi quantità di dati grezzi – come testo, parlato e video – senza richiedere agli esseri umani di annotare i dati con etichette o categorie specifiche che forniscono il contesto. Tali etichette potrebbero essere, ad esempio, trascrizioni o traduzioni accurate.
La parte del modello responsabile della traduzione del parlato è stata pre-addestrata su un enorme set di dati contenente 4,5 milioni di ore di audio parlato multilingue. Questo tipo di training aiuta il modello ad apprendere i modelli nei dati, facilitando la messa a punto del modello per attività specifiche senza la necessità di grandi quantità di dati di training personalizzati.
Leggi l’articolo: Traduzione automatica congiunta di parlato e testo per un massimo di 100 lingue
Una delle strategie più astute del team SEAMLESS prevedeva l'”estrazione” da Internet per formare coppie che si allineassero tra le lingue, ad esempio frammenti audio in una lingua che corrispondessero ai sottotitoli in un’altra. Partendo da alcuni dati che sapevano essere affidabili, gli autori hanno addestrato il modello a riconoscere quando due contenuti (come un videoclip e un sottotitolo corrispondente) corrispondono effettivamente nel significato. Applicando questa tecnica a grandi quantità di dati derivati da Internet, hanno raccolto circa 443.000 ore di audio con testo corrispondente e hanno allineato circa 30.000 ore di coppie di discorsi, che hanno poi utilizzato per addestrare ulteriormente il loro modello.
A parte questi progressi, a mio avviso, la più grande virtù di questo lavoro non è l’idea o il metodo proposto. Il punto è invece il fatto che tutti i dati e il codice per eseguire e ottimizzare questa tecnologia sono disponibili al pubblico, sebbene il modello stesso possa essere utilizzato solo per attività non commerciali. Gli autori descrivono il loro modello di traduzione come “fondamentale” (vedi go.nature.com/3teaxvx), il che significa che può essere messo a punto su set di dati accuratamente selezionati per scopi specifici, come migliorare la qualità della traduzione per determinate coppie linguistiche o per il gergo tecnico .
Meta è diventato uno dei maggiori sostenitori della tecnologia linguistica open source. Il suo gruppo di ricerca è stato determinante nello sviluppo di PyTorch, una libreria software per l’addestramento di modelli di intelligenza artificiale, ampiamente utilizzata da aziende come OpenAI e Tesla, nonché da molti ricercatori in tutto il mondo. Il modello qui introdotto si aggiunge all’arsenale di Meta di modelli tecnologici linguistici fondamentali, come la famiglia Llama di modelli linguistici di grandi dimensioni2che può essere utilizzato per creare applicazioni simili a ChatGPT. Questo livello di apertura rappresenta un enorme vantaggio per i ricercatori che non dispongono delle massicce risorse computazionali necessarie per costruire questi modelli da zero.
Sebbene questa tecnologia sia entusiasmante, rimangono diversi ostacoli. La capacità del modello SEAMLESS di tradurre fino a 100 lingue è impressionante, ma il numero di lingue parlate nel mondo è di circa 7.000. Lo strumento ha difficoltà anche in molte situazioni che gli esseri umani gestiscono con relativa facilità, ad esempio conversazioni in luoghi rumorosi o tra persone con accenti forti. Tuttavia, i metodi degli autori per sfruttare i dati del mondo reale apriranno un percorso promettente verso la tecnologia vocale che rivaleggia con quella della fantascienza.
ALLISON KOENECKE: Mantenere gli utenti aggiornati
Le tecnologie vocali vengono sempre più utilizzate per compiti ad alto rischio, ad esempio per prendere appunti durante le visite mediche o per trascrivere atti giudiziari. Modelli come quello ideato da SEAMLESS stanno accelerando i progressi in questo settore. Ma gli utenti di questi modelli (medici e funzionari dei tribunali, per esempio) dovrebbero essere resi consapevoli della fallibilità delle tecnologie vocali, così come dovrebbero essere gli individui le cui voci costituiscono gli input.
I LLM producono risultati razzisti quando richiesto in inglese afroamericano
I problemi associati alle tecnologie vocali esistenti sono ben documentati. Le trascrizioni tendono ad essere peggiori per i dialetti inglesi considerati non “standard” – come l’inglese afroamericano – rispetto alle varianti più ampiamente utilizzate3. La qualità della traduzione da e verso una lingua è scarsa se tale lingua è sottorappresentata nei dati utilizzati per addestrare il modello. Ciò riguarda tutte le lingue che appaiono raramente su Internet, dall’afrikaans allo zulu4.
È noto che alcuni modelli di trascrizione provocano “allucinazioni”5 – inventare intere frasi che non sono mai state pronunciate negli input audio – e questo si verifica più frequentemente per gli oratori che hanno problemi di linguaggio rispetto a quelli che non ne hanno (Fig. 1c). Questo tipo di errori indotti dalle macchine potrebbero potenzialmente causare danni reali, come prescrivere erroneamente un farmaco o accusare la persona sbagliata in un processo. E il danno colpisce in modo sproporzionato le popolazioni emarginate, che probabilmente verranno fraintese.
I ricercatori di SEAMLESS hanno quantificato la tossicità associata al loro modello (il grado in cui le sue traduzioni introducono un linguaggio dannoso o offensivo)6. Questo è un passo nella giusta direzione e offre una base di riferimento rispetto alla quale testare i modelli futuri. Tuttavia, dato che le prestazioni dei modelli esistenti variano notevolmente da una lingua all’altra, è necessario prestare particolare attenzione per garantire che un modello possa tradurre o trascrivere abilmente determinati termini in determinate lingue. Questo sforzo dovrebbe essere parallelo agli sforzi dei ricercatori di visione artificiale, che stanno lavorando per migliorare le scarse prestazioni dei modelli di riconoscimento delle immagini nei gruppi sottorappresentati e scoraggiare i modelli dal fare previsioni offensive.7.
Il modello di traduzione AI di Meta abbraccia le lingue trascurate
Gli autori hanno anche cercato eventuali pregiudizi di genere nelle traduzioni prodotte dal loro modello. La loro analisi ha esaminato se il modello rappresentasse eccessivamente un genere quando traduceva frasi neutre rispetto al genere in lingue di genere: “I am a Teacher” in inglese si traduce al maschile “Professore di soia” o al femminile “Professore di soia“in spagnolo? Ma tali analisi sono limitate solo alle lingue con forme binarie maschili o femminili, e gli audit futuri dovrebbero ampliare la portata dei pregiudizi linguistici studiati8.
In futuro, sarà necessario un pensiero orientato al design per garantire che gli utenti possano contestualizzare adeguatamente le traduzioni offerte da questi modelli, molti dei quali variano in termini di qualità. Oltre agli avvertimenti sulla tossicità esplorati dagli autori di SEAMLESS, gli sviluppatori dovrebbero considerare come visualizzare le traduzioni in modo da rendere chiari i limiti di un modello, segnalando, ad esempio, quando un output coinvolge il modello semplicemente indovinando un genere. Ciò potrebbe comportare la rinuncia totale a un output quando la sua accuratezza è in dubbio o l’accompagnamento di output di bassa qualità con avvertenze scritte o segnali visivi9. Forse la cosa più importante è che gli utenti dovrebbero poter scegliere di non utilizzare le tecnologie vocali, ad esempio in ambito medico o legale, se lo desiderano.
Sebbene le tecnologie vocali possano essere più efficienti ed economiche nella trascrizione e nella traduzione rispetto agli esseri umani (che sono anche inclini a pregiudizi ed errori10), è fondamentale comprendere i modi in cui queste tecnologie falliscono, in modo sproporzionato per alcuni dati demografici. Il lavoro futuro deve garantire che i ricercatori nel campo della tecnologia vocale migliorino le disparità prestazionali e che gli utenti siano ben informati sui potenziali benefici e danni associati a questi modelli.