Dai media e web

Europa: superare i confini della traduzione automatica nel campo della salute

I ricercatori dell’UE si stanno avvicinando sempre più alla traduzione interamente automatizzata con un sistema neurale in grado di tradurre testi sulla salute dall’inglese al ceco, al tedesco, al polacco e al romeno.

Le informazioni online sono spesso disponibili solo in alcune lingue perché le organizzazioni non possono permettersi di tradurle in altre. Ma i ricercatori del progetto Health in My Language, o HimL, finanziato dall’UE, si sono avvicinati alla prospettiva di una traduzione automatica interamente automatizzata, collaborando con organizzazioni sanitarie scozzesi e internazionali, per produrre un sistema adatto al settore sanitario.

«Le comunità di immigrati possono avere una limitata padronanza della lingua locale, hanno bisogno di informazioni sui servizi sanitari ma queste non sono disponibili nella loro lingua», spiega Barry Haddow, coordinatore del progetto e ricercatore affermato in informatica presso l’Università di Edimburgo. «Le informazioni sulle migliori pratiche in ambito sanitario, provenienti dalle ricerche più recenti, sono diffuse principalmente in inglese ma i consumatori vorrebbero accedere a nuove meta-analisi nella propria lingua».

Apprendimento approfondito

Il team HimL ha studiato i miglioramenti della qualità nella traduzione automatica e li ha incorporati in un nuovo sistema in grado di lavorare dall’inglese al ceco, tedesco, polacco e rumeno. Ha iniziato a utilizzare un approccio sintattico o basato su frasi, ma si è rapidamente spostato sulla traduzione automatica neurale (NMT), un approccio basato sull’apprendimento approfondito, emerso nel corso del progetto.

Ogni anno vengono rilasciate nuove versioni che sono poi utilizzate dai partner del progetto NHS 24, il servizio sanitario scozzese nazionale e da Cochrane, una ONG che facilita l’accesso alle ricerche più recenti in materia di salute. I risultati sono stati attentamente valutati tramite sondaggi all’utenza e test focalizzati sull’applicazione.

Tre sono le aree principali che hanno registrato dei miglioramenti: adattamento al contesto settoriale o adeguamento della traduzione alla terminologia specifica della sanità pubblica; semantica o controllo dell’accuratezza della traduzione; morfologia o controllo della correttezza delle varianti morfologiche.

«L’inglese non ha molta morfologia ma altre lingue in Europa, come il ceco e il polacco, hanno forme verbali e sostantivi diversi a seconda dell’uso e, se sbagliate, il significato del testo può cambiare», spiega il dott. Haddow.

Agli utenti è stato chiesto di classificare i risultati prodotti da HimL rispetto a un noto sistema online. «I nostri sistemi sono stati in grado di offrire risultati migliori in tutte le combinazioni linguistiche», afferma il dott. Haddow, «anche se l’altissima qualità richiesta dagli utenti di NHS 24 e Cochrane significa che non siamo ancora in grado di automatizzare completamente la traduzione».

Meno interventi umani

La squadra ha anche esaminato le prestazioni positive dei sistemi HimL combinati con il post-editing: questo approccio utilizza la traduzione automatica per produrre una prima versione approssimativa, che passa quindi attraverso un traduttore umano il quale può modificarne il risultato. «Cochrane ha dimostrato che il post-editing unito al sistema HimL nello strumento MateCat era del 30-40 % più veloce della traduzione da zero per tutte le lingue, ad eccezione del polacco», prosegue il dott. Haddow. «Siamo stati in grado di ridurre la quantità di intervento umano del 30-50 % per produrre una traduzione altrettanto buona che avremmo ottenuto con un approccio completamente umano»,

Altri risultati includono il corpus medico UFAL, un insieme di dati standard per sistemi formativi che trattano testi medici. Copre otto coppie linguistiche europee, comprese quelle HimL.

L’analisi del risultato della NMT ha dimostrato che i problemi presenti nei sistemi precedenti sono stati ampiamente superati, ma che questi sistemi sono ancora inclini a omettere informazioni importanti o ad aggiungere informazioni errate. «Per contrastarlo utilizziamo una tecnica chiamata “ricostruzione”, in cui la sorgente dovrebbe essere ricostruibile dalla traduzione risultante», afferma il Dr Haddow, «abbiamo anche dimostrato come migliorare NMT usando dizionari di alta qualità e come incorporare informazioni semantiche e sintattiche da strumenti esterni».