L’analisi della voce a supporto dello screening, della diagnosi e del follow-up medico
Intervista su io roma
Quale è l’idea di base?
Il cane ha un olfatto molto più sviluppato di quello umano e, probabilmente, se potesse comunicare con noi si direbbe meravigliato della nostra incapacità di percepire un odore a cento metri di distanza.
Ma noi umani abbiamo sviluppato il naso elettronico per aumentare le nostre capacità olfattive.
Il gufo ha una vista capace di mettere a fuoco dettagli anche sotto una luce molto molto fioca, non percepibile alla nostra vista.
Ma noi umani abbiamo sviluppato i visori all’infrarosso capaci di farci vedere di notte.
Così come l’olfatto e la vista, anche l’udito dell’essere umano ha una capacità piuttosto limitata di sentire. L’orecchio umano percepisce, per esempio, il cambiamento di voce dovuto a diversi stati psicologici di una persona, come euforia e tristezza, irritabilità o ansia.
Ma l’orecchio umano percepisce molto meno, anzi quasi per nulla, il cambiamento di voce dovuto a stati patologici, ossia a malattie. Percepiamo la variazione di voce causata dal raffreddore, perché chi è raffreddato parla in modo più “nasale”, ma non molto più di questo.
Oggi abbiamo dei microfoni molto sensibili capaci di registrare variazioni di voce impercettibili all’orecchio umano e, con VoiceWise, abbi amo ora degli algoritmi di intelligenza artificiale capaci di associare
specifiche variazioni di voce a specifiche malattie.
Questa possibilità è data dalla enorme ricchezza informati- va che è all’interno del suono prodotto anche da una singola frase. Infatti, una singola frase può essere analizzata nei domini temporali, frequenziali e quefrenciali, domini che nascono da una elaborazione elettronica del segnale-voce. In tal modo, si possono estrarre migliaia di parametri, oltre 6300. Sono una enormità.
Dalle analisi del sangue si hanno informazioni sullo stato di salute di una persona analizzando “soltanto” qualche unità o qualche decina di parametri (colesterolo, trigliceridi, globuli rosso, ph, ecc.). Le analisi della voce hanno un contenuto informativo molto più ricco e quindi, in linea di principio, più attendibile e collegabile a molte più patologie.
Al contrario delle analisi del sangue però, molti parametri della voce non dipendono solo dallo stato patologico, ma
anche da quello psicologico. Quando si è euforici la voce diventa più “squillante”, quando si è depressi diventa più “smorzata”, quando si parla ad un neonato rendiamo la nostra voce più “acuta”, e così via. Sembrerebbero dunque situazioni confondenti per gli algoritmi di analisi della voce. Come distinguere variazioni di voce dovuti ai diversi stati psicologici rispetto alle variazioni di voce dovute a motivi patologici? Semplice, circa una metà delle migliaia di parametri sono modificabili volontariamente, mentre l’altra metà non lo sono. Così, volontariamente si può camuffare il reale tono di voce cambiandone alcune caratteristiche, ma altre non le possiamo cambiare su
base volontaria perché dipendono dalla conformazione fisica che abbiamo. Ad esempio, i nostri polmoni “risuonano” in modo particolare, e quel “risuonare” cambia se a cambiare sono le condizioni dei polmoni stessi. Ricordiamo tutti la figura del medico che, appoggiandoci l’orecchio sulla schiena, ci fa pronunciare “trentatré”. Auscultandoci il medico può sapere la condizione fisiologica o patologica dei nostri polmoni. Quello che vale per i polmoni, vale in realtà per qualunque altro nostro organo interno.
Quali sono le sue potenzialità?
La voce dipende dalla nostra fisiologia, dalle condizioni a contorno e dalla attività celebrale. La nostra fisiologia esprime il modo in cui siamo fisicamente fatti, ossia altezza, peso, conformazione interna, ecc. Le condizioni a contorno esprimono la situazione del parti- colare momento, ad esempio se abbiamo febbre, o siamo disidratati. L’attività celebrale governa il movimento dei muscoli facciali, della respirazione, del battito cardiaco, ecc. tutto concorrente alla specifica articolazione delle parole.
La voce, quindi, riflette come siamo fatti, la situazione che viviamo, il modo in cui pensiamo. Di conseguenza la voce si modifica se ci ammaliamo, se ci viene febbre, se la coordinazione vie- ne meno per malattie mentali.
Che esperienze e sperimentazioni sul campo sono state già fatte in ambito sanitario?
Le nostre prime prove sperimentali che la voce avesse relazione lo stato patologico sono nate in India nel 2009. Assieme a col- leghi ricercatori indiani, infatti, abbiamo registrato le voci di centinaia di pazienti affetti da tubercolosi, da febbre gialla, e altre patologie che, fortunatamente, in Italia non abbiamo praticamente più ma che in In- dia presentano ancora ceppi. Ma il kit per la diagnosi di tali gravi patologie ha un costo non irrilevante, per cui abbiamo cercato un sistema diagnostico alternativo. E l’analisi della voce è stata la soluzione. Su centinaia di pazienti, l’analisi della voce
ha condotto ad una diagnosi corretta nella stragrande maggioranza di essi. Per la tubercolosi, ad esempio, su 312 pazienti analizzati, la diagnosi attraverso la voce è stata corretta per 309 casi, nei restanti 3 abbiamo avuto dei cosiddetti “falsi positivi”.
A seguito di questi successi, si è arrivati alla stesura di un brevet- to (n. RM2012A000173) a fine del 2012, che è stato approvato agli inizi del 2014.
Negli anni a seguire abbiamo condotto sperimentazione in Italia su pazienti de novo affetti da Parkinson. Con de novo si intendono pazienti a cui la patologia è stata appena diagnosticata, quindi agli inizi e senza ancora nessun tipo di trattamento farmacologico. Sono i pazienti più difficili da diagnosticare. Ebbene, con l’analisi della voce di tali pazienti, il grado di accuratezza con cui l’algoritmo rispondeva è stato del 95%. La percentuale è stata del 97% nel caso di pazienti affetti da disfonia.
Gli algoritmi che hanno reso possibile tutto questo, devono essere algoritmi particolarmente smart dato che devono tener conto del fatto che le voci di persone diverse non sono uguali ma simili. In questo ci è venuto in soccorso la cosiddetta intelligenza artificiale. Gli algoritmi che abbiamo realizzato sono capaci di “imparare” man mano che si forniscono loro nuovi dati, e più dati gli si danno in ingresso, più corretta è la risposta che forniscono in uscita.
Vi sono state già pubblicazioni sul tema?
Diversi lavori in letteratura met- tono in relazione parametri della voce a stati patologici. Intuitivamente, le caratteristiche della voce sono influenzate da problemi legati all’apparato fonatorio, come la laringite cronica [Teixeira et al., 2018], il cancro alla laringe [Ezzine et al., 2016], l’edema [Costa et al., 2008] e i polipi alle corde vocali [Petrovic-Lazic et al., 2015], l’asma [Walia & Sharma, 2016], il cancro del collo [Zacharia et al., 2016], l’intubazione endotracheale [Sørensen et al., 2016], la cattiva idratazione della laringe [Stemple & Thomas, 2007], per l’edema di Reinke [Fonseca & Pereira, 2009], per la disfonia [Suppa et al., 2020].
Meno intuitivamente, ma molto significativamente, gli stati di alterazione cardiaci cambiano taluni parametri (poche unità o poche decine) della voce rispetto a quelli della voce di una persona sana, come accade per problemi coronarici (coronary heart disease –CHD-) [Pareek & Sharma, 2016], o per i cambiamenti nelle condizioni cardiovascolari [Alvear et al., 2013], per il diabete [Chitkara & Sharma, 2016], per la sindrome di Sjögren [Heller et al., 2014], per la sclerosi multipla [Dogan et al., 2007], per la schlerosi laterale amiotrofica [Gómez-Vilda et al., 2013] [Gómez-Vilda et al., 2015], per la sindrome di Down [Albertini et al., 2010] [Moura et al., 2008], per la tuberculosi [Saggio & Bothe, 2016].
È stato dunque scientificamente dimostrato che nella voce si possono individuare “bio-marcatori” di talune patologie.
Le variazioni di poche unità o poche decine di parametri nel “mare magnum” dei 6300 non sono percepibili da orecchio umano. Diversamente, l’analisi di una registrazione (opportunamente eseguita) della voce tramite algoritmi di intelligenza artificiale mettono in grande evidenza le pur piccole variazioni funzioni di uno stato patologico. Vedasi l’Appendice per le pubblicazioni sul tema.
Attualmente con quali strutture si sta collaborando in ottica COVID-19? Abbiamo trovato interesse da parte di diversi medici di di- verse strutture ospedaliere. Mi riferisco alla Dott.ssa Prof.ssa Filomena Pietrantonio e collaboratori dell’Ospedale dei Castelli di Roma, al Dott. Prof. Giuseppe Visconti e collaboratori della ASL di Latina insieme al Dott. Prof. Salvatore Di Somma e collaboratori del Dipartimenti di Medicina d’Urgenza del Poli- clinico Umberto I di Roma, del Dott. Prof. Antonio Colecchia e collaboratori dell’Ospedale Universitario Borgo Trento di Verona, del Dott. Prof. Marco Benazzo e Dott. Carlo Robotti del Policlinico San Matteo di Pavia, del Dott. Prof. Stefano di Girolamo del Policlinico Tor Vergata di Roma. Nonostante tanta apertura e tanto interesse, la burocrazia però ci rallenta moltissimo, e solo dall’Ospedale dei Castelli, finora, abbiamo già ottenuto il parere favorevole del Comitato Etico per cui abbiamo iniziato le prime misure di voce di pazienti Covid-positivi.
Quali sono le principali criticità al momento?
Il “collo di bottiglia” è rappresentato unicamente dal tempo necessario ad acquisire i campioni di voce necessari. Dobbiamo tener conto del fatto che occorre registrare dalle 80 alle 100 voci di pazienti “omogenei” ed altrettante di sani “omogenei”. Con “omogenei” intendo dire stesso sesso, stessa etnia,
stessa fascia di età. Infatti, non possiamo la voce di un uomo con quella di una donna confrontare (quanto meno possiamo farlo solo entro un certo limite), non possiamo confrontare la voce di un italiano con quella di un cinese o di un in- diano (i “timbri” sono diversi), e non possiamo confrontare la voce di un ragazzo con quella di un anziano (quindi stabiliamo fasce di età tra 20 e 39, 40 e 59, 60 e oltre). Tenuto conto di tutti ciò, e del fatto che occorre registrare al fine di un confronto voci anche di persone “omogenee sane”, si tratta di dover registrare diverse centinaia di voci, il che pone un limite alla tempistica.
Che tempi si prevedono per arrivare ad una prima soluzione con una accuratezza almeno del 80%?
I tempi rimangono difficili da stabilire dato che dipende da quante strutture ospedaliere saranno a collaborare e da quanti casi potremo registrare presso ognuna di esse. Per l’accuratezza rispetto alla diagnosi del Covid-19 sono ragionevolmente confidente del fatto che si riesca a raggiungere e anche superare l’80% e anche il 90%, dato quanto abbiamo già ottenuto nel caso del Parkinson (95%) e della disfonia (97%).
Che tipologia di algoritmi, reti neuronali o approcci informatici si stanno usando?
Ad oggi, non esiste l’algoritmo perfetto. Ne convivono diversi, proprio perché ognuno ha dei vantaggi ma anche degli svantaggi. L’approccio che abbiamo messo in campo è dunque multi-algoritmico, perché abbiamo “estrapolato” i vantaggi di ogni approccio algoritmico (che intendo finalizzati ai nostri scopi specifici), cercando di evitarne gli svantaggi. Così, la ricetta è diventata un misto tra reti neurali, support vector machine, bayesian, ed altri, al fine di ricavare il massimo dalle caratteristiche (features) della voce misurata, con una preliminare selezione ed estrazione delle caratteristiche (feature selection, feature extraction) fatta con altre tipologie algoritmiche.
Come viene gestita la privacy dei dati?
In questo siamo più che ferrati. Il nostro spinoff, Voicewise, si è “innestato” in una società, Cloudwise, con esperienza pluriennale nella tutela dei dati trattati, nel rispetto della normativa europea (GPDR) e nazionale in materia di privacy.
Quali sono i livelli di campionamento e di qualità degli audio necessari per le analisi?
Chiaramente ad una migliore qualità della registrazione della voce corrisponde una più efficace analisi tramite i nostri algoritmi. Ma rispetto a questo abbiamo il vantaggio che ormai la tecnologia di cui possiamo disporre, anche a basso costo, consente una qualità sufficiente per i nostri scopi. Così, un formato .wav, con campionamento a 44.1kHz ed una risoluzione di 16 bit è più che sufficiente.
Quali sono le resistenze maggiori incontrate finora?
La farraginosità della burocrazia. Per ogni passo da fare occorre confrontarsi con diverse strutture, e di ogni struttura con diversi uffici, e per ogni ufficio con persone con diverse competenze. È una corsa ad ostacoli.
Se potesse parlare direttamente alle strutture centrali decisionali che cosa chiederebbe o direbbe?
Farei presente che occorre pesare il fine commisurandolo con i mezzi per ottenerlo. Non è più pensabile che occorre più tempo per risolvere gli aspetti formali rispetto al tempo necessario per risolvere gli aspetti sostanziali. Il paradigma deve essere rovesciato. Diversamente siamo spettatori della fuga dei cervelli e nel nostro futuro saremo sempre più compratori di tecnologie sviluppate all’estero e sempre meno sviluppatori e venditori delle nostre. Ne conseguirà che il nostro Paese diventerà sempre più “colonia” di altri.
Rispetto all’APP IMMUNI quali livelli di integrazione o sinergia pensa siano possibili?
l’App Immuni e l’App Voicewise sono immaginabili sia integrate in una unica, sia “stand-alone”, separate. Non vedo problemi né nell’uno né nell’altra ipotesi. Integrate si avvantaggerebbero l’un l’altra, separate risolverebbero dubbi circa la tutela della privacy avanzate da molti. Infatti, non conosco nei dettagli come la App Immuni tuteli la privacy (ed immagino lo faccia nel modo migliore), ma di sicuro conosco come la App Voicewise sia strutturata per una sicura tutela della privacy a tutto tondo.
Avete già ottenuto finanziamenti e/o partecipato a bandi di finanziamento?
Quello che abbiamo fatto fino ad ora è stato tutto con le nostre sole forze. Ora stiamo partecipando a bandi, cercando quelli che più hanno validità rispetto ai nostri scopi, tenendo conto che nello statuto del nostro Spinoff si legge “di alto valore tecnologico, etico e sociale”.
Vi è spazio di collaborazione per giovani ingegneri interessati alla tematica con un background di conoscenze algoritmiche ed informatiche?
Certamente sì. Anche senza un background forte e consolidato, purché fortemente interessati al tema, fortemente motivati e con una gran voglia di emergere. Chi vorrà collaborare si troverà a lavorare con un team decisamente forte, costituito da persone altamente qualificate. Oltre al sottoscritto ci sono il Dott. Prof. Antonio Pisani, esperto di Parkinson internazionalmente riconosciuto (vincitore nel 2019 dell’ambitissimo premio della Michael J. Fox Foundation), il Prof. Giovanni Costantini, che oltre ad essere docente di elettrotecnica è diplomato al Conservatorio in composizione musicale e in pianoforte, è super-esperto di suono, e gestisce il Master Universitario in Sonic Arts, il Prof. Franco Giannini, insignito di Laurea Honoris Causa dalla Università di Varsavia nonché Professore Emerito. Inoltre, il gruppo è costituito da persone con grande competenza in ambito progettuale, amministrativo, tecnico e gestionale, come la Dott.ssa Maria Tavasci, l’Ing. Fabio Pellini, l’Ing. Luigi Tavolato, e validi collaboratori come il Dott. Giuseppe Azzali, Luca Pellini, Fabrizio Pacciani.
Come poter entrare in contatto e dare un contributo al progetto in chiave tecnica, professionale o di test?
Anche se ho costituito e faccio parte dello spin-off Voicewise, il mio primo punto di contatto rimane l’Università, perché ci tengo al mio ruolo istituzionale di Ricercatore e Professore Aggregato, per cui fornisco la mia e-mail universitaria: saggio@uniroma2.it. Chi fosse interessato a sapere altro lo invito ad iscriversi al mio canale YouTube (è sufficiente inserire in quel sito “Giovanni Saggio” per arrivarci), e chi fosse interessato a conoscere di più lo spin-off, può farlo dalle pagine del sito www.voicewise.it
Appendice
- G. Albertini, S. Bonassi, V. Dall’Armi, I. Giachetti, S. Giaquinto, M. Mignano, Spectral analysis of the voice in Down Syndrome, Res. Dev. Disabil. 31 (2010) 995–1001.
- R.M.B. de Alvear, F.J. Barón-López, M.D. Alguacil, M.S. Dawid-Milner, Interactions between voice fundamental frequency and cardiovascular parameters. Preliminary results and physiological mechanisms, Logoped. Phoniatr. Vocol. 38 (2013) 52–58.
- D. Chitkara, R.K. Sharma, Voice based detection of type 2 diabetes mellitus, in: IEEE, 2016: pp. 83–87.
- S.C. Costa, B.G.A. Neto, J.M. Fechine, M. Muppa, Short-Term Cepstral Analysis Applied To Vocal Fold Edema Detection, in: SciTePress – Science and and Technology Publications, 2008: pp. 110–115.
- M. dogan, I Midi, M.A. Yazici, I Kocak, D. Günal, M.A. Sehitoglu, Objective and Subjective Evaluation of Voice Quality in Multiple Sclerosis, J. Voice. 21 (2007) 735–740.
- K. Ezzine, A. Ben Hamida, Z. Ben Messaoud, M. Frikha, Towards a computer tool for automatic detection of laryngeal cancer, in: IEEE, 2016: pp. 387–392.
- E.S. Fonseca, J.C. Pereira, Normal versus pathological voice signals, IEEE Eng. Med. Biol. Mag. 28 (2009) 44–48.
- P. Gómez-Vilda, A.R.M. Londral, J.M. Ferrández-Vicente, V. Rodellar-Biarge, Characterization of Speech from Amyotrophic Lateral Sclerosis by Neuromorphic Processing, in: J.M. Ferrández Vicente, J.R. Álvarez Sánchez, F. de la Paz López, Fco.J. Toledo Moreo (Eds.), Nat. Artif. Models Comput. Biol., Springer Berlin Heidelberg, Berlin, Heidelberg, 2013: pp. 212–224.
- P. Gómez-Vilda, A.R.M. Londral, V. Rodellar-Biarge, J.M. Ferrández-Vicente, M. de Carvalho, Monitoring amyotrophic lateral sclerosis by biomechanical modeling of speech production, Neurocomputing. 151 (2015) 130–138.
- Heller, K. Tanner, N. Roy, S.L. Nissen, R.M. Merrill, K.L. Miller, D.R. Houtz, J. Ellerston, K. Kendall, Voice, Speech, and Laryngeal Features of Primary Sjögren’s Syndrome, Ann. Otol. Rhinol. Laryngol. 123 (2014) 778–785.
- C.P. Moura, L.M. Cunha, H. Vilarinho, M.J. Cunha, D. Freitas, M. Palha, S.M. Pueschel, M. Pais-Clemente, Voice Parameters in Children With Down Syndrome, J. Voice. 22 (2008) 34–42.
- V. Pareek, R.K. Sharma, Coronary heart disease detection from voice analysis, in: IEEE, 2016: pp. 1–6.
- M. Petrovic-Lazic, N. Jovanovic, M. Kulic, S. Babac, V. Jurisic, Acoustic and Perceptual Characteristics of the Voice in Patients With Vocal Polyps After Surgery and Voice Therapy, J. Voice. 29 (2015) 241–246.
- G. Saggio, S. Bothe, Tuberculosis Screening by Means of Speech Analysis, J. Commun. Navig. Sens. Serv. CONASENSE. 2016 (2016) 45–56.
- M.K. Sørensen, T.T. Durck, K.H. Bork, N. Rasmussen, Normative Values and Interrelationship of MDVP Voice Analysis Parameters Before and After Endotracheal Intubation, J. Voice. 30 (2016) 626–630.
- J.C. Stemple, L.B. Thomas, Column Vocal Health and Hydration: Fact or Fiction? Voice Speech Rev. 5 (2007) 317–319.
- Suppa, F. Asci, G. Saggio, L. Marsili, D. Casali, Z. Zarezadeh, G. Ruoppolo, A. Berardelli, G. Costantini, “Voice analysis in adductor spasmodic dysphonia: Objective diagnosis and response to botulinum toxin”, Parkinsonism & Related Disorders, Vol. 73, pp. 23-30, 2020
- J.P. Teixeira, J. Fernandes, F. Teixeira, P.O. Fernandes, Acoustic Analysis of Chronic Laryngitis – Statistical Analysis of Sustained Speech Parameters, in: SCITEPRESS – Science and Technology Publications, 2018: pp. 168–175.
- G.S. Walia, R.K. Sharma, Level of asthma: Mathematical formulation based on acoustic parameters, in: IEEE, 2016: pp. 24 – 27.
- T. Zacharia, R. Suresh, H.S. Kumar, D. Preema, J. Judith, B.M. Shrinath, Evaluation of voice parameters in people with head and neck cancers: an investigational study, Middle East J. Cancer. 7 (2016) 193–197.