A fala é um biomarcador que reflete, de forma sensível, o funcionamento integrado de vários sistemas fisiológicos, nomeadamente o nervoso, o respiratório e o muscular. Esta complexidade torna-a um recurso promissor para a deteção de alterações associadas ao estado de saúde. Embora não constitua, por si só, um biomarcador digital, a fala pode adquirir esse estatuto quanto é captada, digitalizada e analisada por métodos computacionais, nomeadamente os suportados por IA. Nestas circunstâncias, torna-se possível extrair padrões vocais relevantes para o rastreio, o diagnostico precoce e a monitorização de diferentes condições clínicas.

Início / Publicações / Publicação

Início / Publicações / Publicação

Voz em IA

Tipo de publicação: Resumo do Artigo
Título original: Speech as biomarker for multidisease screening
Data da publicação do artigo: Novembro de 2024
Fonte: Repositório Institucional do Instituto Superior Técnico (Scholar)
Autor: Catarina Botelho
Orientadores: Isabel Trancoso, Alberto Abad & Tanja Schultz

Qual é o objetivo, público-alvo e áreas da saúde digital em que se enquadra?
     Este estudo tem como objetivo explorar e validar o uso da fala como biomarcador digital não invasivo e de baixo custo para o rastreio remoto de múltiplas doenças, particularmente aquelas que afetam os sistemas respiratório, nervoso e muscular. Destina-se à comunidade médica, bem como a investigadores e a profissionais nas áreas de Inteligência Artificial (IA) e processamento de sinal. No campo da saúde digital, o estudo contribui para áreas-chave como a telemonitorização e rastreio remoto, biomarcadores digitais, diagnósticos assistidos por IA, saúde preditiva e personalizada e paralinguística computacional silenciosa.

Qual é o contexto?
     A fala é um biomarcador que reflete, de forma sensível, o funcionamento integrado de vários sistemas fisiológicos, nomeadamente o nervoso, o respiratório e o muscular. Esta complexidade torna-a um recurso promissor para a deteção de alterações associadas ao estado de saúde. Embora não constitua, por si só, um biomarcador digital, a fala pode adquirir esse estatuto quanto é captada, digitalizada e analisada por métodos computacionais, nomeadamente os suportados por IA. Nestas circunstâncias, torna-se possível extrair padrões vocais relevantes para o rastreio, o diagnostico precoce e a monitorização de diferentes condições clínicas.

     Desde a formulação da intenção comunicativa nas áreas corticais cerebrais — incluindo a área de Broca (associada ao controlo motor da fala) e a área de Wernicke (relacionada com a compreensão da linguagem) — até à emissão sonora final, o processo da fala exige controlo motor preciso, função cognitiva integrada e regulação contínua por mecanismos de feedback auditivo e proprioceptivo. A audição regula características como entoação, o volume e a articulação, enquanto a proprioceção assegura a coordenação muscular necessária à produção de uma fala clara e fluente. Qualquer disfunção ao longo deste circuito — resultante de doença neurodegenerativa, distúrbio respiratório, condição psiquiátrica ou alterações associadas ao envelhecimento — pode originar padrões acústicos anómalos e detetáveis.

     Condições como a apneia obstrutiva do sono — em que a obstrução recorrente das vias aéreas superiores compromete a qualidade vocal —, a doença de Alzheimer – que afeta a coerência da linguagem, resultando em frases mais curtas e menos precisas, vocabulário reduzido e pausas mais frequentes e a doença de Parkinson — que afeta o controlo motor e provoca uma fala fraca, monótona e de articulação imprecisa — bem como transtornos psiquiátricos como a depressão, estão associadas a perfis vocais caraterísticos, evidenciando alterações na intensidade, pronúncia, ritmo, articulação ou conteúdo linguístico. O envelhecimento, embora não constitua uma patologia, pode igualmente induzir alterações na fala, como a redução do controlo do tom e da força vocal, que podem mimetizar alterações associadas a determinadas doenças, dificultando o diagnóstico diferencial.

Quais são as abordagens atuais?
     Os procedimentos médicos tradicionais utilizados para o diagnóstico destas doenças são frequentemente pouco escaláveis e acessíveis, especialmente para rastreios precoces ou em larga escala. Por exemplo, o método de referência para diagnosticar a apneia obstrutiva do sono é a polissonografia — um estudo do sono realizado durante a noite numa clínica que monitoriza a respiração, frequência cardíaca, atividade cerebral e movimentos corporais. No entanto, este método é caro, demorado e desconfortável para os pacientes. No caso da doença de Alzheimer e da depressão, o diagnóstico continua a ser em grande parte subjetivo: os sintomas de Alzheimer são frequentemente confundidos com envelhecimento, e a depressão depende de auto-relatos e do julgamento clínico, o que leva a uma grande variabilidade e, por vezes, atrasos no reconhecimento da doença.

     A deteção baseada na fala representa, assim uma alternativa promissora, não invasiva e potencialmente mais acessível. No entanto, a maioria dos modelos atuais de IA enfrentam várias limitações: muitos são concedidos para detetar apenas uma condição de cada vez e utilizam algoritmos complexos “black-box” — sistemas treinados em conjuntos de dados pequenos e homogéneos cujo processo de tomada de decisão é difícil de interpretar, limitando a sua adoção clínica. Outros obstáculos incluem a escassez de bases de dados de fala diversificadas, preocupações éticas e legais relacionadas com a privacidade, a dificuldade de generalização dos modelos a diferentes idiomas, tarefas de fala ou ambientes acústicos, e a tendência para captarem padrões irrelevantes, como ruído de fundo, em vez de sinais associados a sintomas reais. Estes desafios apontam para a necessidade de desenvolver abordagens de IA mais robustas, interpretáveis e fiáveis, com maior aplicabilidade em ambientes clínicos reais.

     Paralelamente, outras abordagens exploram a análise de sinais não verbais produzidos durante a fala, como a atividade muscular da face e do pescoço. Este campo, conhecido como paralinguística computacional silenciosa, foca-se no estudo de aspetos como pausas, expressões faciais e sinais fisiológicos relacionados. A atividade muscular é normalmente medida através de eletromiografia de superfície (EMG), que utiliza pequenos sensores colocados na face e pescoço para registar os sinais elétricos dos músculos. Estes sinais podem ser utilizados para reconstruir a fala em indivíduos que são incapazes de falar. No entanto, a EMG permanece uma técnica invasiva, dispendiosa e limitada a contextos laboratoriais, o que restringe a sua aplicabilidade em larga escala.

Em que consiste a inovação? Como é que é avaliado o impacto deste estudo?
     Este estudo explorou novas abordagens não invasivas para a deteção de doenças através da fala. A inovação central consistiu no desenvolvimento de um sistema que, a partir da gravação da voz com um microfone, gera sinais artificiais que replicam a atividade muscular durante a produção da fala. Para isso, foram utilizadas gravações paralelas de voz e sinais de EMG de 8 indivíduos. Inicialmente, foram extraídas das gravações características acústicas — como o tom e o ritmo — e foram utilizadas redes neuronais em forma de ampulheta para recriar sinais musculares simplificados, comparados posteriormente com os sinais EMG reais. Numa segunda etapa, os sinais EMG reais simplificados foram processados por redes neuronais convolucionais e redes neuronais bidirecionais de memória de longo e curto prazo, permitindo gerar sinais de EMG artificiais, os quais foram também comparados com os EMG reais para avaliar a precisão.

     Na análise da apneia obstrutiva do sono, foram utilizados 40 vídeos do YouTube, a partir dos quais se extraíram três modalidades: gravações de voz, imagens faciais e movimentos labiais. Estas foram processadas por redes neuronais convolucionais para identificar padrões associados à doença. As gravações de voz foram analisadas quanto ao tom e à aspereza, com técnicas de filtragem de ruído e identificando padrões vocais únicos. As imagens faciais foram avaliadas com base na forma e textura, enquanto os movimentos labiais permitiram analisar a articulação. As três modalidades foram integradas através de duas estratégias: fusão precoce, com análise conjunta desde o início, e fusão tardia, com análise individual seguida de combinação das previsões. O desempenho dos modelos foi avaliado quanto à sua capacidade de distinguir pacientes com apneia obstrutiva do sono de indivíduos saudáveis.

     No caso da doença de Alzheimer, foram utilizados dois conjuntos de dados: o Interdisciplinary Longitudinal Study on Adult Development and Aging –ILSE (entrevistas longas em alemão) e o Alzheimer’s Dementia Recognition through Spontaneous Speech – ADReSS (descrições curtas de imagens em inglês). Modelos como Gaussian Mixture Models, Linear Discriminant Analysis e Support Vetor Machines foram aplicados para analisar características linguísticas (como riqueza lexical, estrutura gramatical e pausas) e acústicas (como tom, ritmo e qualidade da voz). O estudo testou quais características e modelos tiveram melhor desempenho quando avaliados no mesmo conjunto de dados em que foram treinados, e como os modelos treinados com dados em alemão funcionaram quando aplicados a dados em inglês e vice-versa, para distinguir entre pacientes com Alzheimer e indivíduos saudáveis.

     Adicionalmente, definiram-se parâmetros de referência para a fala saudável com base no conjunto de dados Crowdsourced Language Assessment Corpus, composto por gravações de indivíduos a descrever imagens e a produzir sons vocálicos. A partir destas gravações, foram extraídas características vocais representativas — como tom, velocidade de fala e diversidade lexical. Em seguida, algoritmos de machine learning, incluindo Support Vector Machines, Regressão Logística e Neural Additive Models, foram treinados para classificar indivíduos como saudáveis ou doentes com base nos desvios relativamente a esses parâmetros. Os modelos foram posteriormente avaliados com o conjunto ADReSS (Alzheimer) e o conjunto de dados de Parkinson em espanhol (PC-GITA), onde produziam sons vocálicos sustentados, para testar a sua capacidade de detetar alterações na fala associadas a estas doenças.

     Por fim, foram testados Large Language Models (LLMs), incluindo GPT-4-Turbo, Llama-2-13B, Mistral-7B e Mixtral-8x7B, para avaliar a sua capacidade de identificar a doença de Alzheimer através da análise de transcrições textuais da fala. Com base no ADReSS, foram exploradas duas abordagens: uma direta, questionando os modelos sobre a condição do falante (com ou sem exemplos de fala de pacientes) e outra baseada na avaliação prévia de características linguísticas como coerência textual, diversidade lexical, comprimento frásico e complexidade lexical. As previsões dos LLMs foram combinadas com modelos de machine learning como Support Vector Machines, Linear Discriminant Analysis, One-Nearest Neighbour, Decision Trees e Random Forests. Considerou-se ainda a velocidade de fala (sílabas por segundo) e anotações explícitas de pausas (curtas, médias e longas) na análise da precisão. Os modelos foram avaliados pela sua capacidade de distinguir entre pacientes com Alzheimer e indivíduos saudáveis, com os LLMs a fornecerem uma explicação passo a passo, uma previsão SIM/NÃO e um nível de confiança.

Quais são os principais resultados? Qual é o futuro desta abordagem?
     Os resultados obtidos demonstraram que os modelos de IA desenvolvidos conseguem prever sinais musculares simplificados com uma precisão de aproximadamente 75% quando treinados e testados com dados da mesma pessoa e gravação. Em cenários mais desafiantes, como a generalização para diferentes sessões de gravação ou indivíduos distintos, as precisões obtidas foram de 57% e 46%, respetivamente. Os sinais de EMG artificiais alcançaram uma correspondência razoável com os sinais reais EMG, com uma similaridade média de 66,3%.

     Para a deteção da apneia obstrutiva do sono, os movimentos labiais foram a modalidade isolada com melhor desempenho (80%), seguidos pelas imagens faciais (77,5%) e pelas gravações de voz (67,5%). A fusão tardia das três modalidades — combinando as previsões após a análise individual — obteve a maior precisão global (82,5%), evidenciando o benefício da integração multimodal, especialmente em contextos com dados ruidosos ou incompletos.

     Relativamente à doença de Alzheimer, os modelos Support Vector Machines superaram os restantes classificadores nos conjuntos de dados ADReSS e ILSE. No ADReSS, as características linguísticas mostraram-se mais informativas (77,1% de precisão), do que as acústicas (66,7%). No ILSE, ambas as características apresentaram resultados elevados, com 86% de precisão para as características acústicas e 83,8% para as linguísticas. No entanto, quando os modelos treinados em alemão foram testados em inglês, e vice-versa, revelou-se uma acentuada perda de desempenho, com as precisões a descerem para valores próximos do acaso, sublinhando a dificuldade da transferência de modelos de IA entre diferentes idiomas e condições de gravação distintos.

     A análise da fala saudável, estabeleceu parâmetros de referência para a deteção de desvios, permitindo aos modelos identificar alterações subtis em pacientes com Parkinson e Alzheimer, como tom alterado, fala mais lenta e vocabulário reduzido. No caso da doença de Parkinson, o modelo Neural Additive Model identificou corretamente os pacientes em 75% dos casos durante o treino e em 69% dos casos com novos dados. Para a doença de Alzheimer, o desempenho foi ainda melhor, com uma precisão de 84% no treino e 75% em novos dados. Apesar de, o Neural Additive Model tenha sido ligeiramente menos preciso do que a Regressão Logística e os Support Vector Machines na deteção do Parkinson, superou ambos na deteção do Alzheimer e ofereceu a vantagem adicional de interpretabilidade, ao mostrar como cada característica da fala contribuiu para as suas previsões.

     O estudo também revelou que o GPT-4-Turbo foi o modelo de LLMs que apresentou melhor desempenho, com 77% de precisão na deteção da doença de Alzheimer em dados não utilizados durante o treino. As abordagens baseadas na classificação de características linguísticas — como coerência textual e diversidade lexical — superaram a estratégia de pedir diretamente aos LLMs a previsão do diagnóstico. A inclusão da velocidade de fala melhorou ligeiramente a deteção, enquanto as anotações de pausas não trouxeram ganhos significativos. Entre os classificadores, os Support Vector Machines atingiram a maior precisão, com 81,3%.

     Globalmente, o estudo demonstrou o potencial da fala como um biomarcador remoto e escalável para o rastreio de múltiplas doenças. A integração de dados multimodais — como imagens faciais, movimentos labiais e sinais artificiais de EMG — com modelos de machine learning interpretáveis reforça a capacidade de deteção de alterações relacionadas com doenças neurológicas, respiratórias e psiquiátricas. Os resultados destacaram os benefícios da fusão tardia na gestão de dados ruidosos do mundo real e revelaram desafios práticos, como variações no idioma, contexto e dispositivos de gravação (ex. diferenças entre gravações feitas com telefone em casa vs microfones clínicos). Estas conclusões sublinharam a importância de estabelecer parâmetros normativos para a fala saudável para detetar com precisão desvios subtis indicativos de patologia.

     O trabalho futuro deverá focar-se no desenvolvimento de bases de dados de grande escala e diversidade, para melhorar a generalização dos modelos entre doenças, idiomas, contextos (incluindo ambientes não controlados) e condições de gravação. A prioridade será integrar biossinais adicionais não invasivos — como a tosse — e adotar abordagens multimodais para captar efeitos sobrepostos de comorbilidades. Avanços em machine learning poderão ainda aumentar a interpretabilidade e fiabilidade. A colaboração com clínicos e terapeutas da fala permitirá realizar estudos multicêntricos, garantindo relevância e aplicabilidade clínica. Protótipos móveis centrados no utilizador, em conformidade com o regulamento geral sobre a proteção de dados e regulamentos médicos, facilitarão a integração nos fluxos de trabalho clínicos. O objetivo final é viabilizar esta tecnologia para plataformas móveis e de telemedicina, permitindo uma monitorização contínua e passiva para cuidados de saúde preventivos e personalizados, salvaguardando as questões éticas e de privacidade.

TEF-HEALTH Logo

SPMS integra a iniciativa TEF-Health

A SPMS participa na iniciativa TEF-Health como parceira de um consórcio composto por 51 entidades de 9 países da União Europeia. Esta ação é cofinanciada…

Ler mais

tem uma ideia inovadora
na área da saúde?

Partilhe-a connosco e veja-a ganhar vida.
Ajudamos a dar vida aos seus projetos!

Newsletter

Receba as novidades do
Portal InovarSaúde

República Portuguesa logo
logotipo SNS
SPMS logotipo

Acompanhe-nos

YouTube
LinkedIn

Cofinanciado por :

PRR Logotipo
república Portuguesa logo
União Europeia Logo

Newsletter

Receba as novidades do
Portal InovarSaúde

República Portuguesa logo
SNS Logo
SPMS Logo

Acompanhe-nos

Cofinanciado por :

PRR Logotipo
República Portuguesa logo
União Europeia Logo

Início / Publicações / Publicação

Voz em IA

Tipo de publicação: Resumo do Artigo
Título original: Speech as biomarker for multidisease screening
Data da publicação do artigo: Novembro de 2024
Fonte: Repositório Institucional do Instituto Superior Técnico (Scholar)
Autor: Catarina Botelho
Orientadores: Isabel Trancoso, Alberto Abad & Tanja Schultz

Qual é o objetivo, público-alvo e áreas da saúde digital em que se enquadra?
     Este estudo tem como objetivo explorar e validar o uso da fala como biomarcador digital não invasivo e de baixo custo para o rastreio remoto de múltiplas doenças, particularmente aquelas que afetam os sistemas respiratório, nervoso e muscular. Destina-se à comunidade médica, bem como a investigadores e a profissionais nas áreas de Inteligência Artificial (IA) e processamento de sinal. No campo da saúde digital, o estudo contribui para áreas-chave como a telemonitorização e rastreio remoto, biomarcadores digitais, diagnósticos assistidos por IA, saúde preditiva e personalizada e paralinguística computacional silenciosa.

Qual é o contexto?
     A fala é um biomarcador que reflete, de forma sensível, o funcionamento integrado de vários sistemas fisiológicos, nomeadamente o nervoso, o respiratório e o muscular. Esta complexidade torna-a um recurso promissor para a deteção de alterações associadas ao estado de saúde. Embora não constitua, por si só, um biomarcador digital, a fala pode adquirir esse estatuto quanto é captada, digitalizada e analisada por métodos computacionais, nomeadamente os suportados por IA. Nestas circunstâncias, torna-se possível extrair padrões vocais relevantes para o rastreio, o diagnostico precoce e a monitorização de diferentes condições clínicas.

     Desde a formulação da intenção comunicativa nas áreas corticais cerebrais — incluindo a área de Broca (associada ao controlo motor da fala) e a área de Wernicke (relacionada com a compreensão da linguagem) — até à emissão sonora final, o processo da fala exige controlo motor preciso, função cognitiva integrada e regulação contínua por mecanismos de feedback auditivo e proprioceptivo. A audição regula características como entoação, o volume e a articulação, enquanto a proprioceção assegura a coordenação muscular necessária à produção de uma fala clara e fluente. Qualquer disfunção ao longo deste circuito — resultante de doença neurodegenerativa, distúrbio respiratório, condição psiquiátrica ou alterações associadas ao envelhecimento — pode originar padrões acústicos anómalos e detetáveis.

     Condições como a apneia obstrutiva do sono — em que a obstrução recorrente das vias aéreas superiores compromete a qualidade vocal —, a doença de Alzheimer – que afeta a coerência da linguagem, resultando em frases mais curtas e menos precisas, vocabulário reduzido e pausas mais frequentes e a doença de Parkinson — que afeta o controlo motor e provoca uma fala fraca, monótona e de articulação imprecisa — bem como transtornos psiquiátricos como a depressão, estão associadas a perfis vocais caraterísticos, evidenciando alterações na intensidade, pronúncia, ritmo, articulação ou conteúdo linguístico. O envelhecimento, embora não constitua uma patologia, pode igualmente induzir alterações na fala, como a redução do controlo do tom e da força vocal, que podem mimetizar alterações associadas a determinadas doenças, dificultando o diagnóstico diferencial.

Quais são as abordagens atuais?
     Os procedimentos médicos tradicionais utilizados para o diagnóstico destas doenças são frequentemente pouco escaláveis e acessíveis, especialmente para rastreios precoces ou em larga escala. Por exemplo, o método de referência para diagnosticar a apneia obstrutiva do sono é a polissonografia — um estudo do sono realizado durante a noite numa clínica que monitoriza a respiração, frequência cardíaca, atividade cerebral e movimentos corporais. No entanto, este método é caro, demorado e desconfortável para os pacientes. No caso da doença de Alzheimer e da depressão, o diagnóstico continua a ser em grande parte subjetivo: os sintomas de Alzheimer são frequentemente confundidos com envelhecimento, e a depressão depende de auto-relatos e do julgamento clínico, o que leva a uma grande variabilidade e, por vezes, atrasos no reconhecimento da doença.

     A deteção baseada na fala representa, assim uma alternativa promissora, não invasiva e potencialmente mais acessível. No entanto, a maioria dos modelos atuais de IA enfrentam várias limitações: muitos são concedidos para detetar apenas uma condição de cada vez e utilizam algoritmos complexos “black-box” — sistemas treinados em conjuntos de dados pequenos e homogéneos cujo processo de tomada de decisão é difícil de interpretar, limitando a sua adoção clínica. Outros obstáculos incluem a escassez de bases de dados de fala diversificadas, preocupações éticas e legais relacionadas com a privacidade, a dificuldade de generalização dos modelos a diferentes idiomas, tarefas de fala ou ambientes acústicos, e a tendência para captarem padrões irrelevantes, como ruído de fundo, em vez de sinais associados a sintomas reais. Estes desafios apontam para a necessidade de desenvolver abordagens de IA mais robustas, interpretáveis e fiáveis, com maior aplicabilidade em ambientes clínicos reais.

     Paralelamente, outras abordagens exploram a análise de sinais não verbais produzidos durante a fala, como a atividade muscular da face e do pescoço. Este campo, conhecido como paralinguística computacional silenciosa, foca-se no estudo de aspetos como pausas, expressões faciais e sinais fisiológicos relacionados. A atividade muscular é normalmente medida através de eletromiografia de superfície (EMG), que utiliza pequenos sensores colocados na face e pescoço para registar os sinais elétricos dos músculos. Estes sinais podem ser utilizados para reconstruir a fala em indivíduos que são incapazes de falar. No entanto, a EMG permanece uma técnica invasiva, dispendiosa e limitada a contextos laboratoriais, o que restringe a sua aplicabilidade em larga escala.

Em que consiste a inovação? Como é que é avaliado o impacto deste estudo?
     Este estudo explorou novas abordagens não invasivas para a deteção de doenças através da fala. A inovação central consistiu no desenvolvimento de um sistema que, a partir da gravação da voz com um microfone, gera sinais artificiais que replicam a atividade muscular durante a produção da fala. Para isso, foram utilizadas gravações paralelas de voz e sinais de EMG de 8 indivíduos. Inicialmente, foram extraídas das gravações características acústicas — como o tom e o ritmo — e foram utilizadas redes neuronais em forma de ampulheta para recriar sinais musculares simplificados, comparados posteriormente com os sinais EMG reais. Numa segunda etapa, os sinais EMG reais simplificados foram processados por redes neuronais convolucionais e redes neuronais bidirecionais de memória de longo e curto prazo, permitindo gerar sinais de EMG artificiais, os quais foram também comparados com os EMG reais para avaliar a precisão.

     Na análise da apneia obstrutiva do sono, foram utilizados 40 vídeos do YouTube, a partir dos quais se extraíram três modalidades: gravações de voz, imagens faciais e movimentos labiais. Estas foram processadas por redes neuronais convolucionais para identificar padrões associados à doença. As gravações de voz foram analisadas quanto ao tom e à aspereza, com técnicas de filtragem de ruído e identificando padrões vocais únicos. As imagens faciais foram avaliadas com base na forma e textura, enquanto os movimentos labiais permitiram analisar a articulação. As três modalidades foram integradas através de duas estratégias: fusão precoce, com análise conjunta desde o início, e fusão tardia, com análise individual seguida de combinação das previsões. O desempenho dos modelos foi avaliado quanto à sua capacidade de distinguir pacientes com apneia obstrutiva do sono de indivíduos saudáveis.

     No caso da doença de Alzheimer, foram utilizados dois conjuntos de dados: o Interdisciplinary Longitudinal Study on Adult Development and Aging –ILSE (entrevistas longas em alemão) e o Alzheimer’s Dementia Recognition through Spontaneous Speech – ADReSS (descrições curtas de imagens em inglês). Modelos como Gaussian Mixture Models, Linear Discriminant Analysis e Support Vetor Machines foram aplicados para analisar características linguísticas (como riqueza lexical, estrutura gramatical e pausas) e acústicas (como tom, ritmo e qualidade da voz). O estudo testou quais características e modelos tiveram melhor desempenho quando avaliados no mesmo conjunto de dados em que foram treinados, e como os modelos treinados com dados em alemão funcionaram quando aplicados a dados em inglês e vice-versa, para distinguir entre pacientes com Alzheimer e indivíduos saudáveis.

     Adicionalmente, definiram-se parâmetros de referência para a fala saudável com base no conjunto de dados Crowdsourced Language Assessment Corpus, composto por gravações de indivíduos a descrever imagens e a produzir sons vocálicos. A partir destas gravações, foram extraídas características vocais representativas — como tom, velocidade de fala e diversidade lexical. Em seguida, algoritmos de machine learning, incluindo Support Vector Machines, Regressão Logística e Neural Additive Models, foram treinados para classificar indivíduos como saudáveis ou doentes com base nos desvios relativamente a esses parâmetros. Os modelos foram posteriormente avaliados com o conjunto ADReSS (Alzheimer) e o conjunto de dados de Parkinson em espanhol (PC-GITA), onde produziam sons vocálicos sustentados, para testar a sua capacidade de detetar alterações na fala associadas a estas doenças.

     Por fim, foram testados Large Language Models (LLMs), incluindo GPT-4-Turbo, Llama-2-13B, Mistral-7B e Mixtral-8x7B, para avaliar a sua capacidade de identificar a doença de Alzheimer através da análise de transcrições textuais da fala. Com base no ADReSS, foram exploradas duas abordagens: uma direta, questionando os modelos sobre a condição do falante (com ou sem exemplos de fala de pacientes) e outra baseada na avaliação prévia de características linguísticas como coerência textual, diversidade lexical, comprimento frásico e complexidade lexical. As previsões dos LLMs foram combinadas com modelos de machine learning como Support Vector Machines, Linear Discriminant Analysis, One-Nearest Neighbour, Decision Trees e Random Forests. Considerou-se ainda a velocidade de fala (sílabas por segundo) e anotações explícitas de pausas (curtas, médias e longas) na análise da precisão. Os modelos foram avaliados pela sua capacidade de distinguir entre pacientes com Alzheimer e indivíduos saudáveis, com os LLMs a fornecerem uma explicação passo a passo, uma previsão SIM/NÃO e um nível de confiança.

Quais são os principais resultados? Qual é o futuro desta abordagem?
     Os resultados obtidos demonstraram que os modelos de IA desenvolvidos conseguem prever sinais musculares simplificados com uma precisão de aproximadamente 75% quando treinados e testados com dados da mesma pessoa e gravação. Em cenários mais desafiantes, como a generalização para diferentes sessões de gravação ou indivíduos distintos, as precisões obtidas foram de 57% e 46%, respetivamente. Os sinais de EMG artificiais alcançaram uma correspondência razoável com os sinais reais EMG, com uma similaridade média de 66,3%.

     Para a deteção da apneia obstrutiva do sono, os movimentos labiais foram a modalidade isolada com melhor desempenho (80%), seguidos pelas imagens faciais (77,5%) e pelas gravações de voz (67,5%). A fusão tardia das três modalidades — combinando as previsões após a análise individual — obteve a maior precisão global (82,5%), evidenciando o benefício da integração multimodal, especialmente em contextos com dados ruidosos ou incompletos.

     Relativamente à doença de Alzheimer, os modelos Support Vector Machines superaram os restantes classificadores nos conjuntos de dados ADReSS e ILSE. No ADReSS, as características linguísticas mostraram-se mais informativas (77,1% de precisão), do que as acústicas (66,7%). No ILSE, ambas as características apresentaram resultados elevados, com 86% de precisão para as características acústicas e 83,8% para as linguísticas. No entanto, quando os modelos treinados em alemão foram testados em inglês, e vice-versa, revelou-se uma acentuada perda de desempenho, com as precisões a descerem para valores próximos do acaso, sublinhando a dificuldade da transferência de modelos de IA entre diferentes idiomas e condições de gravação distintos.

     A análise da fala saudável, estabeleceu parâmetros de referência para a deteção de desvios, permitindo aos modelos identificar alterações subtis em pacientes com Parkinson e Alzheimer, como tom alterado, fala mais lenta e vocabulário reduzido. No caso da doença de Parkinson, o modelo Neural Additive Model identificou corretamente os pacientes em 75% dos casos durante o treino e em 69% dos casos com novos dados. Para a doença de Alzheimer, o desempenho foi ainda melhor, com uma precisão de 84% no treino e 75% em novos dados. Apesar de, o Neural Additive Model tenha sido ligeiramente menos preciso do que a Regressão Logística e os Support Vector Machines na deteção do Parkinson, superou ambos na deteção do Alzheimer e ofereceu a vantagem adicional de interpretabilidade, ao mostrar como cada característica da fala contribuiu para as suas previsões.

     O estudo também revelou que o GPT-4-Turbo foi o modelo de LLMs que apresentou melhor desempenho, com 77% de precisão na deteção da doença de Alzheimer em dados não utilizados durante o treino. As abordagens baseadas na classificação de características linguísticas — como coerência textual e diversidade lexical — superaram a estratégia de pedir diretamente aos LLMs a previsão do diagnóstico. A inclusão da velocidade de fala melhorou ligeiramente a deteção, enquanto as anotações de pausas não trouxeram ganhos significativos. Entre os classificadores, os Support Vector Machines atingiram a maior precisão, com 81,3%.

     Globalmente, o estudo demonstrou o potencial da fala como um biomarcador remoto e escalável para o rastreio de múltiplas doenças. A integração de dados multimodais — como imagens faciais, movimentos labiais e sinais artificiais de EMG — com modelos de machine learning interpretáveis reforça a capacidade de deteção de alterações relacionadas com doenças neurológicas, respiratórias e psiquiátricas. Os resultados destacaram os benefícios da fusão tardia na gestão de dados ruidosos do mundo real e revelaram desafios práticos, como variações no idioma, contexto e dispositivos de gravação (ex. diferenças entre gravações feitas com telefone em casa vs microfones clínicos). Estas conclusões sublinharam a importância de estabelecer parâmetros normativos para a fala saudável para detetar com precisão desvios subtis indicativos de patologia.

     O trabalho futuro deverá focar-se no desenvolvimento de bases de dados de grande escala e diversidade, para melhorar a generalização dos modelos entre doenças, idiomas, contextos (incluindo ambientes não controlados) e condições de gravação. A prioridade será integrar biossinais adicionais não invasivos — como a tosse — e adotar abordagens multimodais para captar efeitos sobrepostos de comorbilidades. Avanços em machine learning poderão ainda aumentar a interpretabilidade e fiabilidade. A colaboração com clínicos e terapeutas da fala permitirá realizar estudos multicêntricos, garantindo relevância e aplicabilidade clínica. Protótipos móveis centrados no utilizador, em conformidade com o regulamento geral sobre a proteção de dados e regulamentos médicos, facilitarão a integração nos fluxos de trabalho clínicos. O objetivo final é viabilizar esta tecnologia para plataformas móveis e de telemedicina, permitindo uma monitorização contínua e passiva para cuidados de saúde preventivos e personalizados, salvaguardando as questões éticas e de privacidade.

Cadeira de rodas

Mobilidade autónoma de doentes em ambiente hospitalar

O transporte interno de doentes em instituições de saúde, embora à primeira vista possa parecer uma tarefa simples, representa uma operação logística complexa, contínua, exigente e demorada, que atravessa todos os níveis da organização hospitalar….

Ler mais
Literatura sobre os cuidados de saúde no futuro

O que revela a literatura sobre os cuidados de saúde no futuro

O setor da saúde vive uma transformação acelerada impulsionada pelo envelhecimento populacional, pela complexidade dos cuidados e pelos avanços digitais, num cenário que exige maior integração, sustentabilidade e adaptação a novas realidades como o Espaço…

Ler mais
Perturbação do sono

Uma intervenção digital para a Insónia em Oncologia

A insónia é uma perturbação do sono caracterizada por dificuldades persistentes em iniciar o sono, mantê-lo durante a noite ou alcançar um sono de qualidade. Estas dificuldades surgem mesmo na presença de condições adequadas para…

Ler mais
Sistema robótico autónomo INSIDE

Sistema robótico autónomo para a terapia do autismo

O transtorno do espetro do autismo é uma condição do neurodesenvolvimento com repercussões clínicas, sociais e económicas significativas ao longo da vida. Segundo a Organização Mundial de Saúde, estima-se que afete aproximadamente 1 em cada…

Ler mais
troca de informações de saúde e interoperabilidade

A nova era da interoperabilidade em sistemas de saúde

A crescente utilização de registos eletrónicos de saúde, sistemas de diagnóstico digital e tecnologias de monitorização remota tem levado a um aumento expressivo no volume e na complexidade dos dados em saúde. Este aumento intensifica…

Ler mais
robótica colaborativa

Robótica colaborativa melhora as condições de trabalho

Os trabalhadores enfrentam desafios crescentes no ambiente industrial. Entre os mais críticos estão a fadiga e as posturas inadequadas, frequentemente associadas a tarefas repetitivas e a condições de trabalho que carecem de adequação ergonómica. Estes…

Ler mais
Benefícios da Eletrônica Médica

Deteção da ansiedade e de ataques de pânico em tempo real

O crescente número de pessoas com transtornos de ansiedade, juntamente com o aumento da conscientização sobre a saúde mental, impulsiona a necessidade de novas ferramentas tecnológicas que forneçam a monitorização remota e contínua de transtornos…

Ler mais
Personalização e tecnologia na gestão da Diabetes

Personalização e tecnologia na gestão da diabetes

A crescente prevalência de doenças crónicas, particularmente DM, está a sobrecarregar os sistemas de saúde globais e a aumentar os custos dos cuidados de saúde devido à complexidade dos cuidados e à fraca integração, resultando…

Ler mais
TEF-HEALTH Logo

SPMS integra a iniciativa TEF-Health

A SPMS participa na iniciativa TEF-Health como parceira de um consórcio composto por 51 entidades de 9 países da União Europeia. Esta ação é cofinanciada pela Comissão Europeia e tem uma duração de cinco anos….

Ler mais
Global Digital Health Partnership Logo

SPMS representa Portugal como vice-presidente da GDHP

A GDHP é uma organização intergovernamental da área da saúde digital que facilita a cooperação e colaboração entre representantes governamentais e a Organização Mundial da Saúde (OMS), cujo propósito é fomentar o desenvolvimento de políticas…

Ler mais
HealthData@PT Logo

HealthData@PT: Nova iniciativa da SPMS para dados de saúde

A ação HealthData@PT é lançada no contexto da implementação do Espaço Europeu de Dados de Saúde, sendo uma iniciativa aprovada pela Comissão Europeia no âmbito do programa EU4Health 2021-2027. Esta iniciativa contribui para a transformação…

Ler mais

tem uma ideia inovadora
na área da saúde?

Partilhe-a connosco e veja-a ganhar vida.
Ajudamos a dar vida aos seus projetos!

Newsletter

Receba as novidades do
Portal InovarSaúde

República Portuguesa logo
SNS Logo
SPMS Logo

Acompanhe-nos

YouTube
LinkedIn

Cofinanciado por :

PRR Logotipo
República Portuguesa logo
União Europeia Logo
Scroll to Top