IA TãO BOA NO DIAGNóSTICO DE DOENçAS QUANTO OS HUMANOS

A primeira revisão sistemática e meta-análise desse tipo descobriu que a inteligência artificial (IA) é tão boa no diagnóstico de uma doença com base em uma imagem médica quanto os profissionais de saúde. No entanto, são necessários mais estudos de alta qualidade.

A IA e os profissionais de saúde são igualmente eficazes no diagnóstico de doenças com base em imagens médicas, sugere uma nova pesquisa.

Um novo artigo examina as evidências existentes na tentativa de determinar se a IA pode diagnosticar doenças tão eficazmente quanto os profissionais de saúde.

Para o conhecimento dos autores - isto é, uma vasta equipe de pesquisadores liderada pelo Professor Alastair Denniston da University Hospitals Birmingham NHS Foundation Trust no Reino Unido - esta é a primeira revisão sistemática que compara o desempenho de IA com profissionais médicos para todas as doenças.

O Prof. Denniston e a equipe pesquisaram várias bases de dados médicas para todos os estudos publicados entre 1º de janeiro de 2012 e 6 de junho de 2019. A equipe publicou os resultados de suas análises no jornal The Lancet Digital Health.

IA em pé de igualdade com os profissionais de saúde

Os pesquisadores procuraram estudos que comparassem a eficácia diagnóstica de algoritmos de aprendizagem profunda com a de profissionais de saúde quando eles fizeram um diagnóstico com base em imagens médicas.

Eles examinaram a qualidade dos relatórios nos referidos estudos, seu valor clínico e o desenho dos estudos.

Além disso, quando se trata de avaliar o desempenho diagnóstico da IA em comparação com o dos profissionais de saúde, os pesquisadores analisaram dois resultados: especificidade e sensibilidade.

“Sensibilidade” define a probabilidade de que uma ferramenta de diagnóstico obtenha um resultado positivo em pessoas que têm a doença. A especificidade se refere à precisão do teste diagnóstico, que complementa a medida de sensibilidade.

O processo de seleção rendeu apenas 14 estudos cuja qualidade foi alta o suficiente para incluir na análise. O Prof. Denniston explica: “Nós revisamos mais de 20.500 artigos, mas menos de 1% deles eram suficientemente robustos em seu design e relatórios para que os revisores independentes tivessem alta confiança em suas afirmações.”

“Além do mais, apenas 25 estudos validaram os modelos de IA externamente (usando imagens médicas de uma população diferente) e apenas 14 estudos compararam o desempenho da IA e de profissionais de saúde usando a mesma amostra de teste.”

“Dentro desse punhado de estudos de alta qualidade, descobrimos que o aprendizado profundo pode de fato detectar doenças que variam de câncer a doenças oculares com a mesma precisão dos profissionais de saúde. Mas é importante notar que a IA não superou substancialmente o diagnóstico humano. ”
Prof. Alastair Denniston

Mais especificamente, a análise descobriu que a IA pode diagnosticar corretamente a doença em 87% dos casos, enquanto a detecção por profissionais de saúde produziu uma taxa de precisão de 86%. A especificidade para algoritmos de aprendizagem profunda foi de 93%, em comparação com humanos em 91%.

Vieses podem exagerar o desempenho da IA

O Prof. Denniston e colegas também chamam a atenção para várias limitações que encontraram em estudos que examinam o desempenho diagnóstico de IA.

Em primeiro lugar, a maioria dos estudos examina a IA e a precisão diagnóstica dos profissionais de saúde em um ambiente isolado que não imita a prática clínica regular - por exemplo, privando os médicos de informações clínicas adicionais de que normalmente precisariam para fazer um diagnóstico.

Em segundo lugar, dizem os pesquisadores, a maioria dos estudos comparou apenas conjuntos de dados, ao passo que pesquisas de alta qualidade em desempenho diagnóstico exigiriam fazer tais comparações em pessoas.

Além disso, todos os estudos sofreram de relatórios pobres, dizem os autores, com a análise não contabilizando informações que estavam faltando em tais conjuntos de dados. “A maioria [dos estudos] não relatou se algum dado estava faltando, que proporção isso representava e como os dados faltantes foram tratados na análise”, escrevem os autores.

As limitações adicionais incluem terminologia inconsistente, não definir claramente um limite para a análise de sensibilidade e especificidade e a falta de validação fora da amostra.

“Há uma tensão inerente entre o desejo de usar novos diagnósticos potencialmente salvadores de vidas e o imperativo de desenvolver evidências de alta qualidade de uma forma que possa beneficiar os pacientes e os sistemas de saúde na prática clínica”, comenta o primeiro autor, Dr. Xiaoxuan Liu, do University of Birmingham.

“Uma lição importante de nosso trabalho é que em IA - como em qualquer outra parte da saúde - um bom design de estudo é importante. Sem ele, você pode facilmente introduzir tendências que distorcem seus resultados. Esses preconceitos podem levar a alegações exageradas de bom desempenho para ferramentas de IA que não se traduzem no mundo real. ”
Dr. Xiaoxuan Liu

“As evidências de como os algoritmos de IA mudarão os resultados dos pacientes precisam vir de comparações com testes diagnósticos alternativos em ensaios clínicos randomizados”, acrescenta a coautora Dra. Livia Faes, do Moorfields Eye Hospital, Londres, Reino Unido.

“Até o momento, dificilmente existem tais ensaios em que as decisões diagnósticas feitas por um algoritmo de IA são aplicadas para ver o que acontece com os resultados que realmente importam para os pacientes, como tratamento oportuno, tempo de alta hospitalar ou mesmo taxas de sobrevivência.”

none: fibromyalgia bites-and-stings schizophrenia