A inteligência artificial (IA) está se tornando crucial para o setor de saúde, com aplicações que vão desde a produção de correspondências clínicas até a realização de diagnósticos. No Cambridge Judge Business School, o foco tem sido o desenvolvimento de modelos que melhorem a avaliação de desempenho dessas IAs, garantindo que possam ser usadas de maneira coesa e segura no campo médico.
O Centro de Psicometria da instituição tem estudado intensamente a chamada IA médica geral (GMAI), propondo novas metodologias de avaliação para ajudar formuladores de políticas e regulamentadores a entenderem melhor o funcionamento desses modelos. O Professor David Stillwell, uma das principais figuras nesse campo, ressalta que, embora as IAs possam auxiliar na avaliação da saúde e no suporte ao cuidado de pacientes, é fundamental aprimorar os métodos de avaliação para identificar as reais capacidades e limitações dessas tecnologias.
Atualmente, as avaliações de IA na área médica dependem fortemente de benchmarks derivados de exames de licenciamento médico. No entanto, essa abordagem frequentemente falha em identificar os tipos de erros cometidos pela IA, suas fraquezas e a eficácia em tarefas não avaliadas inicialmente. Pesquisas conduzidas juntamente com Dr. Luning Sun e José Hernández-Orallo evidenciam que os modelos de linguagem, como o ChatGPT-4, às vezes cometem erros críticos, como defender práticas proibidas em determinadas culturas, o que pode levar a graves falhas na prática clínica.
"GMAI pode ajudar a avaliar a saúde e dar suporte ao cuidado de pacientes, mas ainda precisamos de métodos de avaliação mais fortes para mostrar onde a tecnologia é confiável e onde não é", afirma David Stillwell.
Mesmo quando conseguem bons resultados em exames, estas IAs podem falhar em situações que um humano com pontuação equivalente não falharia. Ainda permanecem dúvidas sobre a capacidade dos sistemas de IA de lidar com situações inéditas, dadas as mudanças contínuas em padrões de doenças e tratamentos.
O centro propõe um novo método de avaliação que se baseia em técnicas modernas de psicometria. Esses métodos sugerem a identificação de construtos psicológicos que caracterizam profissionais médicos bem-sucedidos e a avaliação desses elementos nas IAs. O Centro Leverhulme já descobriu que fatores como raciocínio, compreensão e modelagem linguística formam a base do desempenho em tarefas cognitivas complexas, algo que as IAs precisam refletir.
A pesquisa se beneficia da técnica de agrupar as tarefas conceitualmente, revelando assim forças e fraquezas específicas dos modelos de linguagem, enfrentando desafios reais como a deriva de dados.
Essa abordagem permite uma análise mais nuançada do que os benchmarks tradicionais podem fornecer. Adaptar-se à mudança estrutural e de distribuição de dados permitirá melhorar a confiabilidade de previsões feitas por IAs médicas.
A pesquisa sugere formatos de avaliação que vão além dos benchmarks, como avaliações práticas, observacionais e situacionais. Esses métodos mais flexíveis permitem uma melhor adaptação a tarefas e competências clínicas fora do escopo tradicional, como a empatia em interações com pacientes, um aspecto difícil de quantificar em exames convencionais.
"Esses formatos alternativos são menos suscetíveis a contaminações de dados e podem avaliar melhor o comportamento das IAs em interações humanas", destaca a pesquisa.
O uso de humor em situações difíceis, por exemplo, é uma competência interpessoal que transforma o cuidado com o paciente em uma experiência de apoio e conforto. IAs podem ser treinadas para simular tais interações, oferecendo uma oportunidade de aprimoramento contínuo nos cuidados de saúde.
O uso expandido de IA nos serviços de saúde prevê uma queda na supervisão humana, à medida que aumentamos nossa confiança nas habilidades preditivas das IAs. No entanto, especialistas se preocupam com o equilíbrio entre inovação e segurança, defendendo colaborações interdisciplinares que incluem ciência da computação, medicina e psicometria.
Os pesquisadores afirmam que é preciso "determinar onde os sistemas de IA são confiáveis e onde podem precisar de mais assistência" para proteger o bem-estar dos pacientes.
Essa abordagem colaborativa garante que as inovações tecnológicas não comprometam a segurança do paciente, permitindo uma implementação cuidadosa e eficaz das novas tecnologias na prática médica.