A virada da escala para a prova · a IA de saúde mental parou de contar usuários e começou a medir desfecho

A IA de saúde mental virou massa, um ensaio randomizado provou que ela move sintoma, e 2026 é o ano em que adoção deixou de ser desculpa para não medir desfecho

Frase-tese: Adoção não é eficácia. O ano em que confundimos as duas é o ano que custa mais caro.

diagnóstico

O território já foi ocupado

Tem um número que deveria parar quem trabalha com saúde mental no meio da frase. Em 2026, mais de seis em cada dez pessoas já recorreram a uma inteligência artificial para alguma questão de saúde mental. O dado vem do relatório anual da AXA com a IPSOS, construído sobre dezenove mil adultos de dezoito a setenta e cinco anos em dezoito países, com campo entre janeiro e fevereiro de 2026, e não descreve uma tendência futura, descreve o presente consumado. Enquanto o campo debatia se a máquina deveria ou não entrar no território do sofrimento humano, a população já tinha decidido por conta própria. A questão nunca foi pedir licença. As pessoas estão desabafando com um modelo de linguagem às três da manhã, quando o consultório está fechado, quando o plano não cobre, quando a vergonha de falar com gente é maior do que a de falar com código. O território já foi ocupado. O que ainda não foi feito é a pergunta difícil sobre o que exatamente está acontecendo ali dentro.

a prova

O ensaio que fechou a porta do ceticismo

Por muito tempo foi possível descartar isso como ruído de tecnologia sem fundamento, e essa porta acabou de se fechar. Em 2025, um grupo da Escola de Medicina Geisel, em Dartmouth, publicou no NEJM AI o primeiro ensaio clínico randomizado de um chatbot generativo desenhado para tratamento de saúde mental, o Therabot. O desenho foi sério, do tipo que se cobra de qualquer fármaco: duzentas e dez pessoas com depressão maior, transtorno de ansiedade generalizada ou alto risco para transtorno alimentar, distribuídas aleatoriamente entre usar a ferramenta por quatro semanas ou ficar em lista de espera. O resultado não foi morno. O grupo que usou o chatbot teve redução de cinquenta e um por cento nos sintomas de depressão, trinta e um por cento nos de ansiedade e dezenove por cento nas preocupações com imagem corporal e peso, com ganhos mantidos quatro semanas depois do fim dos estímulos. Não é um app de meditação com avaliação de cinco estrelas. É evidência de desfecho clínico, medida com o método que separa o que funciona do que apenas agrada.

a régua

Ler a evidência com a disciplina que ela pede

Vale, no entanto, ler o estudo do jeito que se lê qualquer evidência boa: com a régua que ele mesmo pede. O grupo de comparação ficou em lista de espera, não recebeu um tratamento ativo, então o que o ensaio prova com firmeza é que a ferramenta foi melhor do que não fazer nada, ainda não que ela rivaliza com terapia conduzida por gente. A leitura honesta do dado é justamente o argumento desta edição: o número impressiona, e mesmo assim a pergunta sobre o desenho do estudo continua valendo. É exatamente essa disciplina, comemorar só na medida em que o método autoriza, que separa ciência de marketing.

a distinção

O chatbot do ensaio não é o da app store

Aqui é onde a maioria das leituras erra, e onde esta edição quer cravar a distinção. O fato de a ferramenta funcionar no ensaio não valida a indústria que se vende como ela. O que o estudo de Dartmouth provou foi um sistema específico, finamente ajustado por especialistas, com conteúdo estruturado de terapia cognitivo-comportamental por baixo, testado contra controle e auditado por pesquisadores clínicos. O que ocupa as lojas de aplicativo, em sua imensa maioria, é outra coisa: um modelo genérico com prompt simpático, zero estrutura clínica, zero medida de desfecho, zero responsabilidade sobre o que acontece quando alguém em crise digita a frase errada. Os dois cabem na mesma manchete e não cabem na mesma categoria de risco. Confundir o chatbot que passou pelo ensaio com o chatbot que passou pela rodada de investimento é o atalho cognitivo que vai produzir os piores desastres da década em saúde mental digital.

mecanismo

A tecnologia é a seringa, não o remédio

A neurociência da coisa ajuda a entender por que o Therabot moveu o ponteiro, e por que o ingrediente ativo não é a tecnologia. O que reduz sintoma de depressão em terapia cognitivo-comportamental não é a presença de um terapeuta como entidade, é a reestruturação repetida de padrões de pensamento, o registro do que dispara o afeto, a exposição gradual ao que se evita. Esses são procedimentos com mecanismo conhecido, que recrutam regiões pré-frontais para regular respostas límbicas, e que funcionam por treino, não por carisma. Quando um sistema entrega esse procedimento com consistência, à mão, sem julgamento e na hora em que a pessoa precisa, ele está operando o mesmo princípio ativo que funciona no divã. A tecnologia não é o remédio. A tecnologia é a seringa. O remédio continua sendo a estrutura clínica que ela injeta, e uma seringa cheia de água com prompt amigável não trata ninguém, por mais fluida que seja a conversa.

a clínica

A máquina virou a porta de entrada

Na clínica que observo, o efeito desse cenário chega de um jeito que ninguém previu. Cada vez mais gente entra na primeira sessão já tendo conversado com uma máquina sobre o próprio sofrimento, às vezes por meses. Não chegam virgens de linguagem terapêutica, chegam com vocabulário emprestado, com hipóteses sobre si mesmos que um modelo de linguagem devolveu, algumas úteis, algumas que travam o trabalho real. O padrão que descrevo é populacional, não retrato de ninguém em particular: a máquina virou a porta de entrada de um número crescente de pessoas que de outra forma talvez nunca tivessem falado com alguém. Isso é democratização e é triagem mal feita ao mesmo tempo, dependendo inteiramente de a ferramenta ter ou não estrutura por baixo. A pergunta deixou de ser se a IA entra no cuidado. Ela já entrou. A pergunta é se entra como primeiro degrau de uma escada ou como um corredor que não leva a lugar nenhum.

a virada

Da escala para a prova

É por isso que 2026 ficou marcado no mercado como o ano da transição da escala para a prova. Durante anos, a métrica que abria portas de investimento foi adoção: quantos baixaram, quantos abriram, quantos voltaram no dia seguinte. Essas são métricas de produto, e produto sem desfecho clínico em saúde mental é teatro de bem-estar. O que compradores institucionais, sistemas de saúde e reguladores passaram a exigir agora é evidência de resultado, do tipo que o Therabot teve que apresentar. Quem só sabe dizer quantos usuários tem, e não sabe dizer quem melhorou, quanto, em qual sintoma e medido por qual instrumento, está vendendo promessa numa feira que passou a cobrar prova. O dinheiro está migrando da história bonita para o número auditável, e isso é a melhor notícia que a saúde mental digital recebeu em uma década, porque obriga o campo a fazer o que a clínica séria sempre fez: medir antes de comemorar.

protocolo

As quatro perguntas que separam cuidado de engajamento

O Blueprint Mental para quem constrói, contrata ou regula essas ferramentas não é técnica de aprendizado de máquina, é higiene científica básica. Quatro perguntas separam o que cuida do que apenas engaja. Primeira, qual é o desfecho: a ferramenta declara que sintoma pretende mover, e mede com instrumento validado, ou só conta sessões? Segunda, contra o que foi comparada: existe grupo de controle ativo, ou o suposto efeito é só o que melhoraria sozinho com o tempo, ou apenas melhor que uma fila de espera? Terceira, qual é o ingrediente ativo: tem estrutura clínica real por baixo, terapia cognitivo-comportamental com método, ou é um modelo genérico com tom acolhedor? Quarta, qual é o plano para a crise: o que o sistema faz quando alguém digita risco de vida, e quem é responsável pela resposta? Uma ferramenta que não responde essas quatro com clareza não é inovação em saúde, é interface bonita sobre um vácuo de responsabilidade.

A máquina entrou no cuidado pela porta dos fundos e não vai sair. Isso não é distopia nem salvação, é o novo chão sobre o qual a saúde mental vai ser construída na próxima década. O que decide se essa entrada vira ponte ou armadilha não é o quão avançado é o modelo, é se quem o constrói teve a disciplina de medir o que ele faz com gente de verdade. A população já provou que vai usar. Cabe a quem lidera provar que funciona, no sentido exato em que a ciência usa essa palavra: melhor que nada, melhor que o acaso, por um mecanismo que se pode nomear. Pare de contar quantos baixaram. Essa conta consola o investidor e não cura ninguém. Comece a medir quem melhorou. Essa é a única métrica que, lá no fim, tem cara de cuidado.

Dicas de Leitura

Tools and Weapons · Brad Smith e Carol Ann Browne (Penguin, 2021) · panorama honesto de como tecnologia poderosa exige responsabilidade proporcional, moldura útil para pensar IA em territórios de alto risco como a saúde
Terapia cognitivo-comportamental: teoria e prática · Judith Beck (Artmed, 3ª edição, 2021) · o manual de referência do método que é o ingrediente ativo por trás de qualquer ferramenta digital que de fato reduz sintoma
The Alignment Problem · Brian Christian (W. W. Norton, 2020) · por que sistemas de IA fazem o que medimos e não o que queremos, leitura direta para quem precisa escolher a métrica certa antes de escalar

Referências (O Fundamento)

Heinz MV, Mackin DM, Trudeau BM, et al. Randomized trial of a generative AI chatbot for mental health treatment. NEJM AI. 2025;2(4):AIoa2400802. doi:10.1056/AIoa2400802
AXA, IPSOS. Mind Health Report 2026. AXA; 2026. Pesquisa com 19.000 adultos de 18 a 75 anos em 18 países, campo de 12 de janeiro a 16 de fevereiro de 2026; mais de 60 por cento declararam já usar inteligência artificial para questões de saúde mental.
Carlbring P, Andersson G, Cuijpers P, et al. Internet-based vs. face-to-face cognitive behavior therapy for psychiatric and somatic disorders: an updated systematic review and meta-analysis. Cognitive Behaviour Therapy. 2018;47(1):1-18. doi:10.1080/16506073.2017.1401115
Torous J, Bucci S, Bell IH, et al. The growing field of digital psychiatry: current evidence and the future of apps, social media, chatbots, and virtual reality. World Psychiatry. 2021;20(3):318-335. doi:10.1002/wps.20883

Gérson Neto. Blueprint Mental.