O cérebro que se prevê: machine learning, wearables e leitura precoce de uma queda mental

Existe um momento, em qualquer transição tecnológica, em que a previsibilidade do futuro próximo deixa de parecer ficção científica e começa a parecer responsabilidade clínica. Esse momento, para saúde mental, está chegando, com cautela, ao consultório.

Em janeiro deste ano, o APA Monitor publicou uma síntese sobre o estado da Behavioral AI em psiquiatria e psicologia. Em paralelo, dois estudos cravam o terreno. Um, publicado na JMIR Medical Informatics em 2025 por Lim e colaboradores, treinou modelos de machine learning em dados de wearable de pacientes com transtorno bipolar e atingiu 91% de acurácia na predição de sintomas maníacos e 83% na predição de sintomas depressivos. Outro, publicado na npj Digital Medicine em novembro de 2024 também por Lim e colaboradores, usou apenas dados de sono e ritmo circadiano coletados por wearables em 168 pacientes para prever episódios do dia seguinte com AUC de 0,98 para mania, 0,95 para hipomania e 0,80 para depressão.

Esses números não são iguais entre si. E não significam o mesmo. Antes de qualquer discussão clínica, é preciso devolver o detalhe que a manchete tira: predizer mania não é predizer depressão, predizer o dia seguinte não é predizer dez dias adiante, e modelo que funciona em uma amostra de 24 pacientes coreanos com bipolaridade não funciona automaticamente em uma paciente brasileira com depressão recorrente. A predição existe. A generalização não está dada.

Ainda assim, o que une os achados é o que importa para a clínica. O sinal estatístico da instabilidade está disponível na fisiologia diária da pessoa, antes que ela própria, ou a sua clínica, perceba. E há sistemas computacionais que conseguem ler esse sinal.

A consequência, para quem constrói ou opera dentro de saúde mental, não é trivial. Está reescrevendo a definição do que é avaliação clínica, do que é intervenção precoce, e do que cada profissional pode honestamente prometer.

Antes de discutir implicação, é importante saber o que esses modelos estão fazendo, porque a narrativa popular tende a colapsar tecnologias muito diferentes em uma única caixa preta chamada "IA".

Em essência, o que acontece é um pipeline de quatro etapas.

A primeira é coleta passiva de dados fisiológicos e comportamentais via wearable. Apple Watch, Oura, Whoop, Fitbit, Garmin, todos os principais dispositivos hoje coletam centenas de pontos de dados por dia, sem qualquer ação consciente da pessoa. Frequência cardíaca em repouso e em atividade. Variabilidade da frequência cardíaca, ou HRV, um marcador robusto de tônus vagal e regulação autonômica. Padrão de sono detalhado, com fases REM, NREM profundo, NREM leve. Atividade física. Em alguns dispositivos, oximetria, temperatura cutânea, condutância dérmica.

A segunda etapa é extração de features. Os dados brutos são reduzidos a centenas ou milhares de variáveis derivadas, que capturam tendências, variabilidade, padrões circadianos, desvios em relação à linha de base individual da pessoa. É aqui que reside parte significativa da inteligência do sistema, porque a forma como você reduz o sinal define o que o modelo consegue aprender. O paper de Lim em 2024 mostrou que apenas 36 variáveis derivadas de sono e ritmo circadiano bastam para alcançar performance preditiva alta. Não é pouco. É um achado sobre simplicidade estrutural.

A terceira etapa é treinamento supervisionado. O modelo, geralmente uma arquitetura combinada entre algoritmos clássicos como random forests, gradient boosting, regressão logística, é exposto a séries temporais de pacientes nos quais o desfecho clínico, episódio depressivo, recaída, piora funcional, é conhecido. O modelo aprende quais padrões fisiológicos e comportamentais precedem o desfecho.

A quarta etapa é inferência em janela definida. Em uso clínico, o modelo recebe os dados contínuos da pessoa e devolve um score probabilístico, atualizado em janela específica, do risco de evento clínico nas próximas horas, no próximo dia, na próxima semana. Os estudos mais sólidos hoje operam em janelas curtas, próximas da próxima madrugada. Modelos que prometem prever um ano à frente existem na literatura, mas com performance significativamente menor e generalização ainda mais frágil.

O que está acontecendo dentro do modelo é, no fundo, a detecção de uma assinatura fisiológica de instabilidade. O sono começa a ficar mais fragmentado. A HRV cai discretamente. A atividade física diurna se reduz, mesmo antes do humor mudar conscientemente. A regularidade circadiana se quebra, e o paper de Lim em 2024 cravou um achado específico, atrasos de fase circadiana se associam a episódios depressivos, avanços de fase circadiana se associam a episódios maníacos. Isolados, esses sinais são ruído. Em conjunto, em uma série temporal de semanas, formam um padrão que precede o episódio com regularidade estatística surpreendente.

Há um conceito da neurociência cognitiva que ajuda a entender por que isso funciona, e ele tem nome: alostase.

O cérebro humano não opera em homeostase estática. Opera em alostase, ou seja, em ajuste contínuo de parâmetros fisiológicos para antecipar demandas. O preço dessa antecipação é o que Bruce McEwen chamou de carga alostática, o desgaste cumulativo dos sistemas reguladores quando a demanda excede a capacidade de ajuste.

Um episódio depressivo, do ponto de vista neurobiológico, é em parte o colapso visível de um sistema regulatório que vinha falhando silenciosamente. Quando o sistema falha, o sinal externo, humor deprimido, anhedonia, lentidão psicomotora, aparece. Mas o sinal interno, desregulação autonômica, desestruturação circadiana, alteração de marcadores inflamatórios, já estava lá. Os modelos de ML não estão prevendo o futuro. Estão lendo o presente fisiológico que o paciente ainda não consegue ler.

Essa distinção é mais que filosófica. Define o que se pode legitimamente prometer com a tecnologia.

O que está acontecendo dentro de clínicas reais agora, em centros de pesquisa nos Estados Unidos e na Coreia, e em pilotos universitários em alguns países europeus, é uma rotina específica que vale descrever, porque é o que vai chegar ao Brasil em alguns anos.

A pessoa em acompanhamento clínico para transtorno do humor usa um wearable continuamente. O dispositivo se sincroniza com uma plataforma autorizada, que processa os dados em uma camada segura. O modelo de ML produz um score em janela definida de risco. Esse score é visível para a equipe clínica em painel dedicado. Quando o score cruza um limiar pré-definido, geralmente combinado com regras de detecção de mudanças bruscas, o sistema dispara alerta. A equipe entra em contato em janela curta. A intervenção é antecipatória, não reativa.

A literatura preliminar sugere que essa rotina reduz hospitalizações por crise em populações específicas. Reduz o tempo entre piora subclínica e ajuste de plano terapêutico. Reduz a sensação, em pacientes com doenças mentais cíclicas, de estar à mercê do próprio cérebro.

Esse último ponto não é trivial, e ao mesmo tempo é o ponto onde a tecnologia produz um efeito que merece tensionamento clínico. Para um paciente com bipolar tipo I, viver com um modelo que sinaliza um episódio depressivo com antecedência muda profundamente a relação com a doença. A crise deixa de ser irrupção e vira evento previsto e gerenciado. Mas também muda, de modo que ainda estamos começando a estudar, a própria experiência subjetiva de ter um cérebro. O paciente passa a conviver com um sistema que sabe sobre o estado dele antes que ele saiba. Pode ser libertador. Pode ser ansiogênico. Pode ser ambas as coisas em camadas diferentes da vida. A relação terapêutica precisa absorver esse terceiro elemento que entrou na sala.

Esse é o ponto onde a tecnologia encontra uma fronteira que ela sozinha não consegue atravessar. A fronteira chama-se julgamento clínico.

Um score probabilístico produzido por modelo de ML é uma ferramenta poderosa, mas é uma ferramenta no sentido literal. Ele indica risco. Não indica causa. Não indica intervenção. Não substitui a anamnese, a aliança terapêutica, a leitura do contexto biográfico, a sensibilidade ao que cada pessoa significa por "estar pior".

Há dois riscos práticos que precisam estar no radar de quem implementa esses sistemas.

O primeiro é dependência excessiva. Equipes clínicas que começam a operar com painel de risco em tempo real tendem, ao longo do tempo, a calibrar a própria atenção pela cor do painel. Pacientes com score baixo recebem menos contato espontâneo. Pacientes com score alto recebem mais. Em teoria, isso é alocação eficiente. Na prática, é o algoritmo decidindo onde a atenção humana se aplica, e isso muda a natureza do vínculo terapêutico de modo que ainda estamos começando a estudar.

O segundo é viés algorítmico. Modelos treinados predominantemente em populações específicas em termos de raça, classe, idade ou país, com acesso a wearables de marcas específicas, podem ter performance significativamente pior em populações diferentes. Os 91% de acurácia maníaca de Lim 2025 vêm de uma amostra de 24 pacientes coreanos. Não é base de evidência para implementação direta em uma clínica brasileira sem validação local. E validação local não é trivial. Exige protocolo de pesquisa próprio, comitê de ética, base de dados de tamanho mínimo, tempo de operação paralela à clínica tradicional.

Há também uma fronteira regulatória brasileira que precisa de discussão pública e operacional. A Resolução CFP 09/2024 regula o exercício profissional da psicologia mediado por tecnologias digitais e estabelece, em essência, três princípios para uso de IA em prática clínica: o psicólogo mantém responsabilidade técnica integral, o paciente é informado e consente ao processamento de seus dados por IA, e o tratamento dos dados segue a LGPD. Em paralelo, a ANVISA, via RDC 657/2022, classifica softwares com finalidade médica como Software como Dispositivo Médico, sujeitos a regularização específica. Plataformas de ML que produzem score de risco clínico, dependendo da finalidade declarada e do nível de autonomia decisória, podem se enquadrar nesta regulação. Quem implementa antes da clareza regulatória assume risco que pode se tornar passivo.

Há cinco movimentos que distinguem implementação responsável da implementação que é apenas adoção de tecnologia. Cada um vem com ação concreta que o construtor que lê esta edição pode iniciar nesta semana.

Tratar o score como hipótese, não como diagnóstico. O número é insumo para conversa clínica, não substituto dela. A equipe que usa bem é a que olha o score, agenda contato, e investiga o que está acontecendo, antes de qualquer conclusão sobre intervenção. Ação concreta nesta semana: se sua equipe usa qualquer score ou métrica derivada de dado contínuo, redigir junto uma frase de uma linha que diferencie "sinal para investigar" de "conclusão para agir". Afixar onde o painel é consultado.

Comunicar a tecnologia ao paciente desde o primeiro momento. A pessoa precisa entender que dados estão sendo coletados, como são processados, quem tem acesso, o que o modelo faz, e o que ele não faz. Transparência reduz desconfiança e aumenta engajamento. Ação concreta nesta semana: redigir um parágrafo de duas a quatro linhas para incluir no termo de consentimento inicial, descrevendo o uso de wearables e modelos preditivos se eles fazem parte da prática, ou explicitando que não fazem se não fazem.

Validar o modelo localmente. Performance reportada em literatura é em populações específicas. Antes de tomar decisão clínica baseada em score, é necessário avaliar como o modelo está funcionando na população atendida pela própria clínica, em pelo menos seis meses de uso paralelo a avaliação tradicional. Ação concreta nesta semana: se você está avaliando alguma plataforma comercial que oferece score preditivo, exigir do fornecedor a publicação dos dados de validação na população em que o modelo será aplicado, com tamanho amostral, distribuição demográfica e métricas por subgrupo.

Manter a decisão final no humano qualificado. Score alto não implica intervenção automática. Implica conversa. Score baixo não implica menos atenção. Implica menos urgência operacional, sem reduzir o cuidado relacional. Ação concreta nesta semana: estabelecer com a equipe uma política escrita de uma página que defina o que o score pode e o que o score não pode disparar como conduta clínica.

Auditar viés algorítmico em ciclos definidos. A cada seis meses, comparar performance do modelo em subgrupos demográficos. Diferenças significativas exigem retraining, recalibração ou restrição de uso. Ação concreta nesta semana: se já há painel de score operando, agendar agora no calendário a primeira auditoria por subgrupo demográfico para daqui a 180 dias. Sem data marcada, a auditoria não acontece.

Minha opinião

A história da medicina é uma história de ferramentas que aumentaram, em ordens de grandeza, a capacidade clínica de antecipar eventos que antes eram invisíveis. O estetoscópio, o eletrocardiograma, a ressonância magnética, a genética molecular. Cada uma dessas ferramentas, quando chegou, gerou a mesma onda de entusiasmo desproporcional, seguida da mesma onda de ceticismo desproporcional, seguida da mesma e lenta integração crítica que produziu, ao longo de décadas, uma medicina melhor.

Behavioral AI em saúde mental está nessa curva agora. A onda de entusiasmo já passou no campo técnico, embora siga forte na narrativa popular. Estamos entrando na fase de ceticismo, com publicações apontando limitações reais, viés algorítmico, fronteira regulatória, riscos de dependência. Essa fase é saudável. É ela que prepara a integração crítica que vem em seguida.

O que me parece claro é que a pergunta deixou de ser se a tecnologia vai entrar em prática clínica. Está entrando. A pergunta é como ela entra, sob que controle, com que limites éticos, com que transparência para o paciente, com que governança regulatória, e, talvez a pergunta mais subestimada, com que efeito sobre a relação terapêutica entre duas pessoas que agora têm uma terceira presença na sala, o score.

E essa pergunta não é técnica. É política, no sentido pleno da palavra. É decisão coletiva sobre que tipo de saúde mental queremos construir nos próximos anos.

Para profissionais clínicas individuais, há uma escolha mais concreta. Ignorar a tecnologia não é mais opção sustentável em horizonte de cinco anos. Aderir acriticamente também não é, porque é a forma mais rápida de delegar para algoritmo decisões que precisam permanecer humanas. O caminho de quem vai construir prática profissional duradoura passa por estudo técnico sério, validação cuidadosa em contexto local, e clareza profunda sobre o que a ferramenta faz, o que ela não faz, e onde o julgamento humano qualificado continua sendo a peça insubstituível do sistema.

O modelo prevê o episódio. A pessoa decide o que fazer com a previsão. E uma terceira pessoa, que muitos modelos esquecem, decide o que aquilo significa para o vínculo terapêutico construído entre humano e humano.

Gérson Neto. Blueprint Mental.

Dicas de leitura

The End of Mental Illness, Daniel Amen, leitura crítica e provocadora sobre a chegada da neuroimagem e análise computacional à prática clínica, com olhar específico para o que ferramentas mudam e o que não mudam. [VERIFICAR_AFILIADO]

A Era do Cérebro Conectado, Miguel Nicolelis, visão de um neurocientista brasileiro sobre interfaces cérebro-máquina, IA e os limites éticos da leitura computacional do estado mental. [VERIFICAR_AFILIADO]

Inteligência Artificial: o que ela tem de inteligente e o que tem de artificial, Cassio Pennachin, base conceitual acessível sobre o que ML faz, o que ML não faz, e por que confundir os dois leva a expectativa irrealista. [VERIFICAR_AFILIADO]

Referências (O Fundamento)

APA Monitor, AI, neuroscience, and data are fueling personalized mental health care (jan-fev 2026). Disponível em: https://www.apa.org/monitor/2026/01-02/trends-personalized-mental-health-care
Lim, D. et al. Accurately predicting mood episodes in mood disorder patients using wearable sleep and circadian rhythm features. npj Digital Medicine, 7, 324, 2024. https://doi.org/10.1038/s41746-024-01333-z
Lim, J. et al. Using Wearable Device and Machine Learning to Predict Mood Symptoms in Bipolar Disorder: Development and Usability Study. JMIR Medical Informatics, 13, e66277, 2025. https://doi.org/10.2196/66277
McEwen, B. S. Stress, adaptation, and disease: Allostasis and allostatic load. Annals of the New York Academy of Sciences, 840(1), 33-44, 1998. https://doi.org/10.1111/j.1749-6632.1998.tb09546.x
Hickey, B. A. et al. Smart devices and wearable technologies to detect and monitor mental health conditions and stress: a systematic review. Sensors, 21(10), 3461, 2021. https://doi.org/10.3390/s21103461
Topol, E. High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56, 2019. https://doi.org/10.1038/s41591-018-0300-7
Conselho Federal de Psicologia, Resolução CFP nº 09/2024 (regulamenta o exercício profissional da psicologia mediado por TDICs). Disponível em site.cfp.org.br/legislacao.
Anvisa, RDC nº 657/2022 (regularização de Software como Dispositivo Médico). Disponível em anvisalegis.datalegis.net.

Gérson Neto. Blueprint Mental.