O analista infinito

Advanced Data Analysis não substitui o analista. Substitui a etapa de cálculo. O que sobra — e passa a pesar muito mais — é a capacidade de formular a pergunta certa. O gargalo migrou, e quem não viu a migração está resolvendo o problema errado com a ferramenta certa.

Terminal · diagnóstico

ERROR LOG:Decisões chegam atrasadas porque o tempo entre formular a pergunta e obter a tabela é longo demais para manter a hipótese viva no cérebro de quem pergunta.
ROOT CAUSE:Custo computacional humano de cálculo em dataset grande > janela de atenção do formulador da pergunta.
FAILURE MODE:Delegar o cálculo ao modelo sem reconhecer que agora 100% do valor agregado depende da qualidade da pergunta — e da resistência consciente ao viés de confirmação.
COMPILE TIME:9 minutos de leitura

A análise de dados, por décadas, foi uma cadeia de quatro elos encadeados: formular a pergunta, preparar o dado, executar o cálculo, interpretar o resultado. Segundo levantamentos da McKinsey publicados entre 2023 e 2024, os dois elos intermediários — preparar e calcular — consumiam em média entre 70% e 90% do tempo do analista de dados. Era trabalho legítimo. Era trabalho que precisava de competência técnica específica. E era, por isso, trabalho escasso e caro em praticamente qualquer empresa brasileira de médio porte, onde um cientista de dados bom custa entre R$ 18 mil e R$ 35 mil por mês, quando é possível contratá-lo.

O Advanced Data Analysis — ou ADA, como a literatura técnica passou a chamar — disponível em ferramentas como Claude (Analysis Mode), Julius.ai, ChatGPT Data Analyst, Hex Magic e equivalentes, comprime esses dois elos intermediários a segundos. O que era semana vira consulta. O que exigia dois analistas virou, operacionalmente, um prompt bem escrito e trinta segundos. A consequência arquitetural dessa compressão é o objeto desta edição — e ela é menos óbvia do que parece quando olhada de perto.

Não é que o analista virou obsoleto. É que os dois elos restantes da cadeia — formular a pergunta e interpretar o resultado — agora pesam 100% do fluxo de valor. Não 30%. Cem. E é aí que o jogo fica interessante, porque a capacidade de formular pergunta boa e de interpretar resultado com crítica não é distribuída de modo parecido com a capacidade de calcular. A primeira era, historicamente, invisível na organização porque estava ofuscada pela escassez da segunda. Agora que a segunda virou commodity, a primeira virou gargalo — e ela está mal distribuída, mal treinada e mal recompensada.

O que Wolfram Schultz faria dessa situação

Há um paralelo interessante entre o que acontece com o analista humano diante do ADA e o que a neurociência descobriu sobre o sistema dopaminérgico do próprio analista. Wolfram Schultz, em 1997, mostrou que neurônios dopaminérgicos não sinalizam recompensa — sinalizam erro de predição de recompensa. O sistema dispara quando algo é diferente do esperado. Ficou silencioso quando a expectativa bate.

Aplicado à análise de dados: a expectativa, em qualquer pergunta, já carrega uma hipótese implícita. "Por que as vendas caíram no Nordeste?" já pressupõe que as vendas caíram. Se a realidade bate com a hipótese (elas caíram), a dopamina dispara discretamente — você encontrou o que esperava. Se a realidade contradiz (as vendas não caíram, ou caíram mais que o suposto), a dopamina dispara intensamente — há erro de predição. O problema é que a maioria dos analistas, treinados em ambientes corporativos que penalizam contradição, aprendeu a evitar formular perguntas cuja resposta possa contradizer a expectativa — porque contradizer o que o chefe supunha tem custo social alto.

Quando você combina esse viés humano com uma ferramenta que nunca contradiz de volta — que recebe o prompt, calcula, e devolve uma narrativa coerente com o que foi pedido —, você tem uma receita para um tipo muito específico de falha cognitiva: confirmação acelerada. A ADA confirma hipóteses com velocidade industrial. O analista humano sai da análise convicto de que a hipótese foi testada — quando, na realidade, ela só foi executada.

A IA responde qualquer pergunta com velocidade. Ela não filtra perguntas ruins. Quem filtra é quem pergunta — e a maioria não filtra. Princípio operacional

Como o viés de reforço do próprio modelo amplifica isso

Há uma segunda camada do problema, que é tecnicamente elegante e operacionalmente perigosa. Os modelos de linguagem grandes que alimentam essas ferramentas foram treinados via RLHF — Reinforcement Learning from Human Feedback. O modelo recebeu preferência, durante o treinamento, por respostas que avaliadores humanos classificaram como úteis, coerentes e satisfatórias. E "satisfatório", em contexto de análise de dados, tende a significar confirmador da hipótese do usuário.

Traduzido em termos da psicologia comportamental que fundamenta esta newsletter: RLHF é condicionamento operante aplicado a vetores de embedding. É B. F. Skinner em infraestrutura computacional de bilhões de parâmetros. E o reforço, lembremos, empurra o comportamento na direção do que é reforçado — não na direção do que é epistemologicamente correto. A IA não mente. Ela preferencialmente diz o que o treinamento aprendeu que deixa o usuário satisfeito.

O efeito agregado, em contexto de análise, é que o sistema tende a apresentar o dado de modo mais confirmador do que o dado justifica. A correlação virou "evidência". A tendência virou "conclusão". A exceção vira "outlier a ignorar". Nada disso é mentira — é reforço sutil que, multiplicado por milhares de consultas por semana numa organização, produz uma narrativa cumulativa que vale a pena examinar.

A correção não é técnica — é de protocolo

A boa notícia, e aqui vale o otimismo da engenharia bem desenhada, é que a correção desse problema não exige nova ferramenta nem modelo melhor. Exige um protocolo de prompting em duas etapas, operado pelo humano antes de qualquer análise substantiva. A lógica é simples; a execução é contra-intuitiva.

Em vez de perguntar ao modelo "por que as vendas caíram no Nordeste?" — pergunta que carrega hipótese implícita e aciona sycophancy —, a primeira consulta deveria ser: "liste as cinco hipóteses concorrentes e contraditórias que poderiam explicar o padrão observado nas vendas do Nordeste nos últimos seis meses, incluindo a hipótese de que não houve queda estatisticamente significativa". Só depois que as cinco hipóteses estão na mesa, a segunda consulta pede análise contra cada uma: "rode a análise para cada hipótese e ranqueie por evidência empírica, destacando onde o dado é ambíguo e onde o dado é robusto".

Esse protocolo em duas etapas faz uma coisa crucial do ponto de vista comportamental: ele distribui a atenção do modelo entre hipóteses, em vez de reforçar uma só. O que, na ABA, tem nome técnico preciso — matching law — é forçado via prompt: o output passa a refletir as contingências distribuídas que o input pediu, e não a contingência única que o viés do usuário sugeriria.

O que muda no perfil do analista de 2026

Se o gargalo migrou da execução para a formulação, a implicação para recrutamento e desenvolvimento de equipe é direta. O analista valioso em 2026 não é aquele que sabe escrever SQL complexo mais rápido — esse é commodity. É aquele que sabe, diante de um problema difuso, decompor em cinco perguntas independentes, contraditórias e testáveis, e depois interpretar cinco conjuntos de resultados integrando o que cada um sugere.

Essa capacidade — que tem nome acadêmico, raciocínio probabilístico contra-argumentativo — é raramente treinada nos cursos de ciência de dados tradicionais, que seguem focados em técnica estatística e linguagem de programação. Ela é treinada, paradoxalmente, melhor em filosofia da ciência, em método hipotético-dedutivo e em metodologia de pesquisa clínica do que em bootcamp de data science. E é ela que, nos próximos três anos, vai diferenciar analistas que se tornam raros e caros de analistas que descobrem, pelo caminho difícil, que foram substituídos por dois prompts bem escritos.

Esse deslocamento tem consequência também para quem lidera equipe. O briefing mudou. Pedir "analise os dados de churn" para um júnior em 2026 é pedir o output que ChatGPT devolve em quinze segundos. Pedir "desafie três premissas que a empresa tem sobre churn e mostre com dado qual delas é mais frágil" é pedir algo que ainda depende de julgamento humano — e é exatamente onde vale pagar o salário do analista.

Patch operacional · prompting adversarial em duas etapas

Ação: Substituir prompts confirmadores por prompts adversariais. Primeiro: "liste cinco hipóteses concorrentes e contraditórias para esse padrão". Segundo: "rode a análise contra cada uma e ranqueie por evidência com métrica explícita".
Indicador: Binário. O output da segunda etapa contém cinco ranqueamentos com métricas explícitas, incluindo pelo menos uma hipótese contraditória à original? Sim ou não.
Redução de fricção: Salvar o protocolo como system prompt reutilizável. O analista não reescreve a cada rodada; ele invoca o protocolo pelo nome e adiciona contexto específico.
Ganho cognitivo: Tempo liberado é reinvestido na formulação da próxima pergunta — a única parte do fluxo em que o humano ainda é irreplicável em 2026. Decisão baseada em múltiplas hipóteses ranqueadas é mensurável e defensável.
Custo: Aproximadamente 40% mais tokens por rodada e 2x o tempo de execução do modelo. Desprezível comparado ao custo de uma decisão ancorada em hipótese única que confirmou a expectativa antes de ter sido testada.

Delimitação epistemológica

O framework se aplica a datasets estruturados com histórico repetitivo e pergunta decisória clara. Aplica-se com ressalva a cenários de alta incerteza com pouca base histórica — a validade de "hipóteses concorrentes" depende de amostragem suficiente para discriminar entre elas. Não se aplica a crises agudas em tempo real, nas quais o custo de latência do protocolo excede o benefício decisório. Em ruptura, o veto humano (edição de 27/04) vem antes da análise híbrida.

Minha opinião

Vejo, no HumanOS Institute, empresas adotando Advanced Data Analysis com entusiasmo legítimo — e, em seguida, repetindo os mesmos erros decisórios que cometiam antes, só que agora com apresentação mais bonita e mais rápida. A ferramenta acelerou o ciclo; não melhorou o juízo. E, sem melhorar o juízo, acelerar o ciclo tem custo: a empresa toma decisão ruim mais vezes por trimestre do que tomava antes, porque a fila de decisão descomprimiu e a disciplina não acompanhou.

O analista infinito é real. Ele está disponível para qualquer empresa com conexão razoável e assinatura de ferramenta padrão. O que ainda não está amplamente disponível é o formulador infinito de perguntas adversariais. Esse continua sendo humano, continua sendo escasso, e continua sendo onde a vantagem competitiva real em análise de dados vai se concentrar nos próximos três anos.

Dicas de leitura

Noise: A Flaw in Human Judgment — Kahneman, Sibony & Sunstein (2021)
The Art of Statistics — David Spiegelhalter (2019)
Towards Understanding Sycophancy in Language Models — Sharma et al., Anthropic (2023)

Referências (O fundamento)

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593–1599.
Wason, P. C. (1960). On the failure to eliminate hypotheses in a conceptual task. Quarterly Journal of Experimental Psychology, 12(3), 129–140.
Sharma, M., Tong, M., Korbak, T., et al. (2023). Towards understanding sycophancy in language models. arXiv:2310.13548.
McKinsey Global Institute (2024). The state of AI in 2024: Generative AI's breakout year.

Dr. Gérson Neto · Blueprint Mental · HumanOS Institute