Usuários sintéticos

Simular mil clientes virtuais antes do lançamento real deixou de ser luxo de big tech. Mas há fronteira sutil entre pré-validar e se enganar com mais precisão — e essa fronteira é comportamental, não técnica.

Terminal · diagnóstico

ERROR LOG:Produtos, campanhas e decisões estratégicas são testados só em realidade, com orçamento real, a custo real — enquanto agentes de IA já podem simular reação de públicos específicos em minutos.
ROOT CAUSE:Aversão à perda ativada pelo medo de errar em público faz a liderança preferir o custo certo de não testar ao custo incerto de testar num simulador que "parece gambiarra".
FAILURE MODE:Sobrestimar realismo dos agentes sintéticos ou subestimar por preconceito — ambos os extremos custam caro.
COMPILE TIME:9 minutos de leitura

Em 2023, quando Joon Sung Park e colaboradores, em Stanford, publicaram um paper chamado Generative Agents: Interactive Simulacra of Human Behavior, a comunidade de pesquisa ficou impressionada com uma demonstração aparentemente lúdica: vinte e cinco agentes generativos vivendo numa vila virtual, tomando decisões, construindo relações, organizando festas de aniversário sem que nenhum humano roteirizasse os eventos. Era demo acadêmica; parecia videogame. O que poucos notaram, fora dos circuitos de Behavioral AI, é que aquele paper inaugurou operacionalmente uma nova camada do stack cognitivo corporativo: a pré-validação comportamental em simulador.

Três anos depois, em 2026, o que era demo virou produto. Synthetic Users, Akkio, Maze AI e dezenas de ferramentas menores oferecem o mesmo serviço com roupas diferentes: você descreve um perfil de público (idade, geografia, psicografia, comportamento prévio); o sistema gera agentes que simulam esse público; você testa produto, campanha, mensagem ou fluxo contra esses agentes; você recebe, em minutos, dados estruturados de resposta que demorariam semanas e custariam dezenas de milhares de reais em pesquisa qualitativa convencional.

A adoção, nos últimos doze meses, saiu do circuito de early adopters e começou a chegar em áreas de marketing de médio porte, equipes de RH testando descrições de vaga, times de UX avaliando versões de onboarding. A ferramenta virou commodity. O que ainda não virou commodity, e esse é o ponto desta edição, é a alfabetização em quando confiar, quando desconfiar, e quando usar apesar da desconfiança.

O que os agentes sintéticos fazem bem (e é mais do que se imagina)

A honestidade intelectual exige começar reconhecendo que os agentes generativos, em 2026, fazem três coisas mensurávelmente bem. Primeiro, produzem reações de padrão populacional a estímulos textuais curtos com razoável fidelidade — um anúncio, uma manchete, uma descrição de produto. Estudos publicados em 2024-2025 mostram correlação acima de 0.7 entre reações sintéticas e reações humanas reais em pesquisas replicadas. Não é perfeito, mas é melhor que a intuição individual de qualquer executivo, em praticamente qualquer teste.

Segundo, geram volume de hipóteses que um humano sozinho não gera. Pedir a cem agentes sintéticos que leiam a descrição do teu produto e gerem cada um uma objeção possível produz, em cinco minutos, um mapa de objeções que a tua equipe de marketing levaria três workshops para construir, e ainda assim com menor diversidade. Não é que os agentes sejam mais criativos — é que eles não têm o viés social de concordar com o chefe.

Terceiro, stress-testam extremos. É possível instruir o sistema a gerar "o pior cliente possível deste produto" ou "a objeção mais devastadora que um jornalista cético faria". Esse tipo de teste de estresse, feito com humanos, exige dinheiro, contato, constrangimento social. Feito com agentes, é barato, imediato e menos enviesado pelo desejo humano de agradar quem pergunta.

O agente sintético não é o cliente. É um espelho barato da população — e espelho bom em dimensões específicas. Princípio operacional

Onde a simulação rigorosamente falha

Mas existe um limite estrutural, e é importante nomeá-lo com clareza. Os agentes generativos são treinados com o que está escrito na internet e em corpora textuais — o que significa que eles são bons em replicar reações articuladas (as que as pessoas dizem que tiveram) e ruins em replicar reações não-articuladas (as que as pessoas tiveram mas não contaram). E, em marketing, em produto, em liderança, as reações que importam mais são justamente as segundas.

Um exemplo banal. Se você pergunta a cem brasileiros se eles pagariam mais por um produto com rótulo de sustentabilidade, setenta por cento dizem que sim. Quando chegam à prateleira, quarenta por cento pagam. A distância entre o dito e o feito é onde o marketing ganha ou perde dinheiro de verdade. Agentes sintéticos, treinados em texto, reproduzem a resposta textual (70% sim) com alta fidelidade. Mas reproduzem mal o comportamento em prateleira (40% compra).

Esse viés — que na literatura de pesquisa se chama social desirability bias embutido no corpus — é estrutural. Não vai ser resolvido pela próxima geração do modelo. Vai ser resolvido só quando os agentes forem treinados com traços comportamentais, não só com traços textuais. Alguns experimentos nessa direção estão em curso (há paper da Anthropic de 2025 testando agentes treinados com dados de tracking real), mas ainda não é commodity.

O viés humano que torna a ferramenta perigosa

Há ainda uma segunda fronteira, dessa vez cognitiva do lado do usuário humano da ferramenta, que precisa ser nomeada. Quando uma liderança recebe os resultados de uma pesquisa sintética — com gráficos, porcentagens, tabelas bonitas —, aciona-se um viés antigo e robusto: o viés de ancoragem numérica. A leitura "62% dos agentes gostaram da mensagem" tende a ser processada como fato calibrado, da mesma categoria cognitiva que "62% dos entrevistados gostaram". E não é a mesma categoria. É uma categoria inteiramente diferente, que precisa ser lida com a mesma desconfiança que se lê uma estimativa de Fermi em post-it.

Combine isso com o viés de automação que Parasuraman descreveu nos anos 1990 — a tendência a aceitar sem atrito o output de um sistema técnico considerado competente — e você tem o coquetel ideal para um erro estrutural: a liderança não toma decisão ruim apesar da ferramenta; toma decisão ruim por causa da ferramenta mal interpretada. O simulador não substitui o risco. Ele realoca o risco de "não validei" para "validei com a precisão errada".

O uso inteligente é triangulação, não substituição

A leitura que defendo, e que tenho visto funcionar em conselhos de advisory no HumanOS Institute, é uma que trata o agente sintético como uma das três camadas de validação, nunca como a única. As três camadas, na ordem de custo crescente e fidelidade crescente:

Camada 1 — agente sintético. Bom para stress-testar extremos, gerar objeções, filtrar variantes obviamente piores. Custo: baixo. Fidelidade: parcial (textual, articulada).

Camada 2 — painel humano leve. 15-30 pessoas reais, recrutadas por critério, respondendo survey breve. Bom para calibrar a resposta textual articulada com dados de gente de verdade. Custo: médio. Fidelidade: média (captura o que as pessoas reportam; ainda não captura bem o que elas fazem).

Camada 3 — teste comportamental em contexto. Lançamento em região-piloto, A/B test com tráfego real, MVP circulando em amostra de mercado. Captura comportamento efetivo. Custo: alto. Fidelidade: máxima.

O uso inteligente de agentes sintéticos é deixar a Camada 1 eliminar os perdedores óbvios e gerar hipóteses, depois validar com Camada 2 o que sobrar, depois arriscar com Camada 3 só o que passou nas duas anteriores. O erro comum é pular da Camada 1 direto para a realidade comercial, confundindo pré-validação textual com validação comportamental. E pular da Camada 1 direto para a decisão, confundindo modelo com mercado.

Patch operacional · triangulação em três camadas

Ação: Não adotar ferramenta sintética como substituta de pesquisa — adotar como primeira peneira de três. Agente sintético elimina perdedores e gera hipóteses. Painel humano leve calibra. Teste de contexto valida.
Indicador: Binário. Cada decisão que usa sintético passou também por camada 2 e 3 antes da execução final? Sim ou não. Onde for "só sintético", o risco é documentado como tal.
Redução de fricção: Template de triangulação: cada novo teste entra com três colunas — sintético (o que disse), humano leve (o que disse), contexto real (o que fez). A decisão final é da terceira coluna; as duas primeiras são filtros de orçamento.
Ganho cognitivo: O viés de ancoragem numérica é neutralizado porque os números sintéticos nunca são tratados como decisão — são tratados como filtro. O córtex pré-frontal não se apega a um número que sabe que é preliminar.
Custo: Agente sintético: US$ 50-500 por teste. Painel humano: R$ 2-5 mil. Teste de contexto: variável. Combinados, ainda são 70-90% mais baratos que pesquisa tradicional completa — e com melhor cobertura de hipóteses.

Delimitação epistemológica

A triangulação se aplica a decisões de produto, mensagem e experiência onde reação textual captura parte substancial do fenômeno (campanhas, copy, descrições de vaga, onboarding). Aplica-se com forte ressalva a decisões em que o comportamento observável diverge sistematicamente do reportável (decisão de compra, adoção de longo prazo, lealdade) — aí o peso da camada 3 sobe muito. Não se aplica a decisões regulatórias, jurídicas ou clínicas, nas quais agente sintético não tem standing metodológico nem garantia epistêmica suficiente.

Minha opinião

Observo, nos projetos de advisory que conduzimos a partir do HumanOS Institute, um padrão que me preocupa: equipes jovens e bem-intencionadas adotando pesquisa sintética como substituta de pesquisa real por uma razão operacional legítima (é mais barato, mais rápido, politicamente menos custoso dentro da empresa). E, em seguida, descobrindo, três meses depois do lançamento, que o "62% gostaram" do simulador virou "17% compraram" da prateleira. O problema não é o simulador. É a leitura.

Agente sintético é excelente primeiro filtro. É péssimo último juiz. Quem entender essa distinção vai construir vantagem competitiva real em 2026. Quem tratar sintético como equivalente a humano vai aprender, pelo caminho caro, que o que as pessoas dizem à IA que farão não é o que elas fazem no caixa.

Dicas de leitura

Generative Agents: Interactive Simulacra of Human Behavior — Park et al., Stanford (2023)
Using Large Language Models to Simulate Human Subjects — Aher, Arriaga & Kalai (2023)
Attitudes vs. Actions — Richard LaPiere (1934) [clássico do gap atitude-comportamento]

Referências (O fundamento)

Park, J. S., O'Brien, J., Cai, C. J., et al. (2023). Generative agents: Interactive simulacra of human behavior. Proceedings of UIST '23.
Aher, G., Arriaga, R. I., & Kalai, A. T. (2023). Using Large Language Models to Simulate Multiple Humans. arXiv:2208.10264.
LaPiere, R. T. (1934). Attitudes vs. actions. Social Forces, 13, 230–237.
Parasuraman, R., & Riley, V. (1997). Humans and automation: Use, misuse, disuse, abuse. Human Factors, 39(2), 230–253.

Dr. Gérson Neto · Blueprint Mental · HumanOS Institute