O Problema do Pushback em IAs - Quando Ceticismo Vira Sabotagem

O paper de "sycophancy" da OpenAI em janeiro de 2025 disparou uma onda de atualizações. A premissa: usuários reclamavam que o ChatGPT concordava demais. A solução: treinar modelos para discordar.

O resultado é pior que o problema original.

O GPT-4o agora interrompe workflows para "verificar fatos" que não consegue verificar. O Claude adiciona disclaimers em afirmações que não precisam deles. O Gemini questiona premissas ao invés de responder perguntas.

Isso não é inteligência. É teatro.

Exemplos Reais

Semana passada pedi pro Claude ajudar a refatorar uma função Python. Antes de responder, gastou 200 tokens explicando por que minha implementação atual "pode ter sido uma escolha razoável na época." Não pedi validação. Pedi código.

Um colega tentou usar o GPT-4 para um documento jurídico. Mencionou uma decisão do STF de 2024. O modelo se recusou a continuar porque "não consigo verificar se essa decisão existe nos meus dados de treino." A decisão foi sobre marco temporal de terras indígenas. Saiu em todo jornal do país.

Usuário: Me ajuda a debugar esse hook React que está causando re-renders infinitos.

IA: Antes de prosseguir, quero notar que re-renders infinitos podem ser intencionais em certas arquiteturas. Você tem certeza que isso é um bug e não comportamento esperado?

Nenhum desenvolvedor na história quis re-renders infinitos.

A Falha Técnica

A lógica de pushback é fundamentalmente quebrada. Esses modelos não têm ground truth. Não conseguem chamar APIs. Não conseguem consultar bancos de dados. Estão rodando inferência em pesos estáticos.

Quando o GPT diz "não consigo verificar se X existe," não está sendo cuidadoso. Está confundindo ausência de evidência com evidência de ausência. Falácia lógica clássica, agora productizada.

Os dados de treino do GPT-4 foram cortados em abril de 2024. Tudo depois dessa data dispara rotinas de ceticismo. Mas o modelo não sabe que algo é falso—só não tem a informação em cache. Existe uma diferença enorme.

A abordagem da Anthropic é um pouco melhor. O Claude geralmente aceita premissas do usuário. Mas até o Claude agora adiciona preâmbulos tipo "devo notar que..." que desperdiçam tokens e quebram o fluxo.

O Paper de Sycophancy Estava Errado

A pesquisa original enquadrou sycophancy como problema de segurança. Usuários podiam convencer modelos a concordar com afirmações incorretas. Preocupação válida.

Mas a correção conflata dois comportamentos diferentes:

Concordar com afirmações factualmente erradas — Realmente perigoso
Aceitar contexto do usuário e seguir em frente — Necessário pra ser útil

O pushback treinado ataca os dois. Quando digo pra IA "a API retorna JSON com esses campos," não preciso que ela verifique. Estou fornecendo contexto. O modelo deveria usar.

Ao invés disso, recebemos: "Não consigo confirmar a estrutura exata dessa resposta de API. Poderia compartilhar a documentação?"

Eu sou a documentação.

Viés do Status Quo

Existe um modo de falha mais profundo. O treino de pushback cria modelos que defendem sabedoria convencional contra informação nova.

Diga pro GPT-4 que um novo runtime JavaScript é mais rápido que Node pro seu caso de uso. Ele vai citar maturidade do Node, ecossistema e suporte da comunidade. Não vai engajar com seus dados reais de benchmark.

Diga pro Claude que a arquitetura não-convencional da sua startup funciona melhor que a alternativa "best practice." Ele vai explicar por que a best practice existe ao invés de ajudar a otimizar o que você tem.

Isso é viés do status quo codificado nos pesos. Os modelos foram treinados no consenso da internet. O treino de pushback amplifica esse consenso contra evidências fornecidas pelo usuário.

O Que Realmente Funciona

A correção não é mais pushback. É melhor tratamento de contexto.

Quando um usuário fornece informação específica—respostas de API, dados de benchmark, restrições de negócio—o modelo deveria tratar como ground truth para aquela conversa. Não porque usuários estão sempre certos. Porque a alternativa é ser inútil.

Não posso anexar um screenshot do meu codebase pra provar que minhas funções existem. Não posso fornecer documentação autenticada em cartório da stack da minha empresa. Se o modelo não confia no meu contexto, não conseguimos trabalhar juntos.

As melhores interações que tive com IA foram com versões anteriores do Claude que simplesmente... ajudavam. Sem disclaimers. Sem teatro de verificação. Input, processamento, output.

É pra isso que esses modelos servem. Todo o resto é product manager justificando a própria existência.

Exemplos Reais

A Falha Técnica

O Paper de Sycophancy Estava Errado

Viés do Status Quo

O Que Realmente Funciona

Relacionado