Um detector de IA é um software que estima a probabilidade de um texto ter sido escrito por um modelo de linguagem como ChatGPT, Gemini ou Claude. Ele não lê “intenção” nem descobre verdade: mede padrões estatísticos, previsibilidade de palavras, variação de frases, uniformidade gramatical, e devolve uma pontuação, tipo “82% de chance de ser gerado por IA”. É útil como primeira evidência, mas está longe de ser veredicto. Análise do MIT Technology Review Brasil de setembro de 2025 mostra que mesmo os detectores mais avançados não passam de 70% de acurácia em cenários reais. Entender o que essas ferramentas realmente fazem muda a forma como você lê cada resultado.
Principais pontos:
- Detectores medem perplexidade e variação, não “verdade” do texto
- O resultado é probabilidade estatística, nunca certeza absoluta
- Falsos positivos atingem textos humanos formais com frequência real
- LLMs modernos aprenderam a imitar padrões humanos e burlam detecção
- A leitura correta é evidência, combinada com análise humana
O que quase todos acreditam sobre detectores de IA
A conversa pública sobre detecção de texto artificial se organiza num modelo binário simples: o detector lê o texto, bate um carimbo, e pronto. Humano ou máquina. Aprovado ou reprovado. Estudante honesto ou trapaceiro. Essa leitura aparece em manchetes, em discussões de sala de aula, em políticas de revista científica, e especialmente em reuniões de trabalho onde um gestor pede a um editor pra “rodar no detector” antes de publicar.
A lógica implícita é a do bafômetro. Você sopra, o aparelho mede, e a medição tem status de prova objetiva. Se o detector disse que é 87% IA, o texto é IA. Se disse 12%, é humano. Discussão encerrada.
O problema é que essa analogia está quebrada desde o começo.
Por que essa visão está errada
Detector de IA não se parece nada com bafômetro. Se parece mais com filtro de spam em 2004: funciona razoavelmente bem em média, erra bastante nas bordas, e evolui numa corrida permanente contra quem está do outro lado tentando burlar. A diferença é que o filtro de spam nunca foi usado pra acusar ninguém de fraude acadêmica, e o detector de IA é.
Conforme Rawad Baroud, fundador da ZeroGPT, “um detector de IA não entrega veredicto, entrega evidência estatística: a pontuação é um sinal útil sobre o texto, mas só faz sentido quando o leitor entende o que a ferramenta está medindo e o que ela simplesmente não consegue medir”. Essa distinção entre evidência e veredicto muda tudo. Evidência pede análise complementar. Veredicto pede execução.
A confusão entre as duas coisas explica boa parte dos problemas que aparecem quando ferramentas de detector de IA são usadas como árbitro final.
A máquina mede previsibilidade, não autoria
O coração de qualquer detector de texto IA é o conceito de perplexidade. É uma métrica emprestada da linguística computacional que responde à pergunta: quão surpreendente é cada palavra, dado o que veio antes? Textos escritos por LLMs tendem a ter perplexidade baixa porque o modelo foi treinado justamente pra escolher as palavras mais prováveis. A máquina raramente surpreende a máquina seguinte que lê o texto.
Um ser humano cansado às 23h escrevendo relatório escolhe palavras estranhas. Usa uma gíria no meio do formal. Erra concordância e corrige. Repete substantivo porque esqueceu o sinônimo. Tudo isso gera picos de perplexidade que os detectores interpretam como assinatura humana.
O segundo critério é burstiness, que é praticamente a prima-irmã da perplexidade no nível da frase. Humanos alternam períodos longos e curtos. Largam uma sentença de quatro palavras depois de um parágrafo denso. Quebram ritmo. Modelos tradicionais de IA produziam texto uniforme: frases de comprimento parecido, estrutura gramatical repetida, progressão previsível. O detector procura essa uniformidade como tell.
Soma-se a isso a análise de padrões semânticos: vocabulário reciclado, ausência de erros de digitação, transições excessivamente limpas entre parágrafos, cadência repetida. Nenhum desses indicadores isolados prova nada. Combinados, formam o que a ferramenta entrega como pontuação de probabilidade, às vezes com destaque por frase, indicando quais trechos pesaram mais na estimativa.
O que o detector não mede: se a ideia é boa, se a informação é verdadeira, se a autoria é ética. Tudo isso fica fora do alcance da ferramenta, por definição.
Falsos positivos atingem quem você menos imagina
Aqui a coisa aperta. Texto humano formal tende a ter perplexidade baixa e burstiness reduzida, exatamente o perfil que o detector classifica como IA. Resultado: redação acadêmica cuidadosa, relatório corporativo revisado, e especialmente texto escrito em inglês por falantes não-nativos aparecem marcados como artificiais com frequência preocupante.
Um estudo publicado na revista brasileira Cognitionis (Santana & Jankowitsch) foi na direção oposta do problema e mostrou outra falha: textos gerados por IA e depois manipulados com técnicas simples de camuflagem foram classificados como humanos em até 96% dos casos. Os dois lados do erro coexistem. A ferramenta acusa quem não deveria e absolve quem deveria flagrar.
A matéria do MIT Technology Review Brasil citada acima fecha o cerco: nos testes conduzidos com os principais detectores do mercado, nenhum ultrapassou a barreira dos 70% de acurácia em condições de uso real. Pra contexto, um teste diagnóstico médico com essa precisão dificilmente seria aprovado pra uso clínico, mas detectores com essa margem são usados, cotidianamente, pra decidir se um aluno reprova ou se um freelancer perde o contrato.
A assimetria entre o peso da decisão e a confiabilidade da ferramenta é o cerne do problema. Não o detector em si. O detector faz o que promete: estima probabilidade.
Textos curtos e LLMs novos quebraram o modelo
Duas fronteiras adicionais merecem atenção. A primeira é trivial: detectores precisam de texto suficiente pra estatística funcionar. Fragmentos de 50, 80, 100 palavras entregam estimativas pouco confiáveis, com margem de erro larga o bastante pra anular a leitura. Tweet, legenda de Instagram, e-mail curto, tudo isso está na zona cinzenta onde o detector simplesmente adivinha.
A segunda fronteira é mais séria. Modelos como GPT-4 e GPT-5 aprenderam a imitar burstiness humano. Produzem texto com variação de ritmo, erros ocasionais controlados, pequenas irregularidades calculadas. Os detectores, que foram calibrados em gerações anteriores de modelos mais uniformes, correm atrás. Sempre correm atrás. É uma corrida armamentista: cada versão nova de LLM sofistica a saída, cada atualização de detector recalibra os critérios, e o ciclo se repete.
Quem depende da ferramenta como prova irrefutável está sempre usando uma versão desatualizada da tecnologia, mesmo quando baixou a atualização ontem.
O que os que discordam dizem
Há um contra-argumento honesto a se considerar: se 100% de precisão não é a régua, qual é? Ferramentas médicas, jurídicas e financeiras operam com margens de erro e ainda assim são úteis. Por que exigir perfeição do detector de IA?
É crítica válida. Detectores como ZeroGPT, Originality e GPTZero oferecem valor real quando usados dentro do escopo correto: triagem rápida de grandes volumes de texto, sinalização de casos que merecem análise humana, referência estatística em auditorias editoriais. Nenhum profissional sério vai desprezar 70% de acurácia quando a alternativa é ler 500 redações no olho.
O problema não é a ferramenta existir. É o uso que se faz dela.
Por que, ainda assim, a tese se sustenta
O detector de IA é útil, desde que o leitor do resultado entenda o que está lendo. A pontuação é evidência, não veredicto. Quando um professor recebe “78% de IA” num trabalho, a pergunta correta não é “reprovo?”, é “vale investigar?”. E investigar significa conversar com o estudante, pedir rascunhos, checar histórico de edições no Google Docs, comparar com textos anteriores do mesmo autor. O detector abre a conversa; não a encerra.
A diferença entre essas duas posturas, evidência versus veredicto, separa o uso competente do uso problemático. E essa diferença só existe quando quem aperta o botão sabe o que a ferramenta está realmente medindo por baixo.
O que fica dessa análise
Detectores de IA têm seu espaço, mas estão longe de serem uma resposta definitiva. Eles não identificam autoria com precisão absoluta e não conseguem interpretar intenção, contexto ou qualidade do conteúdo. O que entregam é uma estimativa baseada em padrões estatísticos.
Na prática, isso significa que o resultado deve ser tratado como um sinal, não como prova. Uma pontuação alta indica que o texto merece atenção, mas não confirma uso de IA. Da mesma forma, um resultado baixo não garante que o conteúdo seja totalmente humano.
Ferramentas de detecção de IA são úteis quando usadas como apoio em processos de análise, revisão ou triagem. O erro está em transformar esse tipo de ferramenta em árbitro final, ignorando fatores como histórico do autor, contexto de produção e consistência do conteúdo.
À medida que a inteligência artificial evolui, essa relação tende a continuar. Detectores melhoram, mas os textos gerados também se tornam mais sofisticados. Por isso, entender o que essas ferramentas realmente fazem é o que permite usar seus resultados com mais segurança e critério.
