Detectar texto gerado por IA tem sido um desafio para pesquisadores e desenvolvedores há muito tempo. Com o rápido avanço de modelos de linguagem grandes (LLMs), como o Gemini Advanced do Google e o GPT-4o da OpenAI, a capacidade de produzir texto semelhante ao humano se tornou cada vez mais sofisticada.

No entanto, um novo estudo de pesquisadores da Universidade de Tübingen e da Universidade Northwestern oferece um avanço na identificação de conteúdo criado por IA.

Ao focar no aumento repentino de vocabulário específico na escrita científica, eles desenvolveram um método para detectar o uso de LLMs com precisão surpreendente. Essa técnica, inspirada em estudos de pandemia que mediram o excesso de mortes, revela como mudanças no uso de palavras podem sinalizar a presença de texto gerado por IA.

Aqui estão palavras comuns em conteúdo gerado por IA
Pesquisadores desenvolveram um método para identificar texto gerado por IA com base em surtos repentinos de vocabulário específico na escrita científica (Crédito da imagem)

Quais são as palavras que revelam o conteúdo da IA?

Para medir essas mudanças, a equipe examinou a frequência de cada palavra anualmente. Ao comparar a frequência esperada de palavras, com base nas tendências pré-2023, com o uso real em 2023 e 2024, eles identificaram um aumento drástico em certos termos. Por exemplo, a palavra “delves” apareceu 25 vezes mais frequentemente em resumos de 2024 do que o previsto. Da mesma forma, “showcasing” e “underscores” tiveram um aumento de nove vezes no uso.

Aqui estão as palavras mais usadas em textos gerados por IA com suas taxas correspondentes de aumento no uso:

  • Investigações – Aumento de 25 vezes
  • Apresentando – Aumento de 9 vezes
  • Sublinhados – Aumento de 9 vezes
  • Potencial – Aumento de 4,1 pontos percentuais
  • Resultados – Aumento de 2,7 pontos percentuais
  • Crucial – Aumento de 2,6 pontos percentuais
  • Entre – aumento significativo (taxa exata não especificada)
  • Adicionalmente – aumento significativo (taxa exata não especificada)
  • Compreensivo – aumento significativo (taxa exata não especificada)
  • Melhorando – aumento significativo (taxa exata não especificada)
  • Exibido – aumento significativo (taxa exata não especificada)
  • Percepções – aumento significativo (taxa exata não especificada)
  • Notavelmente – aumento significativo (taxa exata não especificada)
  • Particularmente – aumento significativo (taxa exata não especificada)
  • Dentro de – aumento significativo (taxa exata não especificada)

Essas palavras se tornaram sinais reveladores do envolvimento da IA, aparecendo com muito mais frequência do que o esperado. Embora a linguagem evolua naturalmente, essas mudanças abruptas são incomuns e frequentemente vinculadas a grandes eventos globais.

Neste caso, o uso generalizado de LLMs levou a uma mudança notável no vocabulário da literatura científica.

Inspiração da análise da pandemia

A abordagem dos pesquisadores se baseia fortemente em técnicas usadas durante a pandemia da COVID-19. Assim como o excesso de mortes foi calculado comparando fatalidades observadas com dados históricos, este estudo compara o uso atual de palavras com tendências históricas para identificar anomalias. Eles analisaram mais de 14 milhões de resumos científicos publicados no PubMed de 2010 a 2024, identificando um aumento significativo em certas palavras a partir do final de 2022, coincidindo com a adoção mais ampla de LLMs.

Os pesquisadores notaram que o aumento de palavras específicas, denominadas “palavras marcadoras”, é um indicador claro do uso de LLM. Esse fenômeno difere de mudanças de vocabulário anteriores ligadas a eventos como a pandemia de COVID-19, que viu um aumento na linguagem pesada de substantivos.

Aqui estão palavras comuns em conteúdo gerado por IA
O aumento de palavras específicas, chamadas de “palavras marcadoras”, é um indicador claro do uso de LLM (Crédito da imagem)

Em contraste, o período pós-LLM viu um pico em verbos, adjetivos e advérbios. Essa mudança destaca como o texto gerado por IA muda sutilmente a textura e o estilo da escrita.

Ao identificar essas palavras marcadoras, os pesquisadores estimam que pelo menos 10% dos resumos científicos em 2024 foram gerados ou significativamente auxiliados por LLMs. Essa estimativa é provavelmente conservadora, pois nem todos os textos assistidos por IA conterão esses marcadores específicos. No entanto, a presença dessas palavras fornece uma métrica confiável para detectar a influência da IA ​​na escrita acadêmica.

Tendências geográficas no uso do LLM

O estudo também revelou variações geográficas na adoção de LLMs. Países como China, Coreia do Sul e Taiwan mostraram uma frequência maior de palavras marcadoras em artigos científicos, indicando que os LLMs são particularmente valiosos para falantes não nativos de inglês. Essas ferramentas ajudam a refinar e aprimorar sua escrita, tornando-a mais polida e pronta para publicação.

Por outro lado, falantes nativos de inglês podem ser mais habilidosos em reconhecer e eliminar esses marcadores, ocultando, assim, seu uso de IA. Essa diferença sugere que, embora os LLMs sejam amplamente usados ​​em todo o mundo, seu impacto é mais pronunciado em regiões onde o inglês não é o idioma principal.


Crédito da imagem em destaque: Freepik

Source: Evite essas palavras a todo custo se não quiser ser pego usando IA