Detectar texto gerado por IA tem sido um desafio para pesquisadores e desenvolvedores há muito tempo. Com o rápido avanço de modelos de linguagem grandes (LLMs), como o Gemini Advanced do Google e o GPT-4o da OpenAI, a capacidade de produzir texto semelhante ao humano se tornou cada vez mais sofisticada.
No entanto, um novo estudo de pesquisadores da Universidade de Tübingen e da Universidade Northwestern oferece um avanço na identificação de conteúdo criado por IA.
Ao focar no aumento repentino de vocabulário específico na escrita científica, eles desenvolveram um método para detectar o uso de LLMs com precisão surpreendente. Essa técnica, inspirada em estudos de pandemia que mediram o excesso de mortes, revela como mudanças no uso de palavras podem sinalizar a presença de texto gerado por IA.
Quais são as palavras que revelam o conteúdo da IA?
Para medir essas mudanças, a equipe examinou a frequência de cada palavra anualmente. Ao comparar a frequência esperada de palavras, com base nas tendências pré-2023, com o uso real em 2023 e 2024, eles identificaram um aumento drástico em certos termos. Por exemplo, a palavra “delves” apareceu 25 vezes mais frequentemente em resumos de 2024 do que o previsto. Da mesma forma, “showcasing” e “underscores” tiveram um aumento de nove vezes no uso.
Aqui estão as palavras mais usadas em textos gerados por IA com suas taxas correspondentes de aumento no uso:
- Investigações – Aumento de 25 vezes
- Apresentando – Aumento de 9 vezes
- Sublinhados – Aumento de 9 vezes
- Potencial – Aumento de 4,1 pontos percentuais
- Resultados – Aumento de 2,7 pontos percentuais
- Crucial – Aumento de 2,6 pontos percentuais
- Entre – aumento significativo (taxa exata não especificada)
- Adicionalmente – aumento significativo (taxa exata não especificada)
- Compreensivo – aumento significativo (taxa exata não especificada)
- Melhorando – aumento significativo (taxa exata não especificada)
- Exibido – aumento significativo (taxa exata não especificada)
- Percepções – aumento significativo (taxa exata não especificada)
- Notavelmente – aumento significativo (taxa exata não especificada)
- Particularmente – aumento significativo (taxa exata não especificada)
- Dentro de – aumento significativo (taxa exata não especificada)
Essas palavras se tornaram sinais reveladores do envolvimento da IA, aparecendo com muito mais frequência do que o esperado. Embora a linguagem evolua naturalmente, essas mudanças abruptas são incomuns e frequentemente vinculadas a grandes eventos globais.
Neste caso, o uso generalizado de LLMs levou a uma mudança notável no vocabulário da literatura científica.
Inspiração da análise da pandemia
A abordagem dos pesquisadores se baseia fortemente em técnicas usadas durante a pandemia da COVID-19. Assim como o excesso de mortes foi calculado comparando fatalidades observadas com dados históricos, este estudo compara o uso atual de palavras com tendências históricas para identificar anomalias. Eles analisaram mais de 14 milhões de resumos científicos publicados no PubMed de 2010 a 2024, identificando um aumento significativo em certas palavras a partir do final de 2022, coincidindo com a adoção mais ampla de LLMs.
Os pesquisadores notaram que o aumento de palavras específicas, denominadas “palavras marcadoras”, é um indicador claro do uso de LLM. Esse fenômeno difere de mudanças de vocabulário anteriores ligadas a eventos como a pandemia de COVID-19, que viu um aumento na linguagem pesada de substantivos.
Em contraste, o período pós-LLM viu um pico em verbos, adjetivos e advérbios. Essa mudança destaca como o texto gerado por IA muda sutilmente a textura e o estilo da escrita.
Ao identificar essas palavras marcadoras, os pesquisadores estimam que pelo menos 10% dos resumos científicos em 2024 foram gerados ou significativamente auxiliados por LLMs. Essa estimativa é provavelmente conservadora, pois nem todos os textos assistidos por IA conterão esses marcadores específicos. No entanto, a presença dessas palavras fornece uma métrica confiável para detectar a influência da IA na escrita acadêmica.
Tendências geográficas no uso do LLM
O estudo também revelou variações geográficas na adoção de LLMs. Países como China, Coreia do Sul e Taiwan mostraram uma frequência maior de palavras marcadoras em artigos científicos, indicando que os LLMs são particularmente valiosos para falantes não nativos de inglês. Essas ferramentas ajudam a refinar e aprimorar sua escrita, tornando-a mais polida e pronta para publicação.
Por outro lado, falantes nativos de inglês podem ser mais habilidosos em reconhecer e eliminar esses marcadores, ocultando, assim, seu uso de IA. Essa diferença sugere que, embora os LLMs sejam amplamente usados em todo o mundo, seu impacto é mais pronunciado em regiões onde o inglês não é o idioma principal.
Crédito da imagem em destaque: Freepik
Source: Evite essas palavras a todo custo se não quiser ser pego usando IA