Evite essas palavras a todo custo se não quiser ser pego usando IA

Detectar texto gerado por IA tem sido um desafio para pesquisadores e desenvolvedores há muito tempo. Com o rápido avanço de modelos de linguagem grandes (LLMs), como o Gemini Advanced do Google e o GPT-4o da OpenAI, a capacidade de produzir texto semelhante ao humano se tornou cada vez mais sofisticada.

No entanto, um novo estudo de pesquisadores da Universidade de Tübingen e da Universidade Northwestern oferece um avanço na identificação de conteúdo criado por IA.

Ao focar no aumento repentino de vocabulário específico na escrita científica, eles desenvolveram um método para detectar o uso de LLMs com precisão surpreendente. Essa técnica, inspirada em estudos de pandemia que mediram o excesso de mortes, revela como mudanças no uso de palavras podem sinalizar a presença de texto gerado por IA.

Aqui estão palavras comuns em conteúdo gerado por IA — **Pesquisadores desenvolveram um método para identificar texto gerado por IA com base em surtos repentinos de vocabulário específico na escrita científica** (Crédito da imagem)

Quais são as palavras que revelam o conteúdo da IA?

Para medir essas mudanças, a equipe examinou a frequência de cada palavra anualmente. Ao comparar a frequência esperada de palavras, com base nas tendências pré-2023, com o uso real em 2023 e 2024, eles identificaram um aumento drástico em certos termos. Por exemplo, a palavra “delves” apareceu 25 vezes mais frequentemente em resumos de 2024 do que o previsto. Da mesma forma, “showcasing” e “underscores” tiveram um aumento de nove vezes no uso.

Aqui estão as palavras mais usadas em textos gerados por IA com suas taxas correspondentes de aumento no uso:

Investigações – Aumento de 25 vezes
Apresentando – Aumento de 9 vezes
Sublinhados – Aumento de 9 vezes
Potencial – Aumento de 4,1 pontos percentuais
Resultados – Aumento de 2,7 pontos percentuais
Crucial – Aumento de 2,6 pontos percentuais
Entre – aumento significativo (taxa exata não especificada)
Adicionalmente – aumento significativo (taxa exata não especificada)
Compreensivo – aumento significativo (taxa exata não especificada)
Melhorando – aumento significativo (taxa exata não especificada)
Exibido – aumento significativo (taxa exata não especificada)
Percepções – aumento significativo (taxa exata não especificada)
Notavelmente – aumento significativo (taxa exata não especificada)
Particularmente – aumento significativo (taxa exata não especificada)
Dentro de – aumento significativo (taxa exata não especificada)

Essas palavras se tornaram sinais reveladores do envolvimento da IA, aparecendo com muito mais frequência do que o esperado. Embora a linguagem evolua naturalmente, essas mudanças abruptas são incomuns e frequentemente vinculadas a grandes eventos globais.

Neste caso, o uso generalizado de LLMs levou a uma mudança notável no vocabulário da literatura científica.

Inspiração da análise da pandemia

A abordagem dos pesquisadores se baseia fortemente em técnicas usadas durante a pandemia da COVID-19. Assim como o excesso de mortes foi calculado comparando fatalidades observadas com dados históricos, este estudo compara o uso atual de palavras com tendências históricas para identificar anomalias. Eles analisaram mais de 14 milhões de resumos científicos publicados no PubMed de 2010 a 2024, identificando um aumento significativo em certas palavras a partir do final de 2022, coincidindo com a adoção mais ampla de LLMs.

Os pesquisadores notaram que o aumento de palavras específicas, denominadas “palavras marcadoras”, é um indicador claro do uso de LLM. Esse fenômeno difere de mudanças de vocabulário anteriores ligadas a eventos como a pandemia de COVID-19, que viu um aumento na linguagem pesada de substantivos.

Em contraste, o período pós-LLM viu um pico em verbos, adjetivos e advérbios. Essa mudança destaca como o texto gerado por IA muda sutilmente a textura e o estilo da escrita.

Ao identificar essas palavras marcadoras, os pesquisadores estimam que pelo menos 10% dos resumos científicos em 2024 foram gerados ou significativamente auxiliados por LLMs. Essa estimativa é provavelmente conservadora, pois nem todos os textos assistidos por IA conterão esses marcadores específicos. No entanto, a presença dessas palavras fornece uma métrica confiável para detectar a influência da IA na escrita acadêmica.

Tendências geográficas no uso do LLM

O estudo também revelou variações geográficas na adoção de LLMs. Países como China, Coreia do Sul e Taiwan mostraram uma frequência maior de palavras marcadoras em artigos científicos, indicando que os LLMs são particularmente valiosos para falantes não nativos de inglês. Essas ferramentas ajudam a refinar e aprimorar sua escrita, tornando-a mais polida e pronta para publicação.

Por outro lado, falantes nativos de inglês podem ser mais habilidosos em reconhecer e eliminar esses marcadores, ocultando, assim, seu uso de IA. Essa diferença sugere que, embora os LLMs sejam amplamente usados em todo o mundo, seu impacto é mais pronunciado em regiões onde o inglês não é o idioma principal.

Crédito da imagem em destaque: Freepik

Source: Evite essas palavras a todo custo se não quiser ser pego usando IA