Propriedade de qualidade contabiliza a metade dos ganhos de desempenho da IA

Novas pesquisas da MIT Sloan Affiliates indicam que as melhorias no desempenho generativo da inteligência artificial (AI) não são atribuídas apenas aos avanços em grandes modelos de linguagem (LLMS). Um experimento em larga escala revelou que apenas metade dos ganhos de desempenho observada após a transição para um modelo de IA mais avançado surgiu do próprio modelo. A metade restante foi devido à adaptação dos usuários de suas instruções – as instruções escritas fornecidas à IA – para alavancar o novo sistema de maneira eficaz.

Essa descoberta ressalta uma realidade crucial para as empresas: investir em novas ferramentas de IA não produzirá seu valor previsto, a menos que os funcionários também refinem seu uso. O estudo sugere que solicitar é uma habilidade aprendida que os indivíduos podem melhorar rapidamente, mesmo sem instrução formal.

David Holtz, SM ’18, PhD ’21, professor assistente da Universidade de Columbia e afiliado de pesquisa da iniciativa do MIT sobre a economia digital, e co-autor do estudo, afirmou: “As pessoas geralmente assumem que melhores resultados vêm de melhores modelos. O fato de que quase metade da melhoria veio do comportamento do usuário realmente desafia essa crença” ”

O experimento envolveu quase 1.900 participantes que foram designados aleatoriamente para uma das três versões do sistema de geração de imagens Dall-E do Openai: Dall-E 2, o Dall-E 3 mais avançado ou Dall-E 3 com os avisos dos usuários automaticamente reescrito pelo GPT-4 LLM sem seu conhecimento. Os participantes foram encarregados de recriar uma imagem de referência, como uma foto, design gráfico ou obra de arte, digitando instruções na IA. Eles tinham 25 minutos para enviar pelo menos 10 instruções e foram incentivados com um pagamento de bônus pelos 20% melhores dos artistas, incentivando -os a testar e refinar suas instruções.

Os pesquisadores relataram várias descobertas importantes:

Os participantes que usam a versão de base do Dall-E 3 produziram imagens mais semelhantes à imagem de destino em comparação com as geradas pelos usuários do Dall-E 2.
Os participantes que utilizam a linha de base Dall-E 3 escreveram instruções 24% mais longas que as dos usuários do Dall-E 2. Esses avisos também exibiram maior semelhança entre si e continham uma proporção maior de palavras descritivas.
Aproximadamente metade da melhoria na similaridade da imagem foi atribuída ao modelo aprimorado, enquanto a outra metade resultou dos usuários ajustando seus avisos para capitalizar as capacidades dos modelos aprimorados.

Embora este estudo tenha se concentrado na geração de imagens, os pesquisadores acreditam que o mesmo padrão provavelmente se aplicará a outras tarefas, incluindo redação e codificação.

A pesquisa demonstrou que a capacidade de adaptar os avisos ao longo do tempo não era exclusiva dos usuários que conhecem a tecnologia. Holtz comentou: “As pessoas costumam pensar que você precisa ser um engenheiro de software para levar bem e se beneficiar da IA. Mas nossos participantes vieram de uma ampla gama de empregos, níveis de educação e faixas etárias – e mesmo aqueles sem origens técnicas foram capazes de aproveitar ao máximo as capacidades do novo modelo.

Os dados sugerem que solicitação eficaz é mais sobre comunicação clara do que codificar. Holtz observou: “Os melhores Prompters não eram engenheiros de software. Eles eram pessoas que sabiam como expressar idéias claramente no idioma cotidiano, não necessariamente em código”.

Essa acessibilidade também pode contribuir para reduzir as disparidades de desempenho entre usuários com diferentes níveis de habilidade e experiência. Eaman Jahani, PhD ’22, professor assistente da Universidade de Maryland e bolsista digital da iniciativa do MIT sobre a economia digital e co-autor do estudo, observou que a IA generativa tem o potencial de restringir as lacunas de desempenho entre os usuários. “Pessoas que começam na extremidade inferior do [performance] A escala beneficiou mais, o que significa que as diferenças nos resultados se tornaram menores “, disse Jahani.” Os avanços do modelo podem realmente ajudar a reduzir a desigualdade na produção “.

Jahani esclareceu que as descobertas da equipe são aplicáveis a tarefas com resultados claros e mensuráveis e um limite superior identificável para um bom resultado. Ele observou que ainda não está claro se o mesmo padrão se realizaria para tarefas mais abertas sem uma única resposta correta e com recompensas potencialmente significativas, como gerar novas idéias transformadoras.

Uma das descobertas mais inesperadas foi que a reescrita de instruções usando IA generativa levou a uma diminuição significativa no desempenho. O grupo que usou o Dall-E 3 com IA generativa reescrevendo automaticamente seus avisos sofreu uma degradação de 58% no desempenho em comparação com o grupo da linha de base Dall-E 3. Os pesquisadores descobriram que as reescritas automáticas freqüentemente introduziam detalhes estranhos ou alteraram o significado pretendido da entrada do usuário, fazendo com que a IA produza uma imagem incorreta.

Holtz explicou: “[Automatic prompt rewriting] Só não funciona bem para uma tarefa como essa, onde o objetivo é corresponder a uma imagem de destino o mais próximo possível. Mais importante, mostra como os sistemas de IA podem quebrar quando os designers fazem suposições sobre como as pessoas os usarão. Se você codificar as instruções ocultas da ferramenta, elas podem facilmente conflitar com o que o usuário está realmente tentando fazer. ”

As implicações do estudo para as empresas são claras: além de selecionar o modelo de IA “correto”, os líderes devem priorizar a possibilidade de permitir a aprendizagem e experimentação eficazes do usuário. Jahani enfatizou que solicitar não é uma habilidade plug-and-play. “As empresas precisam investir continuamente em seus recursos humanos”, disse ele. “As pessoas precisam se envolver com essas tecnologias e saber como usá -las bem.”

Para maximizar os benefícios da IA generativa, os pesquisadores oferecem várias prioridades importantes para os líderes empresariais que visam melhorar a eficácia do sistema de IA em configurações do mundo real:

Invista em treinamento e experimentação: Somente as atualizações técnicas são insuficientes. Fornecer aos funcionários o tempo e o apoio para refinar suas interações com os sistemas de IA é crucial para obter ganhos completos de desempenho.
Design para iteração: As interfaces do usuário que incentivam o teste, a revisão e o aprendizado – e exibem claramente os resultados – contribuem para melhores resultados ao longo do tempo.
Seja cauteloso com a automação: Embora a reescrita imediata automatizada possa parecer conveniente, ela pode impedir o desempenho em vez de melhorá -la se obscurecer ou substituir a intenção do usuário.

O artigo foi co-autor de estudantes de doutorado do MIT Sloan, Benjamin S. Manning, SM ’24; Hong-yi tuye, SM ’23; e Mohammed Alsobay, ’16, SM ’24; bem como o estudante de doutorado da Universidade de Stanford, Joe Zhang, o cientista social computacional da Microsoft, Siddharth Suri, e o professor assistente da Universidade de Chipre Christos Nicolaides, SM ’11, PhD ’14.

Source: Propriedade de qualidade contabiliza a metade dos ganhos de desempenho da IA

Propriedade de qualidade contabiliza a metade dos ganhos de desempenho da IA

Related Stories

Nova teoria liga a matéria escura a uma quinta dimensão oculta

A caixa de pesquisa do Windows 11 fica menos confusa e com mais controle

Xiaomi lança marca SkyNomad com primeira linha de SUV de alcance estendido

X atualiza algoritmo para priorizar postagens de conexões mútuas