Os pesquisadores da Apple foram co-autor de um novo estudo demonstrando melhorias significativas de desempenho em um modelo de linguagem de grande código aberto (LLM), empregando uma técnica de produtividade simples: instruindo o LLM a verificar seu próprio trabalho usando listas de verificação.

O estudo investiga o reino do refinamento do LLM, que normalmente envolve um processo pós-treinamento conhecido como aprendizado de reforço com o feedback humano (RLHF). O RLHF depende de gravadores humanos que fornecem feedback, como polegares para cima ou polegares para baixo, para avaliar as respostas do modelo. Esse feedback ajuda o LLM a aprender quais respostas são consideradas mais desejáveis, aumentando assim sua utilidade geral.

O campo mais amplo de “alinhamento” desempenha um papel crucial nesta fase pós-treinamento, concentrando-se em garantir que os LLMs se comportem de maneira útil e segura. Um modelo desalinhado pode aprender a manipular o feedback humano, gerando saídas que parecem corretas superficialmente, mas não conseguem abordar a tarefa subjacente de maneira eficaz.

Embora existam vários métodos para melhorar a confiabilidade e o alinhamento de um modelo durante os estágios pré-treinamento, treinamento e pós-treinamento, este estudo se concentra especificamente no RLHF.

Intitulado “As listas de verificação são melhores do que os modelos de recompensa para alinhar modelos de linguagem”, o estudo da Apple apresenta um esquema de aprendizado de reforço baseado na lista de verificação, chamado de aprendizado de reforço com o feedback da lista de verificação (RLCF). Essa abordagem avalia as respostas em uma escala de 0 a 100, com base em quão bem elas satisfazem cada item na lista de verificação. Os resultados iniciais indicam resultados promissores.

According to the researchers, “We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks – RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard. These results establish Feedback da lista de verificação como uma ferramenta -chave para melhorar o suporte dos modelos de idiomas de consultas que expressam uma infinidade de necessidades. ”

As descobertas do estudo têm significado particular para os assistentes movidos a IA, que estão prontos para se tornar a interface principal através da qual milhões de usuários interagem com seus dispositivos. Os pesquisadores enfatizam que “os modelos de idiomas devem seguir as instruções do usuário para serem úteis. Como o público em geral integra assistentes baseados em modelos de idiomas na conclusão das tarefas diárias, existe uma expectativa de que os modelos de idiomas possam seguir fielmente as solicitações dos usuários. À medida que os usuários desenvolvem mais confiança na capacidade dos modelos de atender a atenção específica.

Um aspecto essencial do estudo está no método usado para gerar as listas de verificação e atribuir pesos importantes a cada item. Este processo é facilitado por um LLM. Com base em pesquisas anteriores, os pesquisadores da Apple geraram “listas de verificação para 130.000 instruções (…) para criar um novo conjunto de dados, WildChecklists. Para gerar respostas candidatas para o nosso método, usamos QWen2.5-0.5b, QWEN2.5-1.5B, QWEN2.5-3B e QWEN2.5-7B.

Essencialmente, os pesquisadores aumentam cada instrução do usuário com uma lista de verificação de requisitos específicos de sim/não. Por exemplo, um item da lista de verificação pode perguntar: “Isso está traduzido para o espanhol?” Um modelo de professor maior marca respostas candidatas a cada item da lista de verificação, e essas pontuações ponderadas servem como sinal de recompensa para ajustar o modelo de aluno.

Os resultados do estudo demonstram que, com os sistemas apropriados para criar listas de verificação otimizadas para cada prompt, os pesquisadores observaram ganhos de até 8,2% em um dos benchmarks usados ​​para testar o método. Além disso, a solução superou os métodos alternativos em vários outros benchmarks.

Os pesquisadores esclarecem que seu estudo se concentrou em “instruções complexas a seguir” e que o RLCF pode não ser a técnica de aprendizado de reforço mais adequada para todos os casos de uso. Eles também reconhecem que seu método utiliza um modelo mais poderoso para avaliar e ajustar um modelo menor, o que representa uma limitação significativa. Mais importante, eles afirmam que “o RLCF melhora a instrução complexa a seguir, mas não foi projetada para o alinhamento de segurança”.

Apesar dessas limitações, o estudo apresenta uma abordagem nova e direta para aumentar a confiabilidade na interação entre humanos e assistentes baseados em LLM. Isso é particularmente crucial, pois esses assistentes adquirem cada vez mais recursos agênticos, onde as instruções e o alinhamento se tornam fundamentais.

O estudo ressalta o potencial de técnicas simples de produtividade, como listas de verificação, para melhorar significativamente o desempenho e a confiabilidade dos LLMs, particularmente no contexto de instruções complexas seguintes e assistentes movidos a IA.

Source: Apple melhora o desempenho LLM usando listas de verificação