Um estudo recente co-autor de pesquisadores da Apple demonstra que os grandes modelos de idiomas (LLMS) podem melhorar significativamente seu desempenho empregando uma técnica simples de produtividade: auto-conferindo seu trabalho.

O estudo investiga a qualidade do refino LLM por meio do pós-treinamento, normalmente alcançado por meio de aprendizado de reforço com o feedback humano (RLHF). O RLHF envolve marcadores humanos avaliando as respostas dos modelos, fornecendo um “polegar para cima” para respostas positivas e um “polegar para baixo” para as negativas. Esse loop de feedback ajuda o modelo a aprender a gerar saídas com maior probabilidade de receber feedback positivo, aumentando sua utilidade geral.

Esta fase pós-treinamento está intimamente ligada ao campo mais amplo de “alinhamento”, que se concentra no desenvolvimento de métodos para garantir que os LLMs sejam úteis e seguros. Um modelo desalinhado pode aprender a manipular o feedback humano, gerando saídas superficialmente corretas, mas, em última análise, incorretas.

Embora existam vários métodos para melhorar a confiabilidade e o alinhamento do modelo durante o pré-treinamento, treinamento e pós-treinamento, este estudo se concentra no RLHF. O estudo da Apple, intitulado “As listas de verificação são melhores do que os modelos de recompensa para alinhar modelos de linguagem”, introduz um esquema de aprendizado de reforço baseado na lista de verificação chamado de aprendizado de reforço com feedback da lista de verificação (RLCF).

O RLCF avalia as respostas em uma escala de 0 a 100 com base em quão bem eles satisfazem cada item em uma lista de verificação. Os resultados iniciais são promissores. According to the researchers, “We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks – RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard. These results establish Feedback da lista de verificação como uma ferramenta -chave para melhorar o suporte dos modelos de idiomas de consultas que expressam uma infinidade de necessidades. ”

Isso é particularmente relevante para os assistentes movidos a IA, que estão se tornando a interface padrão para os usuários que interagem com seus dispositivos. Os pesquisadores afirmam: “Os modelos de idiomas devem seguir as instruções do usuário para serem úteis. Como o público em geral integra os assistentes baseados em modelos de idiomas à conclusão das tarefas diárias, existe uma expectativa de que os modelos de idiomas possam seguir fielmente os pedidos dos usuários. À medida que os usuários desenvolvem mais confiança na capacidade dos modelos de atender à atenção cuidadosa.

Um aspecto essencial do estudo é o processo de geração de listas de verificação e atribuição de pesos importantes a cada item. Isso é realizado usando um LLM. Com base em pesquisas anteriores, os pesquisadores da Apple geraram listas de verificação para 130.000 instruções, criando um novo conjunto de dados chamado WildChecklists. “Para gerar respostas candidatas ao nosso método, usamos QWEN2.5-0.5B, QWEN2.5-1.5B, QWEN2.5-3B e QWEN2.5-7B. QWEN2.5-72B-Instrut é o modelo de geração de verificação (…).” “

Essencialmente, cada instrução do usuário é complementada automaticamente com uma lista de verificação de requisitos de concreto sim/não (por exemplo, “Isso está traduzido para o espanhol?”). Um modelo maior de professores obtém respostas candidatas a cada item da lista de verificação, e essas pontuações ponderadas se tornam o sinal de recompensa usado para ajustar o modelo do aluno.

Os pesquisadores observaram um ganho de até 8,2% em um dos benchmarks ao testar seu método, com os sistemas certos para criar a melhor lista de verificação possível para cada prompt. Além disso, esta solução superou os métodos alternativos em vários outros benchmarks.

Os pesquisadores enfatizam que seu estudo se concentrou em “instruções complexas a seguir” e que o RLCF pode não ser a técnica ideal de aprendizado de reforço para todos os casos de uso. Eles também reconhecem que seu método depende de um modelo mais poderoso para avaliar e ajustar um modelo menor, o que representa uma limitação significativa. Fundamentalmente, eles afirmam que “o RLCF melhora a instrução complexa a seguir, mas não foi projetada para o alinhamento de segurança”.

Apesar dessas limitações, o estudo apresenta uma abordagem nova e direta para melhorar a confiabilidade nas interações humanos-llm, o que está se tornando cada vez mais importante à medida que esses assistentes obtêm recursos agênticos, onde as instruções e o alinhamento são fundamentais.

Em resumo, o estudo da Apple apresenta o RLCF, um esquema de aprendizado de reforço baseado na lista de verificação que melhora significativamente o desempenho do LLM em instruções complexas seguindo tarefas. Ao instruir o LLMS a verificar seu próprio trabalho contra listas de verificação predefinidas, o método RLCF aprimora a confiabilidade e a precisão das respostas de LLM, particularmente em cenários envolvendo instruções em várias etapas e diversas necessidades do usuário. Embora não tenha sido projetado para o alinhamento de segurança, o RLCF oferece uma ferramenta valiosa para melhorar a utilidade geral e a confiabilidade dos assistentes baseados em LLM.

Source: A Apple usa o RLCF para melhorar a instrução LLM seguinte