Pesquisadores do MIT CSAIL desenvolveram o PDDL-Instruct, uma estrutura de ajuste de instrução projetada para melhorar os recursos de planejamento de várias etapas de grandes modelos de idiomas (LLMS). O método combina o raciocínio lógico da cadeia de pensamento com um validador de plano externo para aumentar a geração de planos logicamente válidos sobre saídas plausíveis, mas incorretas. A estrutura treina modelos para reconhecer e explicar por que um plano de candidatos falhou. Essas falhas podem incluir pré -condições insatisfeitas, efeitos incorretos, violações de quadros ou uma meta não cumprida. Esse processo é emparelhado com instruções lógicas da cadeia de pensamento que orientam o LLM a executar a inferência passo a passo sobre as transições de estado e ação. Isso produz sequências rastreáveis de estado → Ação → Estado, escritas como ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩. Para validação externa, o PDDL-Instruct integra o validador do plano Val, que verifica cada etapa do plano gerado. O validador fornece feedback binário (válido/inválido) ou detalhado, com o feedback detalhado resultando em desempenho superior. O sistema usa um processo de otimização de dois estágios. O primeiro estágio penaliza erros nas cadeias de raciocínio, e o segundo estágio otimiza para a precisão do planejamento final. O sistema foi avaliado usando o benchmark do PlanBench, que inclui domínios de planejamento conhecido por desafiar o LLMS, como Blocksworld, Mystery Blocksworld e Logistics. No domínio Blocksworld, um modelo de llama-3-8b ajustado alcançou uma taxa de 94% de geração de planos válidos. Os modelos anteriores tinham validade quase zero no Mystery Blocksworld, um domínio onde os nomes de predicado são ofuscados para impedir a correspondência de padrões. A instrução de PDDL alcançou uma melhoria de 64 vezes nesse domínio. Ganhos de desempenho significativos também foram registrados no domínio logístico. Em todos os domínios de teste, a estrutura forneceu uma melhoria absoluta de 66% em comparação com os modelos de linha de base não auxiliados. Os pesquisadores também observaram que o desempenho melhorou com orçamentos de feedback mais longos e resultados mais detalhados do validador. A implementação atual da instrução PDDL se aplica aos domínios clássicos do PDDL e depende do validador Val como um oráculo externo. Os resultados mostram um método para aterrar o raciocínio LLM em semântica formal para uso em sistemas de agentes que podem incluir um verificador durante o planejamento. Estender a estrutura para lidar com as tarefas de planejamento de longo horizonte, temporal, numérico e sensível a custos continua sendo uma área para mais trabalhos.
Source: O MIT Csail revela a instrução PDDL para planejamento de LLM





