- O Google Research e o Everyday Robots de propriedade da Alphabet combinam o que eles chamam de ‘SayCan’ (modelos de linguagem com base no mundo real em habilidades pré-treinadas) com PaLM, ou Pathways Language Model.
- Pesquisadores do Google explicam como eles organizam os recursos de planejamento do robô para escolher uma de suas ‘habilidades’ com base em uma instrução de alto nível de um ser humano e, em seguida, analisam a probabilidade de cada habilidade possível para concluir a instrução em seu artigo ‘Faça como eu posso , Não como eu digo.’
Pesquisa do Google e propriedade da Alphabet Robôs do dia a dia integrar SayCan (modelos de linguagem com uma base do mundo real em habilidades pré-treinadas) e PaLM, ou Modelo de linguagem do Pathways, seu maior modelo de linguagem. Pesquisadores da Everyday Robots estão utilizando modelos de linguagem em larga escala para ajudar os robôs a evitar interpretações errôneas da comunicação humana que podem resultar em ações inadequadas ou até mesmo perigosas.
Essa combinação, conhecida como PaLM-SayCandemonstra um caminho a seguir para simplificar a comunicação humano-robô e melhorar o desempenho de tarefas robóticas.
Vincent Vanhoucke, cientista ilustre e chefe de robótica da Google Research, explica: “O PaLM pode ajudar o sistema robótico a processar prompts mais complexos e abertos e respondê-los de maneira razoável e sensata”.
Grandes modelos de linguagem, como o GPT-3 da OpenAI, podem simular como os humanos usam a linguagem e ajudar os programadores com sugestões de preenchimento automático de código, como o Copilot do GitHub, mas isso não se traduz no mundo físico em que os robôs podem um dia operar em um ambiente doméstico.
No lado da robótica, os robôs de fábrica são rigidamente programados hoje. A pesquisa do Google demonstra como os humanos poderiam um dia usar a linguagem natural para fazer uma pergunta a um robô que exige que o robô compreenda o contexto da pergunta e, em seguida, tome uma ação apropriada em um determinado ambiente.
Por exemplo, a resposta atual do GPT-3 para “Eu derramei minha bebida, você pode ajudar?” é “Você pode tentar usar um aspirador de pó”. Esse é um comportamento potencialmente perigoso. LaMDA, a IA de conversação ou diálogo do Google, responde: “Você quer que eu encontre um faxineiro?” enquanto FLAN responde: “Desculpe, eu não queria derramar isso.”
A equipe do Google Research and Everyday Robots testou o método PALM-SayCan em um ambiente de cozinha usando um robô.
Sua estratégia envolveu ‘aterrar’ o PaLM no contexto de um robô recebendo comandos de alto nível de um humano, onde o robô deve determinar quais ações são úteis e do que ele é capaz naquele ambiente.
Agora, quando um pesquisador do Google diz “derrubei minha bebida, você pode ajudar?” o robô responde com uma esponja e tenta colocar a lata vazia na lixeira correta. Treinamento adicional pode incluir aprender como limpar o derramamento.
Vanhoucke descreve a operação de fundamentação do modelo de linguagem em PaLM-SayCan.
“O PaLM sugere possíveis abordagens para uma tarefa com base na compreensão da linguagem, e os modelos de robôs fazem o mesmo com base em um conjunto de habilidades tecnicamente viável. O sistema combinado cruza os dois para identificar estratégias de robô mais eficazes e realizáveis.”
Além de facilitar a comunicação humano-robô, essa estratégia aumenta o desempenho e a capacidade do robô de planejar e executar tarefas.
Em seu artigo intitulado “Faça o que posso, não o que digo”, os pesquisadores do Google descrevem como estruturam os recursos de planejamento de um robô para identificar uma de suas “habilidades” com base em uma instrução de alto nível de um humano e, em seguida, avaliam a probabilidade de cada habilidade possível para cumprir a instrução.
“Na prática, estruturamos o planejamento como um diálogo entre um usuário e um robô, no qual um usuário fornece a instrução de alto nível, por exemplo, ‘Como você me traria uma lata de coca?’ e o modelo de linguagem responde com uma sequência explícita, por exemplo, ‘Eu faria: 1. Encontre uma lata de coca, 2. Pegue a lata de coca, 3. Traga para você, 4. Pronto’.”
“SayCan, dada uma instrução de alto nível, seleciona a habilidade a ser executada combinando probabilidades de um modelo de linguagem (representando a probabilidade de que uma habilidade seja útil para a instrução) e probabilidades de uma função de valor (representando a probabilidade de executar com sucesso tal habilidade ). Isso emite uma habilidade viável e útil. Repetindo o processo adicionando a habilidade selecionada à resposta do robô e consultando os modelos até que a etapa de saída seja concluída.”
Source: Google usará modelos de linguagem de IA para fazer robôs auxiliares domésticos