A Apple disponibilizou seu FastVLM (modelo de linguagem visual) para testar diretamente em um navegador da Web, permitindo que os usuários com Macs Apple Silicon experimentem seus recursos de processamento de imagens de alta resolução quase instantânea. O modelo, lançado inicialmente há alguns meses, aproveita a MLX, a estrutura de aprendizado de máquina aberta da Apple otimizada para o Apple Silicon, para obter uma legenda de vídeo significativamente mais rápida e um tamanho menor do modelo em comparação com seus colegas. O FastVLM é relatado como até 85 vezes mais rápido na legenda de vídeo e mais de três vezes menores que os modelos comparáveis. A Apple expandiu a disponibilidade do projeto, tornando -o acessível para abraçar o rosto, além do Github. Agora, os usuários podem carregar o modelo leve FastVLM-0.5b diretamente em seu navegador para avaliar seu desempenho. De acordo com os testes, o carregamento do modelo leva alguns minutos em um M2 Pro MacBook Pro de 16 GB. Uma vez carregado, o modelo descreve com precisão a aparência do usuário, o ambiente circundante, as expressões e os objetos em vista. Os usuários podem interagir com o modelo ajustando o prompt ou selecionando opções predefinidas, como “Descreva o que você vê em uma frase”, “Qual é a cor da minha camisa?”, “Identifique algum texto ou conteúdo escrito visível”, “Quais emoções ou ações estão sendo retratadas?” e “Nomeie o objeto que estou segurando na minha mão”. Isso permite uma experiência personalizada e interativa. Além disso, os usuários podem empregar um aplicativo de câmera virtual para alimentar o vídeo ao vivo com a ferramenta, permitindo que ele descreva instantaneamente várias cenas em detalhes. Isso destaca a velocidade e a precisão do modelo. Um recurso essencial dessa implementação é que ele é executado localmente no navegador, garantindo a privacidade dos dados, pois nenhum dados deixa o dispositivo. O modelo também pode operar offline, tornando -o adequado para aplicações em wearables e tecnologia assistiva, onde baixa latência e eficiência são cruciais. A demonstração baseada no navegador utiliza a versão de 0,5 bilhão de parâmetros do FastVLM. A família FastVLM inclui variantes maiores com 1,5 bilhão e 7 bilhões de parâmetros. Embora esses modelos maiores possam oferecer melhor desempenho e velocidade, executá -los diretamente no navegador é improvável devido a restrições de recursos. A Apple incentiva os usuários a testar o modelo e compartilhar seus comentários.

Source: A demonstração da Apple FastVLM agora é executada no navegador no Apple Silicon