A Microsoft anunciou oficialmente em 24 de novembro o seu mais recente modelo de IA Fara-7B, um modelo com 7 mil milhões de parâmetros posicionado como "Agente de Utilização de Computador" (Computer Use Agent, CUA), destacando-se por poder ser executado diretamente no dispositivo local, sem depender de poder computacional na nuvem, enquanto equilibra alto desempenho e privacidade de dados.
Foco na segurança de dados empresariais, suporte para operações com "perceção visual"
O design central do Fara-7B visa satisfazer as necessidades de privacidade e conformidade no processamento de informações sensíveis dos clientes empresariais. Como o modelo é suficientemente compacto para ser executado em computadores pessoais, não só reduz a latência, mas também evita o carregamento de dados para a nuvem, ajudando a implementar automação local em cenários como gestão de contas internas e processamento de documentos confidenciais.
A maior característica deste modelo é a adoção de uma abordagem de "operação por visualização do ecrã" para interagir com websites—lendo o layout da tela através de capturas de ecrã e depois prevendo ações como cliques do rato, entradas ou rolagem. Diferente dos métodos tradicionais que dependem da estrutura do navegador, o Fara-7B baseia-se completamente em dados a nível de pixel para inferência, permitindo que funcione normalmente mesmo em websites com estrutura de código confusa.
Yash Lara, gestor de produto do Microsoft Research, afirma que o Fara-7B realiza a chamada "soberania de pixels" através do processamento local de entradas visuais, permitindo que indústrias altamente regulamentadas como saúde e finanças o utilizem com confiança.
Desempenho testado supera o GPT-4o, modelo menor mais eficiente
No benchmark de teste WebVoyager, o Fara-7B alcançou uma taxa de conclusão de tarefas de 73,5%, superior aos 65,1% do GPT-4o e 66,4% do UI-TARS-1.5-7B. Além disso, o Fara-7B precisa em média de apenas 16 passos para completar tarefas, significativamente melhor que os 41 passos do UI-TARS-1.5-7B, alcançando o equilíbrio ideal entre precisão e eficiência.
O Fara-7B também introduz um mecanismo de "pontos de verificação críticos" (critical checkpoints), que pausa automaticamente e solicita confirmação quando encontra operações relacionadas com dados pessoais do utilizador ou ações irreversíveis (como envio de emails ou transferências de dinheiro), combinado com a interface interativa "Magentic-UI", fornecendo uma linha de defesa segura para colaboração homem-máquina.
Destilação de conhecimento e treino por demonstração de especialistas, reforçando o potencial de aprendizagem autónoma
O Fara-7B utiliza o método de treino de "destilação de conhecimento", integrando 145.000 exemplos de navegação bem-sucedida gerados pelo sistema multi-agente Magentic-One, comprimidos para aprendizagem num único modelo. Além disso, o modelo base é construído sobre o Qwen2.5-VL-7B, com uma janela de contexto máxima de 128.000 tokens, possuindo excelente capacidade de alinhamento de imagem e texto, com o processo de treino focado principalmente na imitação de operações de especialistas humanos.
A Microsoft afirma que no futuro não perseguirá cegamente modelos maiores, mas se dedicará a criar modelos "menores, mais inteligentes e seguros", e planeia introduzir aprendizagem por reforço (RL) para treino autodidata em ambientes sandbox sintéticos.
Já disponível como código aberto, livre para testes comerciais mas ainda não é um produto oficial
Atualmente, o Fara-7B já foi lançado como código aberto sob licença MIT, disponível para download nas plataformas Hugging Face e Microsoft Foundry, permitindo uso em aplicações comerciais. No entanto, a Microsoft também adverte que o modelo ainda não atingiu os padrões de implementação em ambiente de produção, sendo atualmente mais adequado para desenvolvedores usarem em testes de protótipos e verificação de funcionalidades.
- Leitura adicional: Google lança WeatherNext 2, novo modelo de IA para previsão meteorológica, com uso prioritário no Pixel, pesquisa e Gemini
- Leitura adicional: Investigadores descobrem método simples de questionamento para tornar a IA mais criativa, aplicável a qualquer modelo de IA, incluindo ChatGPT e Gemini
- Leitura adicional: Anthropic apresenta o pequeno modelo de IA Claude Haiku 4.5: apenas 1/3 do custo, desempenho comparável ao Sonnet 4, com performance em programação ligeiramente superior


