Apple revela IA compacta que opera aplicativos direto no iPhone e Mac

Renê Fraga
5 min de leitura
Photo by Armand Valendez on Pexels.com

Principais destaques

  • Novo modelo Ferret-UI Lite funciona diretamente no dispositivo, sem depender da nuvem
  • Sistema consegue interpretar telas complexas e navegar por aplicativos sozinho
  • Tecnologia pode abrir caminho para uma Siri mais inteligente e privada em 2026

A Apple apresentou um avanço importante no campo da inteligência artificial aplicada a interfaces gráficas.

Pesquisadores da empresa divulgaram detalhes do Ferret-UI Lite, um modelo multimodal com 3 bilhões de parâmetros criado para entender e interagir com aplicativos em celulares, navegadores e computadores, tudo rodando localmente no aparelho.

Mesmo sendo significativamente menor do que muitos concorrentes, o modelo conseguiu igualar ou superar agentes até 24 vezes maiores em testes de desempenho. O resultado reforça uma tendência clara na estratégia da Apple: levar inteligência avançada para dentro do dispositivo, protegendo a privacidade do usuário.

Como o modelo enxerga e entende a tela

O grande desafio para modelos compactos é lidar com a densidade visual das interfaces modernas. Ícones pequenos, textos reduzidos e múltiplos elementos na tela exigem precisão extrema.

Para resolver isso, o Ferret-UI Lite utiliza uma técnica chamada recorte em tempo de inferência. Primeiro, o sistema analisa a tela inteira. Depois, identifica a área mais relevante e faz uma ampliação estratégica, como se estivesse dando um zoom inteligente. Essa abordagem imita o comportamento do olho humano ao focar em detalhes específicos.

O modelo também emprega raciocínio em cadeia, conhecido como chain-of-thought, permitindo dividir tarefas complexas em etapas menores antes de executar uma ação. Isso torna a navegação mais coerente e contextual.

Treinamento com dados sintéticos e simulação de erros

Outro diferencial está no processo de treinamento. Como não há grande volume de dados públicos sobre interações reais com aplicativos, os pesquisadores criaram um sistema interno para gerar cenários simulados.

Quatro funções de IA atuaram em conjunto: uma criava tarefas, outra planejava, uma terceira executava ações e uma quarta avaliava os resultados. O ambiente incluía erros propositais, como toques que não funcionam ou pop-ups inesperados. Isso ensinou o modelo a se recuperar de falhas e continuar a tarefa, tornando-o mais resiliente.

Nos benchmarks, o desempenho chamou atenção. O modelo atingiu 91,6% no ScreenSpot-V2 e superou outros agentes de 3 bilhões de parâmetros no ScreenSpot-Pro por mais de 15 pontos percentuais. Em tarefas de navegação mais complexas, ainda há limitações, mas os números mostram evolução consistente.

O que isso significa para a Siri e a privacidade

O anúncio acontece em meio a expectativas sobre uma grande atualização da Siri. Segundo a Bloomberg, a Apple planeja lançar uma versão reformulada da assistente com o iOS 26.4 na primavera de 2026. A nova Siri deve ser capaz de entender o que está na tela e executar tarefas entre diferentes aplicativos.

Um modelo como o Ferret-UI Lite poderia servir como base técnica para essa transformação. Como ele opera localmente, mensagens, dados bancários ou informações de saúde não precisariam ser enviados para servidores externos.

Essa abordagem reforça o discurso histórico da Apple sobre privacidade como diferencial competitivo. Em vez de depender exclusivamente da nuvem, a empresa aposta em processamento direto no aparelho para manter o controle dos dados nas mãos do usuário.

Ainda assim, os próprios pesquisadores reconhecem limitações. O modelo é eficiente em tarefas curtas e diretas, mas ainda enfrenta desafios em fluxos mais longos e complexos. Mesmo assim, o foco declarado da equipe é tornar agentes de IA menores, mais eficientes e práticos para uso cotidiano.

Se o Ferret-UI Lite chegará ao consumidor final ainda não foi confirmado. Mas o movimento indica claramente que a próxima geração de assistentes digitais poderá ser muito mais autônoma e, ao mesmo tempo, mais privada.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário