Lembra do burburinho em torno de gadgets de IA como o Rabbit R1 no ano passado? A ideia de um pequeno dispositivo falante substituindo nossos smartphones era cativante. Embora esses gadgets não tenham cumprido totalmente sua promessa, eles desencadearam uma nova tendência: IA agentic. Agora, gigantes da tecnologia como o Google estão mergulhando de cabeça no desenvolvimento de IA que pode lidar com tarefas para você, como codificação, agendamento de compromissos ou compras online.

O Gemini do Google no Chrome é um passo nessa direção, mas seus recursos são limitados ao navegador. Se você deseja automatizar tarefas em todos os seus aplicativos Android, provavelmente está preso a ferramentas de terceiros complicadas, como o Tasker. O Project Astra, o projeto experimental de IA do Google, visa mudar isso.

No Google I/O, eles mostraram o Astra controlando um telefone Android, encontrando informações e pesquisando no YouTube perfeitamente. Para conseguir isso, o Astra grava a tela e envia comandos para iniciar aplicativos ou rolar páginas.

Embora a demonstração tenha destacado o potencial dos agentes de IA no Android, ela também revelou alguns desafios. O vídeo acelerado sugeriu que o processamento de IA ainda é bastante lento. Isso pode não ser um problema quando suas mãos estão ocupadas, mas pode ser irritante no uso diário. Um agente de IA lento pode deixar seu telefone amarrado e interrupções comuns, como notificações, podem interferir em sua operação.

Uma Nova Estrutura: Controle de Computador

Para resolver esses problemas, o Google está desenvolvendo uma nova estrutura chamada Controle de Computador, projetada para que os agentes de IA controlem os aplicativos Android sem problemas em segundo plano. Ao vasculhar o código do Android, descobri alguns detalhes interessantes sobre esse recurso futuro. O Controle de Computador aproveita o Virtual Device Manager (VDM), introduzido com o Android 13. Esse sistema permite que você crie telas virtuais separadas da tela principal. Os aplicativos podem ser executados nessas telas virtuais e transmitidos para outro dispositivo, que pode enviar comandos como cliques ou pressionamentos de teclado.

Essa estrutura exige que os aplicativos cliente especifiquem as propriedades da tela virtual e se a tela deve permanecer desbloqueada quando o dispositivo estiver bloqueado. Isso permitirá o controle autônomo. Além disso, os aplicativos cliente podem acessar quadros de exibição brutos, que podem ser transmitidos para um dispositivo remoto para análise.

Para privacidade e segurança, o uso do Controle de Computador é restrito a aplicativos confiáveis que possuem a permissão ACCESS_COMPUTER_CONTROL. Essa permissão é concedida apenas a aplicativos assinados com um certificado digital permitido no SO. Antes que um aplicativo possa iniciar uma sessão de Controle de Computador, ele deve obter a aprovação explícita do usuário. Dessa forma, os aplicativos comuns não poderão controlar outros sem sua aprovação.

Embora tenha sido projetado para que clientes confiáveis analisem dados de tela e automatizem tarefas, resta saber como esses clientes controlarão os aplicativos. O processamento será feito em um PC remoto, semelhante ao funcionamento do Rabbit R1? Ou será tratado localmente por um modelo de IA no dispositivo, como o Gemini Nano? Embora o primeiro pareça mais provável, o último seria mais privado, mas poderia sobrecarregar os recursos do dispositivo.

Estou entusiasmado com os esforços do Google para construir uma estrutura adequada para IA agentic no Android. O Controle de Computador tem o potencial de automatizar totalmente seus aplicativos, economizando tempo e melhorando a acessibilidade. Como os agentes de IA nem sempre acertam, o Google incluiu a capacidade de espelhar a automação em uma tela interativa, permitindo que os usuários supervisionem e façam ajustes conforme necessário.