DeepMind testa um cursor com IA que entende a tela

13 maio 2026

up23labs up23labs

O Google DeepMind publicou em 12 de maio de 2026 um post explorando uma ideia de pesquisa: transformar o ponteiro do mouse em uma camada de IA que entende o que está acontecendo na tela. Em vez de ser apenas uma seta que aponta pixels, o cursor passaria a reconhecer contexto, atravessar aplicativos e ajudar o usuário a executar tarefas sem interromper o fluxo.

Quem assina e o que propõe

O post foi assinado por Adrien Baranes e Rob Marchant, pesquisadores do DeepMind. A proposta não é um produto pronto, mas uma exploração sobre como interfaces nativas podem ser desenhadas em torno de modelos como o Gemini (o LLM, ou Large Language Model, da Google). A premissa central é que o cursor já é a primeira coisa que o usuário mexe em um sistema desktop, então faz sentido que ele seja também um ponto de entrada para a IA.

Diferente de um chatbot lateral

A maior parte dos assistentes de IA disponíveis hoje vive em uma janela separada — você abre o ChatGPT, o Claude ou o Gemini, digita um prompt e copia a resposta de volta para o app de origem. Em outros casos, o copiloto fica integrado a um único aplicativo, como o Copilot do Word ou o do Excel.

A proposta do DeepMind é diferente em dois aspectos. Primeiro, ela não é uma janela: é uma camada que segue o cursor onde ele estiver. Segundo, ela atravessa apps em vez de ficar presa a um. Esse ponto importa porque a maior parte das tarefas de conhecimento envolve cruzar informação entre planilhas, e-mails, navegadores e ferramentas internas.

Casos de uso citados no post

O time menciona cenários em que o cursor inteligente pode coletar informação de uma janela, levar para outra e executar uma ação intermediária sem que o usuário precise sair do que está fazendo. Exemplo: extrair um valor de uma página web, trazê-lo para uma planilha aberta e completar um cálculo.

A ideia central é que o cursor entende a tela como um todo, em vez de operar apenas sobre o aplicativo que está em primeiro plano. Esse tipo de fluxo é o que recentemente o mercado tem chamado de “agentes que enxergam a tela”, e que tem ganhado várias implementações distintas.

Como dialoga com Apple, Microsoft e os agentes de tela

A proposta da DeepMind se cruza com movimentos paralelos. O Apple Intelligence aposta em ações contextuais dentro do macOS e do iOS, com a Apple controlando o sistema operacional. A Microsoft tem o Copilot Vision (assistente que enxerga o que está na tela do Windows) e o Recall (recurso que indexa o histórico visual do uso do PC para consulta posterior). Cada empresa explora um ângulo do mesmo problema: levar IA para a superfície do desktop.

A diferença no projeto do DeepMind é que ele foca no cursor em si como elemento de interação, não em uma janela de chat ou em um buscador. É um movimento mais arquitetural do que de produto: trata o ponteiro como uma API de interface entre o usuário e modelos.

Limitações do que foi mostrado

O post não anuncia produto comercial nem cronograma. É explicitamente um trabalho de pesquisa, com protótipos. Detalhes técnicos sobre como o cursor identifica conteúdo em diferentes apps — se via OCR (reconhecimento óptico de caracteres), via APIs de acessibilidade do sistema operacional, ou via captura de tela analisada por um modelo multimodal — não são destrinchados.

Também fica em aberto como a proposta lida com questões de privacidade. Um cursor que enxerga o conteúdo de qualquer janela aberta precisa de uma resposta clara sobre o que sai do dispositivo e o que fica local. O Recall, da Microsoft, já enfrentou críticas por esse tipo de questão.

O que isso significa para quem constrói software

Para desenvolvedores, o sinal mais interessante é a reabertura do debate sobre qual é a superfície certa para IA. A janela de chatbot venceu nos primeiros anos da onda de LLMs, mas não é a única opção. Se a aposta do DeepMind avançar de pesquisa para produto, pode haver novas APIs e SDKs para que aplicativos exponham contexto ao cursor.

A leitura do up23labs é que esse tipo de exploração ainda precisa atravessar a barreira do protótipo. Cursores contextuais são uma ideia recorrente em pesquisa de UX (experiência do usuário) e historicamente esbarram em integração com o sistema operacional e em UX consistente. O fato de o DeepMind tratar a questão publicamente, no entanto, vale acompanhar — sobretudo porque Google tem o Android e Chrome OS como vetores naturais para experimentar uma camada como essa.

Reportado originalmente por Google DeepMind em 12 de maio de 2026.

§ FONTE / SOURCE /

Fonte no corpo do artigo

Esse post foi reescrito a partir da fonte original. Leia o artigo completo no link acima.

Quem assina e o que propõe

Diferente de um chatbot lateral

Casos de uso citados no post

Como dialoga com Apple, Microsoft e os agentes de tela

Limitações do que foi mostrado

O que isso significa para quem constrói software

Compartilhe isso:

Curtir isso:

Posts relacionados § MESMA CATEGORIA

GitHub Copilot migra pra cobranca por uso e AI Credits

AMD volta com 5800X3D, lanca 7700X3D e RX 9070 GRE

xAI lanca Grok Build 0.1, modelo de coding em beta na API

Descubra mais sobre up23labs