EconomyFeaturedNewsTop Stories

Computação contextual: a Apple já tem o produto perfeito para o próximo capítulo da era da IA

Em novembro de 2022, a startup Rewind AI lançou no Product Hunt o seu primeiro produto, também chamado Rewind.

Com a promessa de permitir “encontrar tudo o que você tenha visto, dito ou escutado” no seu Mac, o app era a visão da empresa para o que ela pretendia que fosse “o motor de busca para a sua vida”.

A parte técnica do Rewind era interessantíssima. Compatível apenas com Macs munidos com chips Apple Silicon 1, o Rewind fazia capturas da tela do usuário a cada dois segundos, e aplicava uma tecnologia parecida com a função de Texto ao Vivo do Mac para reconhecer e armazenar em um banco de dados todos os textos presentes na tela 2. Já no caso de reuniões em plataformas como o Zoom, o Rewind rodava o modelo Whisper da OpenAI para transcrever e indexar toda a conversa, associada ao contexto das capturas de tela ao longo do papo.

Demonstração do Rewind.

Feito isso, a galeria de imagens capturadas era transformada em um vídeo com compressão H.264 (que é extremamente eficiente), e todas as transcrições, mapeamentos de textos e outros dados eram armazenados em bancos locais com um tamanho final que chegava a ser 3.750x menor do que se tudo isso fosse armazenado sem compressão. Na prática, segundo a própria empresa, uma captura que originalmente pesaria 10,5GB, acabava pesando menos de 3MB!

Há questões de segurança, privacidade ou mau uso em potencial? Óbvio que sim. Mesma coisa para a questão do consentimento (ou da falta dele) para a coleta da imagem ou do que é dito por terceiros. Esse é um problema que abrange todos os apps desse tipo e que exigirá um debate social muito mais aprofundado conforme essas tecnologias forem tornando-se inevitavelmente ubíquas.

Do lado do cliente, ele podia visualizar uma linha do tempo do próprio uso do computador, ou então usar um campo de busca para encontrar qualquer palavra que tivesse sido dita em uma reunião, ou então que tivesse passado pelo monitor — fosse em um campo de URL, uma página web, um documento, etc.

Impressionante, certo? Os investidores também acharam. Na época do lançamento do app, a Rewind AI já havia levantado mais de US$10 milhões em investimentos, incluindo da badalada a16z. Nos anos seguintes, ela angariou outros US$12 milhões, com uma avaliação de mercado que bateu os US$350 milhões.

Pois bem. O tempo passou e o inevitável aconteceu: além de outras startups terem surgido com produtos parecidos, empresas como a Microsoft e a Apple anunciaram as suas próprias soluções.

Windows Recall e Apple Intelligence

A Microsoft, por exemplo, anunciou o Windows Recall no evento Build de maio de 2024. Ela prometeu uma funcionalidade parecida com a do Rewind, mas com um storytelling muito mais apoiado no hype que acompanha a evolução recente e acelerada da IA. O problema? A coisa toda foi (e ainda é) um desastre.

Segmento da apresentação do Windows Recall na Microsoft Build 2024.

Da controversa decisão de ativar o Recall por padrão no Windows (ou seja, milhões de usuários sequer saberiam que tudo a respeito do uso deles estaria sendo coletado e armazenado) a incompreensíveis brechas de segurança — algo imperdoável para um recurso nativo de um sistema do tamanho do Windows e feita por uma empresa do tamanho da Microsoft —, a funcionalidade segue em beta até hoje e não tem previsão de ser lançada. Algo digno de Apple Intelligence.

E falando na Apple Intelligence, a Maçã apresentou o seu próprio Rewind/Recall em junho de 2024, durante a keynote da WWDC.

Segmento da apresentação da Apple Intelligence contextual na WWDC24.

Com bastante ênfase nas questões de segurança e privacidade, Craig Federighi (chefão de software da Apple) explicou que a empresa recorria a técnicas como embeddings 3 e índices semânticos 4 para dar aos modelos a capacidade de recuperar rapidamente os dados, mensagens e informações relevantes, a fim de entregar uma resposta ou até mesmo executar algum tipo de ação para o usuário. Em janeiro de 2025, seguimos esperando.

Pivot!

Dado que era inevitável que tanto o macOS quanto o Windows passariam a contar com soluções nativas, a Rewind fez a manobra favorita dos startupeiros: ela pivotou! Ou, pelo menos, parcialmente.

Anúncio do Limitless Pendant.

Além de ter trocado o nome da empresa para Limitless, ela lançou o Pendant: uma espécie de microfone de lapela que captura, transcreve e armazena tudo o que o usuário diz — ou o que é dito perto dele — para complementar a captura do Rewind no Mac. De acordo com a Limitless, o Pendant serve para complementar o registro do histórico de vida do usuário, nos momentos em que ele não está usando o computador.

Bem, estrategicamente, a Rewind Limitless trocou seis por meia dúzia. Isso porque, para a surpresa de ninguém, o Pendant não é o único produto que vem tentando fazer algo assim. No último ano, vimos um festival de protótipos, um mais escabroso que o outro, tentando valer-se do potencial de LLMs 5 para aplicações do cotidiano do usuário para além do PC ou celular:

No ano passado, a desconhecida startup Friend virou motivo de piada quando o fundador revelou que, dos US$2,5 milhões que ele havia recebido em investimento, tinha destinado US$1,8 milhão à compra do domínio friend.com. E isso foi antes de eles lançaram o vídeo acima, que fez o domínio parecer o menor dos problemas.

“E se a gente lançasse um Mentos com IA para a pessoa colar na testa? Na comunicação, a gente faz parecer que a mulherada vai morrer de desejo pelos nossos usuários!” E assim, aparentemente, nasceu o Omi. E esse nem é o exemplo mais absurdo do vídeo acima.

Comparada com os concorrentes, a pulseira Bee AI acaba parecendo normal. Ainda assim, esta provavelmente será a primeira e a última vez que você verá uma.

O problema de todos esses produtos é que, salvo algumas exceções que sempre existem no mercado de early adopters de tecnologia, ninguém realmente vai sair usando um negócio desses no braço, em volta do pescoço ou grudado na cabeça apenas para poder ficar conversando com uma API 6 do ChatGPT por meio de notificações no celular.

Isso, por outro lado, não invalida o fato de que ter um sistema de aprendizado de máquina coletando e indexando o contexto vivido do usuário para disponibilizar a recuperação posterior de informações é algo muito, mas muito poderoso.

E a coisa fica ainda mais interessante quando, além do contexto sonoro do usuário, acrescentamos à receita algo que só se tornou tecnicamente viável em larga escala no último ano: vídeo. Ou melhor, visão computacional aliada a LLMs.

Computação contextual

Se você já teve curiosidade de testar o modo de visão do ChatGPT, já deve ter sacado o potencial desse tipo de interação. Abra um cardápio, diga que você tem alergia a amendoim ou intolerância a lactose, e pergunte se há algo que você não pode consumir. Folheie o cardápio. Pergunte sobre pratos na página atual ou em páginas anteriores. Repare na velocidade que o modelo analisa os itens, pratos e ingredientes à vista da câmera para gerar as respostas. Por vezes, ele também alerta sobre ingredientes que não estão listados, mas que frequentemente estão associados às receitas do cardápio.

Se esse experimento parece familiar, é porque ele lembra o Project Astra que o Google apresentou durante a Google I/O de 2024. Nele, a pessoa pediu ajuda do Gemini para encontrar um par de óculos que havia aparecido em algum momento durante a interação com o modelo e, uma vez encontrados os óculos, o Google mostrou que o próprio acessório também era munido de um LLM com visão computacional. E é aqui que a coisa começa a ficar legal.

Demosntração do Project Astra na Google I/O 2024.

Como eu já disse algumas vezes, atualmente nenhuma outra empresa está melhor posicionada para abraçar a tecnologia de computação contextual do que a Meta. A começar porque ela já tem um produto no mercado.

Enquanto a Apple jogou uma fortuna no lixo com o Projeto Titan e com o lançamento do Apple Vision Pro uns dez anos adiantado e, enquanto o Google patinava para se organizar frente aos novos paradigmas de pesquisa na era de LLMs, a Meta acabou se vindo com o dispositivo certo, na hora certa, no rosto e em mãos — afinal, os seus óculos conectados já estavam disponíveis para venda.

Daí para embutir a Meta AI na segunda geração do dispositivo, foi um pulo. E, em breve, segundo a companhia, os óculos irão oferecer uma experiência bastante próxima à visão do ChatGPT, em vez de “apenas” fotografar o que está na frente do usuário quando ele pede ajuda com a identificação de alguma coisa.

Mas e a Apple?

É evidente que não existe a menor chance de a empresa lançar um par de óculos conectados munidos de câmeras e IA com visão computacional tão cedo. Por outro lado, ela já tem na sua linha de produtos um dispositivo que as pessoas estão amplamente acostumadas a usar na cabeça, que é tão socialmente bem-aceito quanto um par de óculos, e que seria perfeito para saber exatamente para onde o usuário está olhando, capturar esse contexto e, se necessário, responder.

Obviamente, falo dos AirPods.

É claro que, nesse caso de uso, a intenção não seria permitir a captura de fotos para o usuário sair postando por aí 7, mas sim apenas ter a habilidade de “enxergar” e interpretar o que está à frente da pessoa, assim como a visão do ChatGPT já faz, os óculos da Meta farão em breve e o Google pretende fazer com o Project Astra.

Unindo essa habilidade ao contexto que a Apple Intelligence já saberá a respeito do usuário com base em todas as informações armazenadas no índice semântico, o potencial para ajudar em tarefas do dia a dia é gigantesco. E somando isso ao potencial de dar ainda mais autonomia a pessoas que dependem de funcionalidades de acessibilidade, as possibilidades tornam-se quase infinitas.

Detalhamento técnico da arquitetura da Apple Intelligence.

Existem desafios técnicos para que isso se torne realidade? Sem dúvida. A bateria gasta por uma câmera ligada o tempo inteiro não é algo trivial; o processamento disso teria que ser feito no iPhone, por motivos óbvios; e o armazenamento desse volume de informações seria exponencialmente maior do que algo baseado apenas em textos.

De quebra, há questões legais e sociais importantíssimas, e que variam de país para país: ainda que, em comparação à época do Google Glass, todos estejamos mais acostumados com a ideia de que as pessoas levam consigo dispositivos munidos de múltiplas câmeras para todos os lugares, isso ainda é diferente de conversar com alguém que tenha uma câmera apontada para você durante 100% do tempo, quer você queira, quer não. E ao contrário de óculos, que não são falta de educação você usar enquanto conversa com alguém, esse nem sempre é o caso dos AirPods.

Seja como for, uma coisa é certa: é absolutamente inevitável que a computação contextual esteja caminhando a passos largos na nossa direção, e o benefício de ter agentes de IA à disposição para ajudar em qualquer tarefa, a qualquer momento e de forma proativa, será uma verdadeira revelação 8.

Resta torcer para que a Apple não perca mais essa oportunidade, porque as ferramentas (quase) todas, ela já tem.

Comprar
AirPods Pro 2
de Apple
Preço à vista: R$2.339,10
Preço parcelado: R$2.599,00 em até 12x

NOTA DE TRANSPARÊNCIA: O MacMagazine recebe uma pequena comissão sobre vendas concluídas por meio de links deste post, mas você, como consumidor, não paga nada mais pelos produtos comprando pelos nossos links de afiliado.

Notas de rodapé

1    Por conta da aceleração de hardware para tarefas de codificação de dados.
2    Valendo-se da API ScreenCaptureKit do macOS, o app não armazenava conteúdos como janelas de navegação privada, ou apps que o usuário tivesse cadastrado como proibidos, com por exemplo um 1Password da vida.
3    Representações vetoriais de dados.
4    Um método mais organizado de estruturar informações, mas que geralmente usa embeddings como base.
5    Large language models, ou modelos de linguagem em grande escala.
6    Application programming interface, ou interface de programação de aplicações.
7    Mesmo quem usa os óculos da Meta diz que é difícil acertar o enquadramento quando tenta fotografar algo.
8    Imagine a IA ver a quantidade de comida que você colocou no prato e já cadastrar tudo certo no MyFitnessPal. Mesma coisa para o Waterminder. Ou imagine ela observar o seu trabalho para registrar o tempo gasto em cada projeto, e atualizar tabelas do Jira e do Trello. Ou ela saber quanta água você colocou em quanto arroz e em qual temperatura, e ativar um timer. Ou ajudar na escolha de uma roupa. Ou não lhe deixar esquecer algum objeto em casa. As pequenas aplicações práticas são infinitas e, no fim das contas, é a entrega da promessa de assistentes virtuais desde o começo.
Facebook Comments Box