Olá, eu sou o António Lopes e esta é mais uma edição da newsletter Um sobre Zero.
Um apontamento de humor
https://twitter.com/dmmonteiro/status/1643290003097649152
Sim, eu sei, a Páscoa já vai longe, mas esta tem piada.
O meu agente pessoal
Há pouco mais de 20 anos, eu escrevi o meu primeiro artigo científico com o meu colega Sérgio Gaio, sob a orientação do Professor Luís Botelho, a propósito do trabalho de final de curso que eu e o Sérgio tínhamos idealizado.
O artigo, que tinha o título “Personal Access to a WorldWide Agent Network”, foi aceite na “International Joint Conference on Autonomous Agents and Multi-Agent Systems” em 2002 e tinha lá este excerto no resumo (que optei não traduzir para não se perder nada na tradução):
(…) Our vision is an agent network, as widespread as the WWW, and as easy to access as launching a browser in a laptop. Agent networks will be more intelligent than the current Internet but they risk being used only by specialised users. In fact, in order to access the Web, the user just needs to use a browser. But if s/he wants to interact with an agent network, s/he will need personal assistant agents (PA). Undoubtedly, writing a PA does require highly specialised software skills. The Pagoda of Creation is an intelligent web-based system runnable from any browser that easily creates personal assistant agents that will enable non-specialized users to have access to networked societies of agents operating in diverse domains. (…) Personal Assistants will be created from a database of agent templates for a diverse range of application types, accurately described using well-established modelling and representation languages. An agent template contains a model of the application domain, a formal interface specification, a description of the top-level control flow, and decision knowledge. Developers of new agent network application types will provide PA templates for their application types.
Portanto, a nossa visão, já naquela altura, era criar uma espécie de App Store de agentes autónomos inteligentes que pudessem servir como assistentes pessoais.
Na altura, a demonstração que fizemos foi a de um assistente pessoal capaz de pesquisar restaurantes com base em certos parâmetros representativos dos gostos do utilizador. Mas como em 2002 não havia propriamente sites, sistemas ou base de dados que permitissem pesquisar amplamente pelos restaurantes de uma zona, nós também tivemos de simular essa parte com uma base de dados simulada de restaurantes.
A apresentação foi um sucesso e valeu-nos a melhor nota da turma no projeto de final de curso. Na altura, fiquei entusiasmado com a ideia e achava mesmo que tinha descoberto algo extraordinário que ia mudar a Internet.
Escusado será dizer que esta visão era demasiado avançada para aquela altura. Não só aquela frase “writing a PA does require highly specialised software skills” era totalmente exata (e como tal, era um grande entrave para a criação de agentes inteligentes), como em 2002 ainda não havia um uso tão global assim da Internet que pudesse alavancar um mercado de assistentes pessoais que executariam certas tarefas pelos seus utilizadores na Internet.
Mas para mim, a ideia de agentes inteligentes que conseguiam operar autonomamente em nome de um utilizador para executar tarefas ficou-me na mente e trabalhei mais uns aninhos na ideia.
A Web Semântica
Saltando uns aninhos para a frente, no contexto de um projeto Europeu em que estava a participar na altura, fiz parte de grupos de elaboração de standards de várias áreas, incluindo a definição de ontologias para serem usadas naquilo que se decidiu chamar de Web Semântica (Semantic Web).
A Web Semântica consistia numa iniciativa para criar mecanismos que facilitassem que os conteúdos Web pudessem ser mais facilmente processados por máquinas/bots/agentes para assim tentarmos extrair daí valor com a composição de vários serviços para executar tarefas autonomamente em nome de um utilizador. Ou seja, criar uma web “simpática” para os assistentes pessoais. Digamos que acabou por ser um precursor para aquilo que hoje é mais conhecido por Web Services.
Fruto dessa participação nesta iniciativa, acabei por ficar motivado para construir um assistente pessoal que era capaz de usar esses tais serviços da Web Semântica para trazer serviços de valor-acrescentado para o utilizador. E isso foi o fruto do trabalho que desenvolvi para o meu mestrado em 2006. E desta vez, já não tive de simular os serviços que o meu agente usava. A Amazon na altura já disponibilizava alguns serviços públicos de pesquisa de conteúdos, e portanto, o meu agente já fazia uso de serviços reais para assim tentar executar as tarefas que o seu utilizador lhe pedia.
O Inverno dos agentes inteligentes autónomos
Mas a Internet desta altura estava a mudar. O utilizador comum já não era só o consumidor, também produzia conteúdos. E com isso, o crescimento exponencial da Internet obrigou à criação de ferramentas, como os motores de pesquisa, que visavam facilitar a árdua tarefa de encontrar os conteúdos e serviços que o utilizador procurava. Um motor de pesquisa em particular, o Google, mostrou ser tão bom que se tornou NO assistente pessoal da Internet. Tudo o que utilizador precisava, o Google encontrava. E a ideia da Web Semântica acabou por nunca arrancar, porque na verdade, era uma solução para um problema que aparentemente os utilizadores da Internet não tinham.
E eu resignei-me e desisti da Web Semântica e optei por virar-me para outros pastos quando decidi avançar para o doutoramento. A ideia de criar agentes inteligentes autónomos mantinha-se, mas agora eu queria mesmo era explorar o conceito de emergência de inteligência quando se juntam dezenas/centenas/milhares de pequenos agentes inteligentes autónomos.
E eis que em 2011 acabei por terminar o doutoramento na área da coordenação de sociedades não-estruturadas de agentes inteligentes autónomos. Era uma área bastante mais filosófica, mais teórica e muito menos prática que os meus trabalhos anteriores, até porque basicamente assentava numa ideia de que, num futuro distante, nós íamos ter uma sociedade de agentes inteligentes que precisavam de se governar e, portanto, este trabalho propunha algumas abordagens sobre como lidar com esses “problemas” de coordenação.
Contudo, esse futuro agora já não me parece assim tão distante.
Chegaram os verdadeiros agentes inteligentes autónomos?
A tecnologia por trás de serviços como o ChatGPT pode ainda não estar no ponto em que será efetivamente útil para a sociedade no geral (são inúmeros os exemplos de que ainda comete muitos erros), mas já trouxe à superfície uma amostra do potencial que este tipo de modelos tem para ser um motor de raciocínio. Isto é, quando estes modelos são bem conduzidos e lhes é dado o contexto adequado, os resultados que produzem são extraordinários. Eu próprio tenho feito algumas experiências (que em parte são a razão porque eu não consigo encontrar tempo para trabalhar no podcast) e estou empolgado com o potencial que daí advém.
A iniciativa da OpenAI de permitir a integração de plugins no ChatGPT, que no fundo é um momento App Store para o GPT-4, é um exemplo muito concreto disso mesmo. A expansão das capacidades de obtenção de informação e de atuação no mundo virtual do ChatGPT através destes plugins, pintam uma imagem muita clara muito semelhante àquela que eu tinha na minha mente há mais de 20 anos: nós estamos perante o nascimento dos primeiros verdadeiros assistentes pessoais à base de agentes inteligentes autónomos.
E embora ainda estejamos longe disto ter um impacto real na nossa Internet atual, a verdade é que já dá para ter um pequeno vislumbre da mudança de paradigma que aí vem. O que é que acontece quando tivermos um assistente pessoal que consegue autonomamente procurar os serviços que existem, através de plugins, e executar uma tarefa completa para o seu utilizador?
Quão longe está o futuro em que eu digo “dá-me alguns planos de férias para 4 pessoas para junho” e este assistente pessoal é não só capaz de pesquisar os serviços existentes que podem fornecer esta informação, como é também capaz de os usar para construir planos concretos com base no contexto do seu utilizador (orçamento, gostos, características do agregado familiar, etc.). Aos poucos, sites como o Booking.com vão deixar de funcionar no seu interface web normal e vão passar apenas a ser um plugin que os assistentes pessoais poderão usar. Ou então, deixará mesmo de existir porque será estupidamente fácil a qualquer hotel criar o seu próprio plugin que pode ser usado por estes agentes pessoais para interagir diretamente na elaboração de um plano de férias.
E o nosso paradigma de interface com a Internet mudará, aos poucos, para um modelo de assistente pessoal, em que nós deixamos de visitar sites e apps e passamos a interagir apenas com um pequeno agente que corre no nosso dispositivo (que se calhar nem tem de ser um telemóvel) e que está sempre pronto a responder a qualquer um dos nossos pedidos.
Mas onde está a “autonomia”?
Eu sinto o vosso cepticismo, até parece que vos oiço dizer: “Mas o ChatGPT não tem autonomia, ele só faz o que lhe pedem. Como é que poderá atuar dessa maneira em que planeia, decide e atua em nome do utilizador?”. Pois é, agora ainda não faz isso, mas já começam a aparecer as primeiras iniciativas nesse sentido. Já ouviram falar do Auto-GPT?
Tal como o nome indica, o Auto-GPT é uma experiência em tentar perceber como é que se pode usar um modelo de LLM, neste caso a versão 4 do GPT, como o motor de “raciocínio” de um agente autónomo. Isto é, o utilizador pede a execução de uma determinada tarefa, e esta aplicação usa o GPT-4 para “pensar” sobre essa tarefa, como se lhe estivesse a perguntar “se tivesses de executar esta tarefa, como o farias?”, e depois vai usando esses “pensamentos” do modelo para tentar transformar em tarefas simples que possam ser executadas no mundo real, tal como realizar uma pesquisa na internet, contactar um qualquer web service para executar um pedido (fazer uma reserva, por exemplo) ou simplesmente produzir um conteúdo qualquer (gerar uma imagem ou sumarizar um texto). A parte interessante desta experiência é que o agente usa o seu próprio modelo de “raciocínio” para iterar sobre os seus objetivos e refiná-los até conseguir chegar a tarefas exequíveis de acordo com as capacidades que tem.
(Há uma versão web do Auto-GPT, AgentGPT, caso queiram experimentar)
Neste momento, o Auto-GPT, enquanto prova do funcionamento de um agente inteligente e autónomo real ainda é bastante incipiente, até porque as “capacidades” com que está equipado ainda são bastante limitadas. E ainda bem. Tendo em conta que nós não sabemos muito bem como estes modelos executariam as tarefas que lhes pedimos, não convém dar-lhes acesso a super-capacidades que poderiam efetivamente interferir no mundo real.
Mas esta iniciativa é um passo na direção certa para criar aquela visão que eu e o Sérgio tivemos há mais de 20 anos. Quem diria que eu só tinha de esperar 2 décadas para finalmente ver uma ideia destas florescer?
Uma nota extra: é importante não confundir o meu entusiasmo com aquilo que é a investigação nesta área e a aplicação da mesma em produtos comerciais. Tal como referi na última edição da newsletter, a regulamentação é necessária e não se pode simplesmente lançar este tipo de produtos para uso geral sem analisar bem o impacto que isto terá na sociedade. Implementar este tipo de assistentes pessoais baseados em agentes inteligentes autónomos vai precisar ainda de muita investigação em coordenação, segurança e, principalmente, ética. E as entidades governamentais precisam de acompanhar este tipo de iniciativas para as compreender e as saber legislar (mas não como a China está a fazer, ok?).
Notícias Várias
Lembram-se da edição passada da newsletter em que eu falava sobre como uma carta aberta de personalidades, encabeçada pelo Elon Musk, para haver uma pausa na investigação de modelos como o GPT? Pois é, como de costume, o Elon Musk mostrou mais uma vez ser um hipócrita porque, enquanto pedia uma pausa a empresas como a OpenAI e Google, ele estava a trabalhar para fundar a sua próxima empresa, a X.AI, dedicada especialmente à criação de um concorrente do ChatGPT (que pelos vistos se vai chamar TruthGPT) e a comprar GPUs como se não houvesse amanhã. Este gajo está a tornar-se num vilão de um filme de James Bond, mas no mundo real.
A propósito da edição passada da newsletter, é bom ver que a Comissão Europeia está atenta ao Um sobre Zero e está agora preocupada em tomar os primeiros passos para regulamentar sistemas como o ChatGPT.
O desenvolvimento da tecnologia MRNA (e a prova da sua eficácia) durante a pandemia abre agora caminho para possivelmente termos vacinas contra alergias e mesmo para o cancro até ao final da década.
Investigadores da Universidade de Chicago estão a explorar novos tipos de interface homem-máquina, nomeadamente através dos lábios e da língua, que podem contribuir para trazer mais autonomia a pessoas que têm mobilidade muito reduzida ou limitações de comunicação. De forma semelhante, outra iniciativa de investigação na Universidade de Cornell explora como uns óculos especiais conseguem detetar os movimentos da cara enquanto uma pessoa finge que fala (sem emitir sons) para interpretar comandos.
A Google continua focada em criar um produto que vai concorrer com o BingChat, mas está a ficar um pouco para trás na corrida. Na tentativa de conseguir acompanhar o passo, a Google também anunciou que vai fundir as duas entidades internas de investigação em IA, a DeepMind e a Brain numa só entidade para unir esforços e optimizar os recursos nesta área.
A Alemanha está a pensar seguir os passos da Itália no que toca a banir o ChatGPT. Mas entretanto a OpenAI já está a trabalhar para reverter o processo na Itália.
A propósito do tema desta edição da newsletter, esta experiência de criação de uma mini-cidade com agentes autónomos baseados no GPT, está muito engraçada e mostra o potencial do uso destes modelos para gerar agentes autónomos.
Ainda na onda de programas com autonomia, esta iniciativa mostra como é possível ter programas que se auto-corrigem se encontrarem bugs no seu código. Mais uma vez, usando o GPT-4, o programa vai refinando e alterando o seu próprio código até funcionar como esperado.
O Sam Altman já confirmou que a OpenAI não está a trabalhar na versão 5 do GPT, se calhar porque ele acha que esta abordagem já deu o que tinha a dar e que os próximos avanços nesta área terão de vir com abordagens alternativas (e não só aumentar o tamanho dos modelos).
O Reddit vai começar a cobrar para acesso à sua API para prevenir que o treino dos LLMs seja feito com a grande quantidade de conteúdos que são criados na plataforma sem que o Reddit ganhe alguma coisa com isso. Espertos.
Uma música criada através de IA em que se imitavam as vozes do Drake e do The Weeknd, tornou-se viral e logo a seguir desapareceu tão rápido como apareceu. Este é um bom exemplo para iniciar a discussão sobre o copyright de músicas geradas com IA.
A SpaceX lançou pela primeira vez o Starship, o maior rocket alguma vez construído, que, apesar de ter explodido no momento de separação, foi ainda assim considerado um sucesso. A corrida para colonizar Marte está oficialmente aberta.
Recomendações de leituras
Gizmodo - Inside Google's Plan to Kill the Cookie
No episódio 53 do Um sobre Zero (ainda em 2021), eu e o Carlos Morgado falámos sobre este plano da Google de eliminar a utilidade dos cookies nos browsers como mecanismo para recolher informação sobre os utilizadores para depois servir anúncios direcionados. Agora finalmente parece que a Google vai mesmo avançar com isso, e este artigo revela os detalhes da abordagem.
Recomendações de podcasts
Cautionary Tales - The Vigilante and the Air Traffic Controller
Eu não me canso de recomendar os episódios do Cautionary Tales. Não só a narrativa é bastante apelativa (o Tim Harford é brilhante nisso), como se tratam quase sempre de lições muito interessantes e expansíveis a várias áreas diferentes. E este episódio é mais um exemplo disso.
Nota final
Não tenho acompanhado isto, e teve de ser o meu filho mais velho a partilhar comigo, mas adorei a música da Mimicat que vai à Eurovisão. Apesar de ir roubar alguns tons ao Arabian Nights do Aladino, acho que a música está extraordinária. Até pode não ganhar nada na Eurovisão, mas já me conquistou:
Até à próxima!
António Lopes
Ótimo artigo, parabéns! Um momento certamente emocionante de acompanhar