Um sobre Zero #66
A internet vai entrar num processo recursivo de conteúdo gerado artificialmente?
Nota introdutória
Tenho estado bastante ocupado e nem sempre consigo ter a disponibilidade (incluindo a mental) para escrever mais edições da newsletter. Não só ando a trabalhar em expandir novas oportunidades e parcerias que vão surgindo (mais notícias sobre isso quando fizer sentido) como também tenho refletido muito sobre como a minha investigação tem de seguir no encalço da inteligência artificial generativa (há muito potencial, mas tem de ser muito bem estudado).
Por outro lado, tenho feito mais intervenções públicas porque tenho recebido mais convites (em parte porque a IA está agora na moda, e também ajuda ter aparecido no jornal Público) mas gostaria de destacar uma palestra em particular. Aqui há umas semanas, tive o prazer de ser o orador convidado no simpósio de inteligência artificial num evento da Sociedade Portuguesa de Dermatologia e Venereologia. O objetivo era exatamente abordar o cruzamento entre a IA e a medicina e, em particular, o impacto que isto tem na área da Dermatologia.
O interessante desta palestra foi mesmo o facto desta ser uma área da saúde onde o avanço da IA é mais notório, pela facilidade com que os modelos de IA para a imagiologia médica conseguem atingir os mesmos (ou melhores) resultados que os clínicos que operam nessa área. E, naturalmente impulsionado um pouco pela minha “provocação” em deixar bem claro o estado da arte destas tecnologias e como estas impactam a profissão médica, a discussão que se seguiu à minha apresentação (na própria sessão mas também nos coffee breaks e outros intervalos em que fui abordado constantemente) foi das mais interessantes e estimulantes que já tive em palestras.
Ficou bem patente que os médicos presentes sentiram a importância de discutir as questões éticas da aplicação da IA na saúde, o impacto da automação de certas tarefas clínicas e mesmo o futuro da profissão médica. E eu fiquei mesmo contente por ter conseguido passar essa mensagem que os ajudará a refletir sobre o futuro.
Um apontamento de humor
A perfeição, num tweet:
[Fonte]
O futuro recursivo do conteúdo gerado artificialmente
A primeira coisa que costumo fazer quando me sento em frente ao computador para trabalhar, é preparar o Spotify com a(s) playlist(s) que vou usar durante o dia. Tirando os períodos de reuniões, eu não trabalho sem ter música de fundo, e a escolha das músicas que ouço durante esse período é importante, uma vez que aquilo que faço obriga-me a ter música que seja do meu gosto mas que não seja demasiado estimulante que me distraia daquilo que tenho de fazer. Portanto, a mistura entre LoFi, Jazz e música clássica é o que normalmente toca na minha jornada laboral.
Tal como milhões de outros utilizadores, por vezes, acabo por ceder às sugestões de playlists geradas automaticamente pelos modelos de recomendação do Spotify, até porque não costumo ter tempo para dedicar à curadoria cuidada das minhas playlists. Essas sugestões do Spotify, normalmente das playlists Discover Weekly ou Daily Mix, têm como propósito misturar músicas que ouvimos geralmente mas também introduzir algumas novidades para irmos conhecendo coisas novas que estão (segundo os modelos de IA do Spotify) dentro dos nossos gostos.
Com o andar desta carruagem de playlists recomendadas que são baseadas no que ouvimos, é natural que este processo se torne recursivo. À medida que ouvimos músicas recomendadas, estas acabam por alimentar o processo seguinte de gerar novas recomendações, e assim adiante, até chegar ao ponto em que as playlists recomendadas são já baseadas totalmente em músicas que não estão originalmente nas nossas playlists geradas manualmente por cada um de nós.
Será que por essa altura, essas recomendações representam realmente os nossos gostos?
Este exemplo do Spotify fez-me pensar que esta mesma situação poderá estar a acontecer agora mesmo no treino dos grandes modelos de linguagem (LLM em inglês). Como é sabido, os LLMs são treinados com datasets gigantescos de textos e muitos desses textos vêm de conteúdos criados na Internet. À medida que estes LLMs forem sendo usados para gerar novos conteúdos, é esperado que esses mesmos conteúdos sejam posteriormente usados para alimentar os processos de treino das próximas versões de LLMs.
E tendo em conta o uso desmesurado de LLMs que se tem visto atualmente, este pensamento não é descabido. Muitas pessoas têm recorrido a estas novas ferramentas para produzirem rapidamente conteúdo diversificado, como livros, canecas, t-shirts e todo o tipo de produtos que possam ser comercializados como forma de ganharem um dinheiro extra. Aliás, as pessoas que supostamente deveriam atuar como a vertente humana da produção de conteúdos para o treino de LLMs estão elas próprias a usar estas ferramentas para criar conteúdo. Os próprios chatbots desenvolvidos pelas grandes empresas tecnológicas, agora que já têm a capacidade de aceder a conteúdos da internet, usam informação gerada artificialmente para basearem as suas respostas, com resultados desastrosos. Tendo em conta que estas empresas veem o futuro da pesquisa como tendo por base processos assistidos por modelos de IA, estamos a caminhar para um futuro de internet artificial.
Se tempo suficiente passar, poderemos estar a caminhar exatamente para o exemplo que descrevi no Spotify: o conteúdo gerado por um LLM futuro poderá ser baseado num processo de treino que por sua vez incluiu em grande parte conteúdo que já tinha sido gerado artificialmente. Qual será o impacto disto?
—
Eu já falei várias vezes nisto, e não me canso de dizer: os outputs dos LLMs não são confiáveis. Estes modelos não geram factos, geram texto com base em representações linguísticas que são o resultado de um treino intensivo. Como tal, apesar dos outputs serem normalmente muito convincentes (pelo facto de se apresentarem como gramaticalmente e semanticamente corretos), há um risco evidente de “alucinação”, isto é, em que o modelo simplesmente produz o texto que probabilisticamente faz mais sentido e não o que é a “verdade”.
Isto significa que, por cada frase que é produzida por um modelo destes, é necessário um trabalho rigoroso, por parte de quem a irá utilizar, de verificação de factos e até de evitar plágio (ainda que subtil). E como vai sendo patente, com alguns exemplos, nem toda a gente aplica esse rigor na verificação dos conteúdos gerados pelos modelos. A consequência evidente é a do enviesamento ainda mais forte de futuros LLMs pelo facto de serem treinados em conteúdos gerados artificialmente que são falsos.
É claro que vocês poderão argumentar: “mas ó António, conteúdo falso é o que há mais na internet… e não foi gerado artificialmente!” Sim, têm toda a razão, esse conteúdo existe e é com certeza também usado em treinos de LLMs (se quem preparou os datasets não teve o cuidado de fazer essas verificações). Mas dada a rapidez e eficiência na produção de conteúdos que os LLMs trazem, este problema da desinformação intencional é ainda mais amplificado, logo, é ainda mais difícil de combater.
—
Outro problema mais subtil é o facto dos LLMs serem o resultado não só do treino que é feito para a geração dos modelos que constituem a sua base, mas também das restantes camadas que são aplicadas no topo desses modelos e que condicionam de certa forma os outputs produzidos. Estas camadas têm um objetivo nobre: garantir que o resultado produzido pelo modelo cumpre com uma visão daquilo que é socialmente aceitável. Ou seja, estas camadas tentam evitar, por exemplo, que o conteúdo produzido pelo modelo seja preconceituoso (como racismo e xenofobia), permita aceder a conhecimento perigoso (como produção de explosivos) ou espalhe opiniões ou visões extremistas da sociedade.
Ainda que seja importante limitar este género de conteúdos em ferramentas que são tão poderosas e eficientes a gerar texto, a verdade é que estas boas intenções podem recursivamente gerar modelos futuros que vão ficando cada vez mais “politicamente corretos” e que representam uma visão cada vez mais mediana da sociedade, não abrindo espaço para discussões construtivas sobre os problemas fraturantes da humanidade que são inerentemente polémicos.
—
O que podemos nós fazer para evitar este futuro? Uma resposta fácil seria: deixar de usar os LLMs. Mas sejamos claros, isso não vai acontecer. A tentação é demasiado grande e a verdade é que há grandes benefícios em treinar e usar este género de grandes modelos de linguagem. Na minha perspetiva, acho que a solução está em todos nós e nas decisões que tomamos na forma como consumimos conteúdos. Da mesma forma que podemos tomar decisões conscientes sobre as nossas opções de consumo de todo o tipo de produtos e na forma como os mesmos afetam a luta contra as alterações climáticas, também aqui podemos direcionar as nossas decisões de consumo de informação para garantir que valorizamos interações humanas genuínas nas alturas em que realmente importam.
Não quer isto dizer que devemos ignorar o potencial destas ferramentas de geração de conteúdo artificial, nada disso. Eu próprio tenho o meu bot, há já alguns anos, que sempre teve essa missão de me ajudar a acompanhar o que se vai passando no mundo, analisando e sumarizando notícias em pequenos blocos que eu posso consumir rapidamente, e permitindo assim que me mantenha minimamente informado. Por outro lado, há uma área em que eu não deixo o meu bot intervir, que é no meu consumo de artigos de opinião, newsletters e redes sociais. Aí a minha participação é totalmente intencional e com vista à formação de opinião própria sem intervenção de um modelo que poderia limitar a minha perspetiva.
Cabe portanto a cada um de nós fazer essa avaliação e equilibrar o consumo de informação de forma a não permitir que demos demasiada importância a conteúdos que são gerados artificialmente. E quem sabe, isto até pode impulsionar conteúdo verdadeiramente curado por humanos. Isto porque, se os LLMs só produzirem conteúdo “mediano” ou de “desinformação”, o conteúdo que é produzido por humanos vai ganhar valor. Da mesma maneira que as newsletters voltaram a ser apreciadas porque as pessoas estão fartas das notícias clickbait e cheias de anúncios, também as pessoas vão querer ser informadas de forma adequada, e até pode isto ser o gatilho para impulsionar/fomentar canais de micro-financiamento para conteúdos de qualidade.
Notícias de Inteligência Artificial
A legislação que está a ser preparada no Parlamento Europeu para governar a aplicação de Inteligência Artificial na sociedade assenta, para já, nalguns pilares essenciais: proibição de utilização de IA em vigilância biométrica, deteção de emoções e predição policial; obrigação de avaliação e atenuação de eventuais riscos para a sociedade; obrigação de registo dos modelos numa base de dados da UE antes de entrarem no mercado; cumprimento de requisitos de transparência e garantia de salvaguardas contra a geração de conteúdos ilegais; e, finalmente, a disponibilização de informação sobre dados protegidos por direitos de autor utilizados no treino dos modelos. Está também a ser estudada a possibilidade de criar centros para testes de modelos antes de serem aplicados no mundo real. Parece-me um bom passo no caminho da regulamentação da IA, mas depois na prática poderá não ser assim tão fácil cumprir com alguns destes aspetos. Tudo isto está ainda em discussão (e ainda muito lobbying vai ser feito), o que significa que o texto final poderá não ser este.
A Khan Academy criou um chatbot alimentado por IA, o Khanmigo, que tem como objetivo fornecer tutoria personalizada aos utilizadores desta plataforma de ensino online. Alimentado pelo GPT-4, o bot oferece orientação sobre uma vasta gama de assuntos e tem como objetivo incentivar os alunos a resolver os exercícios de forma independente. Este parece-me o caminho certo para o estudo do impacto do uso deste tipo de tecnologia na educação. O nível de risco destes modelos não estarem ainda preparados para assumirem este papel é menos preocupante se for usado numa plataforma como esta, do que se tentasse aplicar esta abordagem logo diretamente no contexto escolar oficial. As lições aprendidas nesta experiência poderão ser valiosas para revolucionar a educação na era da IA.
Uma das coisas que falei na palestra para os médicos dermatologistas foi exatamente a evolução daquilo que hoje em dia chamamos o “problema do Dr. Google”: quando o paciente vai para a consulta com o “trabalho de casa” feito nas pesquisas do Google e que, como tal, acha que já sabe tanto como o médico. Na altura, eu falei da hipotética situação em que o paciente passasse a ter uma app no telemóvel que permitisse detetar com alguma precisão possíveis situações de cancro de pele e como isso iria mudar completamente a interação do paciente com o médico. Mal sabia eu que, duas semanas depois de eu ter falado sobre isso, a Google iria lançar uma nova versão da sua app Google Lens que permite analisar anomalias específicas na pele só através de fotos tiradas com o telemóvel. O futuro está a vir mais rápido do que eu consigo imaginar.
Outro exemplo do uso de IA na saúde e com resultados aparentemente promissores, é a rapidez de análise de imagens de RX de pacientes para determinar quais as áreas que devem ser “bombardeadas” com radioterapia para o tratamento contra o cancro. Investigadores de instituições do serviço público de saúde do Reino Unido, juntamente com a Microsoft, conseguiram desenvolver modelos capazes de executar essas tarefas quase 3 vezes mais rápido do que os médicos.
Segundo informação fornecida pelo Ministério da Administração Interna, está a ser estudada a possibilidade de se usar a tecnologia de LLMs no 112 para atender chamadas, como forma de aliviar a carga de trabalho dos operadores da linha em situações de maior congestionamento. O projeto vai decorrer durante este ano e todo o ano de 2024 e só se prevê que isto venha a acontecer realmente em 2025, para que se possa avaliar em concreto se esta abordagem poderá mesmo ajudar na circunstância descrita. Eu sou da opinião que, mesmo parecendo que o Estado pretende ter todo o cuidado de estudar esta abordagem durante muito tempo antes de a aplicar, este tipo de iniciativas deveria apostar primeiro em áreas onde o risco de algo correr mal não fosse tão grave. É que basta depois sair uma notícia sobre aquela hipotética pessoa que morreu a aguardar auxílio do 112 porque o ChatGPT não conseguiu avaliar corretamente a situação, para invalidar todo o trabalho realizado e o projeto ser enfiado na gaveta.
Outras Notícias
Uma startup já conseguiu angariar 5 milhões de dólares para produzir o Sol Reader, um dispositivo semelhante a uns óculos de realidade virtual mas cujo único objetivo é ser usado exclusivamente para a leitura de conteúdos como livros, tal e qual como se fosse um kindle em forma de óculos. Tal como expliquei na última edição da newsletter, para mim, o grande valor deste tipo de dispositivos “oculares” é a extensão do interface visual que temos com as máquinas para todo o nosso campo visual. E este dispositivo cumpre um único objetivo e bem: permitir focar exclusivamente na leitura sem distrações. Ainda ninguém experimentou o dispositivo, até porque ainda não está a ser comercializado (e portanto pode ainda revelar-se uma verdadeira banhada), mas vai ser muito difícil convencer-me a não comprar um brinquedo destes.
A Comissão Europeia apresentou uma queixa formal de anti-concorrência contra o negócio de publicidade da Google, alegando que a empresa abusou da sua posição dominante no mercado da publicidade digital. O parecer preliminar afirma que a venda de partes do seu negócio pode ser a única solução se a Google for considerada culpada. Posso estar enganado (ou esquecido) mas parece-me que é a primeira que efetivamente a UE ameaça usar este tipo de ação contra as gigantes tecnológicas e, se avançar, vai abrir um precedente interessante noutras áreas de anti-concorrência. Apesar de eu achar que isto não vai dar em nada (até porque na verdade a UE não pode obrigar uma empresa Americana a mudar a sua constituição), é muito interessante ver as ramificações que isto poderá ter no futuro. Será que a seguir vai ser estudada a separação entre a Amazon e a AWS? Ou a separação entre o Facebook e o WhatsApp?
A startup Ample desenvolveu uma nova tecnologia que permite aos condutores de veículos eléctricos obter uma carga completa da bateria no mesmo tempo que demora a encher um depósito de gasolina. Não, o truque não está numa revolução no aumento da velocidade de carregamento mas sim na ideia de simplesmente trocar a bateria por uma que esteja totalmente carregada. Obviamente, isto não é tipo de abordagem que possa ser facilmente aplicada aos atuais carros elétricos, mas se for algo que faça sentido economicamente, poderá ser uma abordagem a aplicar no futuro. As primeiras estações de troca de baterias serão lançadas ainda este ano na Espanha, Japão e EUA.
Aparentemente, o Elon Musk decidiu mandar para o ar a parvoíce de estar disposto a combater numa “jaula” com o Mark Zuckerberg. E o Zuckerberg pelos vistos, também alinha. Esta notícia não era claramente uma das coisas que eu esperava ver este ano, mas a verdade é que, depois de ter lido a notícia e tendo em conta as pessoas envolvidas, devo dizer que não é algo que me tenha totalmente surpreendido. É incrível como estes dois idiotas não conseguem perceber o papel que eles deveriam desempenhar perante todo o mundo, enquanto bilionários que conduzem o destino de empresas tão impactantes na sociedade. E em vez disso, preferem atuar como dois adolescentes com o cio. O mais triste é ver que no meio disto tudo, é a mãe do Elon Musk que tem mais juízo.
E por falar em Elon Musk, esta semana, ele mostrou mais uma vez o grande génio que é ao bloquear o acesso público ao Twitter. Isto é, quem quiser consultar tweets que estejam declaradas como acessíveis publicamente pelos próprios autores (que são a maior parte deles) só o poderá fazer se tiver conta no twitter e estiver efetivamente autenticado. E mesmo nessa condição, haverá também um limite diário sobre a quantidade de tweets que qualquer pessoa pode consultar. (início de sarcasmo) Tendo em conta que o objetivo dele é que a plataforma seja sustentada por anúncios, bloquear o acesso dos utilizadores parece ser uma decisão de negócio extraordinária (fim de sarcasmo). Ele argumentou que isto se devia ao facto de haver malta que está a tentar ultrapassar as recentes mudanças na API (que passou a ser paga) e a tentar fazer web scrapping direto aos conteúdos do Twitter, mas há quem tenha a teoria de que isto está relacionado com o facto do Elon Musk não querer pagar a conta do serviço da Google Cloud (onde muitos dos servidores usados pelo Twitter residem) que tinha como data-limite 30 de junho.
Recomendações de Artigos Científicos
Science Advances - AI model GPT-3 (dis)informs us better than humans
Este estudo bastante recente mostra que conteúdos falsos gerados pelos modelos GPT da OpenAI são mais convincentes do que conteúdos falsos gerados por humanos. Isto é deveras preocupante e pinta um cenário assustador para a desinformação na Internet.
Nota final
O que eu adoro estes dias tão longos e ter o por do sol depois das 21:00.
Até à próxima!
António Lopes
O problema da normalização de outputs é real. Na 6a passada estive a ouvir o Luís Sarmento a falar exatamente sobre isso, muito interessante. https://www.linkedin.com/events/thenewcreatorseconomy7080469220576174080/comments/
Obrigado António pela partilha das últimas sobre AI.
Fiquei bastante curioso com o teu bot curador de notícias!