Leccións sobre intelixencia artificial xenerativa

O noso Colexio organizou xornadas teórico-prácticas na Coruña, Santiago de Compostela e Ferrol dedicadas á historia e manexo desta ferramenta

Ante o impacto e expansión da intelixencia artificial dentro do sector sanitario, o noso Colexio realizou varias sesións teórico-prácticas entre os seus membros para facilitar a súa comprensión e animar ao uso destas ferramentas. As clases estiveron limitadas a un máximo de 15 persoas e celebráronse nas sedes da Coruña —27 de xaneiro—, Santiago de Compostela —10 de febreiro— e Ferrol —26 de febreiro—. 

Xavier Martínez Rolán, profesor do departamento de Comunicación Audiovisual da Universidade de Vigo, impartiu esta xornadas didácticas. “Trátase dunha sesión na que implementamos estratexias de intelixencia artificial para a docencia e a investigación no eido académico, neste caso no campo das ciencias da saúde”, explicou. “A primeira parte consiste nunha aproximación a como son estas tecnoloxías da IA xenerativa e a interacción con estas ferramentas. Aborda como ‘falamos’ coas máquinas a través do prompt”. 

Tras esta aproximación, os asistentes desenvolveron un proxecto aproveitando os novos coñecementos adquiridos. Utilizaron “programas e aplicacións como ChatGPT para pensar mellores preguntas de investigación. Despois aproveitaron IAs académicas para atopar bibliografía, ter asistencia na redacción de artigos e elaborar unha pequena presentación. É unha maneira de incluír a intelixencia artificial aplicada a un traballo específico”.

Trátase dunha tecnoloxía transversal a todos os ámbitos do coñecemento. Está aquí para quedar. Vai supoñer un aforro de tempo para todas as áreas, particularmente a medicina —xa que sabemos o saturados que están os que se dedican a isto—, que poden dedicar a outras tarefas. Estas ferramentas non substitúen os labores de investigación, pero poden ser compañeiras no proceso de cocreación”, declarou o profesor.

Na súa introdución, Xavier Martínez falou das orixes da intelixencia artificial. “A primeira vez que se acuña o concepto é en 1956, nunha conferencia de investigadores de tecnoloxía. Falábase de intentar que os ordenadores fixeran cousas propias da intelixencia humana e tomaron o relevo do pai desta tecnoloxía, Alan Turing. El ideou o test de Turing, que diferenciaba persoas e máquinas en base ás súas respostas”.

O nacemento desta tecnoloxía supuxo unha revolución. “Entre os anos 50 e 60 experimentaron algo similar ao que vivimos agora. O primeiro chatbot é de 1960, Eliza. Ademais, nesa época inventouse unha máquina que se chamaba Perceptron. Facía posible que unha computadora identificase obxectos e imaxes coa potencia daquela, que era similar á de unha calculadora actual”. 

As limitacións destas máquinas impediron que evolucionasen moito mais alá do que xa se conseguira. Isto fixo que o interese diminuíse e que se deixasen de financiar os proxectos deste tipo. Porén, “rexurde nos anos 80 mediante novas aproximacións co que se coñece como sistemas de expertos e cunha rama da intelixencia artificial que permitiu un dos logros máis importantes desta tecnoloxía: a vitoria dunha máquina sobre un humano na súa disciplina”, comentou o experto en referencia á partida de xadrez de 1996 entre o ordenador de IBM Deep Blue e o campión do mundo desta disciplina, Garri Kaspárov.

A pesar deste avance, houbo unha nova etapa na que o desenvolvemento das máquinas intelixentes, así como de internet a causa da crise das punto com, detívose. Despois, “xorden novas aproximacións á intelixencia artificial. Non mediante aprendizaxe automática, senón profunda. No ano 2016, aconteceu algo que pasou desapercibido, pero supuxo un antes e un despois”. O momento do que fala o profesor Martínez foi outra afamada vitoria da máquina sobre o home. Nesta ocasión, o programa AlphaGo, que creou Google DeepMind, derrotou a Lee Sedol no go. “Este é un xogo moito máis difícil, complexo e con moitas máis posibilidades que o xadrez.  Non só polo número de movementos, senón porque o taboleiro era moito máis grande. Esta máquina adestrouse con milleiros de partidas. Isto asentou as bases do que temos hoxe en día”.

O académico ofreceu unha reflexión na que expuxo que a evolución da intelixencia artificial susténtase nun proceso cíclico con etapas de gran actividade e outras nas que se paraliza o seu avance. “Ao mellor volvemos a outro inverno tecnolóxico nuns anos. A IA permítenos chegar a algunhas cousas, pero ten limitacións que quizais non paga a pena reparar ou superar”.

Outro aspecto relevante que destacou é a maneira na que as comunidades científicas aproxímanse á intelixencia artificial. “Inicialmente, na conferencia de Dartmouth de 1956, tratou de seguirse o que se coñece como IA simbólica, que buscaba emular a mente humana. Operaba por un sistema de regras lóxicas. Entre a súas vantaxes poden nomearse que estas normas son explicables e reproducibles, pero tamén teñen limitacións”.

Non obstante, expertos optaron por unha proposta alternativa que replicaba as estruturas das neuronas e das súas sinapses para que a máquina aprendese a partir da repetición de situacións e experiencias. Denominouse como IA conexionista e levouse a cabo “creando, coa potencia de cálculo que empeza a haber no 2000, as primeiras redes neuronais, que están configuradas con moitas horas de adestramento, exemplos e reforzos”.

Esta IA “é moi potente, pero ten un problema grave. As redes neuronais que crean os científicos son caixas negras. Nin eles saben como funcionan e operan por dentro, o que provoca que os resultados non sexan sempre explicables e que poidan variar. Esta é a razón pola que os textos de ChatGPT non son plaxio, senón que son orixinais”, asegurou Xavier Martínez. 

“Dentro da IA conexionista, hai moitas ferramentas que utilizan redes neuronais, como os large language models —modelos lingüísticos a gran escala—. Están deseñadas para anticipar a seguinte palabra. Poden ter máis determinismo ou aleatoriedade, pero son preditivas. Están adestradas cunha gran cantidade de palabras, como mínimo un trillón”, recalcou.

A continuación, abordou a arquitectura dos transformadores. “Procesan o texto que se lles introduce e o que vai saír en paralelo, de tal maneira que aprende sobre o mesmo documento”, declarou. “Permite que ChatGPT poda detectar cousas como a ironía. Hai que ter en conta que moitos humanos dentro do espectro autista non poden percibir o sarcasmo ou os dobres sentidos. Que o faga unha máquina resulta abraiante”. 

O profesor Martínez mostrou el funcionamento desta tecnoloxía a través de ChatGPT. Sinalou a importancia de aspectos como o prompt, o modelo utilizado ou a multimodalidade. “Pódolle subir un documento en pdf e pedirlle que o resuma ou que extraia as ideas clave. Adoita facelo ben, máis ou menos”.  Ademais, tamén mencionou os tokens. “Son a maneira na que os informáticos decidiron picar a lingua para facela comprensible para estas máquinas. Considéranse importantes porque todas as ferramentas teñen unha ventá de contexto de entrada —límite de tokens que se pode meter— e de saída —límite de tokens que recibirá o usuario—”.

Outro concepto que resaltou foi o fine tuning. Consiste “nun axuste final que se lle fai a calquera dos modelos para que melloren unha tarefa en particular. Os modelos fundacionais como ChatGPT son adestrados en dúas quendas. Na primeira se lles ensina e despois hai un proceso de fine tuning para que melloren calificándoas durante ou mentres se conversa con ela”.

Este método de avance xera as tendencias ideolóxicas e políticas que existen nestes programas. “Os seres humanos son os que realizan o fine tuning. Iso provoca que aparezan os nesgos”, argumentou o poñente antes de mostrar Claude, unha ferramenta cuxo fine tuning adapta o estilo de escritura de maneira eficiente. O sistema asimila estilos cos que se poden adaptar outros textos. 

Tamén explicou o concepto de temperatura dentro deste ámbito. “Permite que o texto que nos devolve a máquina sexa mais determinista e similar aos datos de adestramento ou máis creativo”. Canto mais baixa sexa a temperatura, máis parecido será o resultado final ao estilo orixinal. Se buscase algo que sexa diferente, debe elevarse este parámetro.

Acto seguido, asegurou que o procesamento de linguaxe natural permite que programas como ChatGPT comprendan e interpreten as mensaxes que reciben dos usuarios. “Pode parecer pouco importante, pero hai que imaxinar a cantidade de persoas que están soas e o uso que se lle pode dar a estas ferramentas”.

O experto sinalou que un dos grandes problemas desta tecnoloxía son os nesgos. “É unha tendencia ou prexuízo inherente do ser humano que lle pasamos a estas máquinas cando as adestramos”. Exemplificou esta predisposición pedíndolle a unha intelixencia artificial que debuxase a unha persoa chorando nun hospital. Resaltou que na maior parte dos casos represéntanse mulleres. Do mesmo modo, ao solicitar que describira un individuo de éxito, o resultado mostrado foi un varón de raza branca con traxe e gravata. 

A raíz dos nesgos, proseguiu con outro dos erros máis frecuentes: as alucinacións. Ocorren “cando a IA dá datos que son incorrectos ou que non son veraces”. Ao solicitar estudos, pode ofrecer información sobre unha suposta publicación moi elaborada que inventou no momento. Estes fallos fanse máis evidentes na creación de imaxes, onde é posible que as mans aparezan con dedos a maiores ou estrañas formas.

Ademais, recalcou que na actualidade utilízanse chatbots ou modelos razoadores —“son capaces de razoar como un humano, aínda que nalgunhas disciplinas fano mellor que en outras”—. Tamén hai modelos en aberto e softwares libres, e fixo mención especial aos axentes de intelixencia artificial. “Poden funcionar de maneira autónoma para que realicen unha serie de accións”. Esta capacidade posibilita que fagan tarefas repetitivas sen intervención humana. Permitiría buscar o billete mais barato de avión durante os seguintes cinco días ou os temas de interese en varios textos académicos para axilizar os procesos de investigación.

Tras os xa mencionados, o seguinte estado da IA segundo OpenAI sería o desenvolvemento dunha intelixencia artificial cun nivel de creatividade que sexa igual á do ser humano sen necesidade de adaptar datos. Tal paso precedería a creación dunha máquina coa capacidade de dirixir ou facer o traballo dunha organización. Ademais, aclarou a situación na que se encontra o mercado destes servizos, con ChatGPT á cabeza, e mencionou Anthropic, Copilot, Gemini, Meta ou Deepseek, así como outros especializados en medicina —DxGPT ou Glass Health—. 

Tamén recalcou as vantaxes de usar os modelos en local destas ferramentas ao descargalas nos equipos persoais de cada un: “consumen menos e iso é algo positivo para o planeta. Non necesitas conexión a internet e os datos son privados porque quedan no equipo”.

Despois, Xavier Martínez enumerou intelixencias artificiais en base a diferentes áreas de especialización. Entre os creadores de imaxes recomendou Adobe Firefly e Leonardo, aínda que tamén falou de Midjourney. Do mesmo modo, abarcou diferentes ferramentas para crear vídeos cos que se poden idear comunicacións explicadas por avatares —Synthesia— ou reproducións máis sinxelas —Pictory—. Tamén puxo o foco na música. “É incrible meter unha letra e estilo musical para conseguir unha canción”, declarou ao nomear programas como Udio. Máis alá desta aplicación, existe a posibilidade de transcribir conversacións gracias a Whisper, que pertence a OpenAI. 

A este repaso teórico seguiulle a parte práctica, na que os asistentes familiarizáronse con ChatGPT e recibiron leccións para aproveitar as súas opcións da forma máis eficiente empezando pola caixa de texto do prompt. “É a instrución coa que se conseguen os resultados. A disciplina dedicada á elaboración de mellores preguntas chámase engineering prompt”, declarou o profesor Martínez. Non obstante, a elaboración destas peticións perderon relevancia a medida que o procesamento de linguaxe natural das IAs melloraron a súa capacidade de comprensión.  

O experto remarcou que existen tres tipos de prompt: zero-shot prompt —se lle asigna unha tarefa ou pregunta sen adestradar á intelixencia artificial neste tema—, one shot ou few shots prompt —“introdúcense un ou varios exemplos en función de se é un ou outro”—. Neste apartado indicou que “recomendo encarecidamente que sexa información o máis detallada posible. Canto máis información se lle dea, máis afinará o resultado”.

Entre as claves para facer un bo prompt sinalou que a primeira instrución é que deben ignorarse as ordes previas. Non se aplica sempre porque “cada vez que se abre unha conversación en ChatGPT é completamente nova, pero no momento en que empecen a integrarse estas IAs nas ferramentas, estas aprenderán de cada interacción e poderían mesturar elementos”. O seguinte punto relevante é que se debe especificar o rol que debe asumir e o público ao que se dirixe. Así mesmo, o usuario pode determinar o idioma ao que se traducirá o texto e o seu ton.

Antes de ceder o turno aos alumnos para que levasen a cabo o seu labor, Xavier Martínez revelou outras formas de mellorar os resultados. “A apelación emocional consiste en engadir que a petición é importante para min ou a miña carreira. Outro truco é emular os modelos razoadores marcándolle os pasos deste proceso”.