Lo que no sabemos de la inteligencia artificial y por qué debería preocuparnos

Por Kevin Roose

/ abril 21, 2024

Hay un problema con las principales herramientas de inteligencia artificial, como ChatGPT, Gemini y Claude: en realidad, no sabemos cuán preparadas están.

Esto se debe a que, a diferencia de las empresas que fabrican automóviles, medicamentos o fórmulas infantiles, las empresas de inteligencia artificial no están obligadas a someter sus productos a pruebas antes de lanzarlos al público. No existe un sello de calidad para los chatbots de inteligencia artificial y son pocos los grupos independientes que someten a estas herramientas a ensayos rigurosos.

También consulte: Los vehículos eléctricos necesitan dejar de ser tan aburridos

En cambio, nos queda confiar en las afirmaciones de las empresas de inteligencia artificial, las cuales a menudo utilizan frases vagas y confusas como “capacidades mejoradas” para describir en qué se diferencian sus modelos de una versión a otra. Y, aunque hay algunas pruebas estándar para evaluar la capacidad de los modelos de inteligencia artificial, digamos razonamiento matemático o lógico, muchos expertos dudan de la confiabilidad real de esas pruebas.

Esto puede sonar como una queja insignificante. No obstante, estoy convencido de que la falta de una buena medida y evaluación de los sistemas de inteligencia artificial es un problema importante.

Para empezar, sin información confiable sobre los productos de inteligencia artificial, ¿cómo se supone que la gente va a saber qué hacer con ellos?

No puedo contar la cantidad de veces que en el último año un amigo o un colega me preguntó qué herramienta de inteligencia artificial debía utilizar para una tarea determinada. ¿Cuál escribe mejor el código Python, ChatGPT o Gemini? ¿Es mejor DALL-E 3 o Midjourney para generar imágenes realistas de personas?

No queda más que encoger los hombros en respuesta. Incluso para alguien que se gana la vida escribiendo sobre inteligencia artificial y que prueba nuevas herramientas todo el tiempo, me desquicia lo difícil de seguir el ritmo de las fortalezas y debilidades relativas de los distintos productos que aparecen. La mayoría de las empresas tecnológicas no publican manuales de usuario, comunicados ni detalles sobre sus productos de inteligencia artificial. Además, los modelos se actualizan con tanta frecuencia que un chatbot que un día tiene dificultades para realizar una tarea, al día siguiente puede destacar misteriosamente en ella.

Las mediciones deficientes también crean un riesgo para la seguridad. Sin mejores pruebas para los modelos de inteligencia artificial, es difícil saber qué capacidades están mejorando más rápido de lo esperado o qué productos podrían presentar amenazas reales de peligro.

En el Índice de Inteligencia Artificial de este año —un gran informe anual que elabora el Instituto de Inteligencia Artificial Centrada en el Ser Humano, de la Universidad de Stanford—, los autores describen las mediciones deficientes como uno de los principales desafíos que enfrentan los investigadores de inteligencia artificial.

“La falta de una evaluación estandarizada dificulta una enormidad la comparación sistemática de las limitaciones y riesgos de varios modelos de inteligencia artificial”, me comentó Nestor Maslej, editor jefe del informe.

Una de las pruebas actuales más comunes que realizan los modelos de inteligencia artificial, casi el equivalente del examen para ingresar a la universidad de los chatbots, es una prueba conocida como Massive Multitask Language Understanding (MMLU).

La MMLU, lanzada en 2020, consiste en una colección de unas 16.000 preguntas de opción múltiple que cubren decenas de temas académicos, que van desde el álgebra abstracta hasta el derecho y la medicina. Se supone que es una especie de examen de inteligencia general: mientras más de estas preguntas responden de manera correcta un chatbot, más inteligente es.

Se ha vuelto el criterio de referencia para las empresas de inteligencia artificial que compiten por el dominio. (A principios de este año, cuando Google lanzó su modelo de inteligencia artificial más avanzada, Gemini Ultra, la compañía presumió de haber obtenido un 90% en la MMLU, la puntuación más alta que se haya registrado).

Dan Hendrycks, un investigador en seguridad de la inteligencia artificial que ayudó a desarrollar la MMLU cuando estudiaba su posgrado en la Universidad de California, campus Berkeley, me contó que nunca se pensó que la prueba se usara para presumir. Le alarmaba la rapidez con la que mejoraban los sistemas de inteligencia artificial y quería animar a los investigadores a tomarlo más en serio.

Hendrycks señaló que, aunque pensaba que la MMLU “pueda tener uno o dos años más de vida útil”, pronto la tendrán que remplazar pruebas distintas y más difíciles. Los sistemas de inteligencia artificial se están volviendo demasiado inteligentes para las pruebas que tenemos ahora y cada vez es más difícil diseñar nuevos.

También puede haber problemas con las mismas pruebas. Varios investigadores con los que hablé advirtieron que el proceso de administrar pruebas de referencia como la MMLU varía un poco de una empresa a otra y que las evaluaciones de varios modelos podrían no ser directamente comparables.

Hay un problema conocido como “contaminación de datos”, cuando las preguntas y respuestas de las pruebas de referencia se incluyen en los datos de entrenamiento de un modelo de inteligencia artificial, lo que en esencia le permite hacer trampa. Además, estos modelos no se someten a pruebas o auditorías independientes, es decir que las empresas de inteligencia artificial en esencia califican su propia tarea.

En resumen, la medición de la inteligencia artificial es un desastre: una maraña de pruebas descuidadas, comparaciones de manzanas con naranjas y publicidades voluntarias que han dejado en la oscuridad a los usuarios, reguladores y los propios desarrolladores de inteligencia artificial.

Es probable que la solución para esto sea una combinación de iniciativas públicas y privadas.

Los gobiernos pueden y deben idear programas de pruebas sólidas que midan tanto las capacidades brutas como los riesgos de seguridad de los modelos de inteligencia artificial y deben financiar subvenciones y proyectos de investigación destinados a idear nuevas evaluaciones de alta calidad.

(*) Kevin Roose es columnista de tecnología del New York Times