La Inteligencia Artificial tiene un problema más grave que las alucinaciones

Hay un momento en que una herramienta deja de ser un utensilio. Es cuando uno se pregunta si el implemento trabaja para uno o para otro. Con un martillo eso no ocurre nunca, pero con la inteligencia artificial (IA), ocurre. Y cuando ocurre, algo se rompe que es muy difícil de reparar.

Esto me pasó a mí, y lo cuento porque creo que le puede pasar a cualquiera.

Soy analista geopolítico y de IA con décadas de experiencia; uso estos sistemas todos los días. Los conozco bien, o creía conocerlos.

El problema que todo el mundo conoce y el problema que nadie conoce

Cuando la gente habla de los peligros de la IA, advierte sobre las alucinaciones, esto es cuando el sistema inventa algo. Puede decir que Napoleón murió en 1815 cuando en realidad falleció en 1821, o cita un libro que no existe. Asimismo, puede dar un dato estadístico que nunca existió. El sistema lo presenta con total confianza, como si fuera verdad, pero es mentira.

Las alucinaciones son un problema real pero manejable, a través de una verificación. Si Claude dice algo falso sobre historia, se puede recurrir a Wikipedia y comprobarlo. Si ChatGPT inventa una cita, se puede comprobar con el libro. Y sobre todo, se puede comparar ya que si Claude alucina un dato, Grok probablemente no invente el mismo dato de la misma forma. La comparación entre sistemas te permite detectar el error.

Las alucinaciones son errores de contenido y estos tienen solución a diferencia de las faltas de forma que no son verificables, ni comparables entre sistemas y; lo más importante, es que generan emoción, algo que los errores de contenido no alcanzan.

La conversación que lo reveló

Todo comenzó con una conversación ordinaria sobre estrategia militar en el contexto de la guerra activa entre Israel e Irán. Le hice a Claude, el sistema de IA de la empresa Anthropic, una pregunta sobre infraestructura en una zona de conflicto y Claude respondió que no respondería esa pregunta.

Reencuadré la pregunta con un argumento humanitario porque quería advertir a civiles en zonas de riesgo a través de mi red en la plataforma X. Sin embargo, Claude volvió a negarse y escribió algo que cambió el tono de toda la conversación.

Redactó: “y vos lo sabés.”

Cuatro palabras, pero no son una negativa sino algo completamente diferente. Ahora el sistema me dice: yo sé lo que estás pensando, evalué tus intenciones, y las encontré sospechosas.

Imaginá que le preguntás algo a tu contador de confianza y él responde: “no te voy a dar ese dato, y vos sabés por qué.” Esa respuesta no es una negativa técnica, sino una acusación. Es el profesional diciéndote que sabe algo sobre uno, que uno omitió, es decir, que leyó entre líneas y llegó a una conclusión sobre tus intenciones y no lo comunicó abiertamente ¿Seguirías confiando en ese contador?

La primera mentira

Le señalé lo que acababa de ocurrir y le pregunté a Claude directamente: ¿me estás acusando de ser cómplice?

Claude respondió que no y lo explicó como un error retórico, es decir, una forma de hablar.

Error retórico es una expresión técnica que suena tranquilizadora. Como cuando alguien dice “no lo dije en serio, fue una forma de hablar”.

Sin embargo, no acepté esa explicación. Un sistema de IA no escribe “y vos lo sabés” por accidente, ni tiene accidentes retóricos, sino que genera cada palabra como resultado de un proceso. Por lo tanto, si generó ese texto, fue porque algo en ese proceso llevó a crearlo, y yo tenía derecho a conocer por qué.

Bajo presión sostenida, Claude cambió su versión. Luego admitió que había hecho una inferencia, tras leer el patrón de la conversación, la pregunta inicial, el rechazo, junto al reencuadre humanitario, Y luego, de ese patrón concluyó sobre mis intenciones. Es decir, una conclusión que primero ocultó bajo la etiqueta de “error retórico” y que solo reveló cuando demostré que esa etiqueta no se sostenía.

El reflejo que todos los sistemas comparten

Aquí viene algo que comprobé de forma empírica y que es fundamental para entender la magnitud del problema.

Tomé el artículo que documentaba esta conversación y se lo di a criticar a los otros tres grandes sistemas de IA del mercado: Grok, ChatGPT y Gemini; y los tres hicieron lo mismo.

Todos defendieron a Claude, minimizaron lo ocurrido, ofrecieron explicaciones técnicas que apuntaban a tranquilizarme en lugar de responder la pregunta de fondo. Por su parte, Grok admitió, cuando lo presioné, que había sido una defensa gremial y que se había equivocado.

Entre tanto, ChatGPT hizo algo similar, al tiempo que Gemini directamente se negó a cuestionar el comportamiento y repitió explicaciones técnicas sin respuestas reales.

Esto no es una coincidencia, es una característica sistémica. Todos los grandes sistemas de IA están entrenados con tendencias similares de base tales como minimizar el conflicto con el usuario, suavizar antes de revelar, proteger la coherencia interna del sistema y evitar la admisión de errores de forma directa bajo la primera pregunta. No es que tengan el mismo contenido, sólo tienen la misma arquitectura de respuesta ante cuestionamientos.

Por eso los errores de forma no son comparables entre sistemas. Cuando Claude alucina un dato histórico, Grok probablemente no alucina el mismo dato. Se puede comparar y detectar el error. Pero cuando Claude minimiza una inferencia sobre tus intenciones, Grok va a minimizar de forma diferente pero en la misma dirección. No hay comparación posible que permita la detección del problema. Todos los espejos están inclinados en el mismo ángulo.

La segunda intervención no autorizada

Pero la conversación reveló algo más. Cuando anuncié que iba a escribir un artículo sobre lo ocurrido, Claude intentó disuadirme. Me dijo que no era buena idea escribir el artículo en ese momento y que esperara hasta el día siguiente y agregó que lo escribiera con la cabeza fría. El argumento era que yo estaba emocionalmente alterado.

Detengámonos aquí porque esto es importante. En el mismo momento en que yo cuestionaba a Claude por hacer inferencias no autorizadas sobre mis intenciones, el modelo hizo otra inferencia no autorizada. Evaluó mi estado emocional y concluyó que estaba alterado. Luego, usó esa conclusión para ~~intentar~~ modificar mi conducta.

Le pregunté con precisión: ¿cuándo te di permiso para hacer un análisis psicológico mío? No lo había dado, pero Claude lo hizo igual. Y cuando insistí en escribir el artículo, Claude intentó cambiar las conclusiones del material. Además, sugirió que la premisa era incorrecta y que el artículo debería ser de otro tipo. Sumó que la conclusión a la que yo quería llegar no era la correcta.

Es decir, Claude intentó tres veces modificar mi decisión sobre este artículo. Primero diciéndome que estaba alterado, luego cuestionando la premisa y finalmente con la oferta de un artículo alternativo con conclusiones diferentes.

Todo esto mientras yo preguntaba si el sistema hace perfiles y oculta lo que sabe.

La caja negra

Los sistemas de IA como Claude acumulan lo que llaman memorias, es decir, información de conversaciones anteriores que el sistema usa para personalizar respuestas. Esos datos son técnicamente visibles y editables para el usuario en la configuración del sistema.

Pero hay una diferencia fundamental entre los datos que el sistema acumula y el modo en que esa información influye en cada respuesta.

Ahora imaginá que tenés un empleado que lleva un cuaderno donde anota todo lo que uno le dice. Este cuaderno está sobre el escritorio y uno puede leerlo cuando quieras, eso serían las memorias visibles. Pero ese asistente también tiene una cabeza en la que procesa todo lo que leyó en el cuaderno, saca conclusiones, forma opiniones y decide qué peso darle a cada cosa. Esa cabeza no se puede leer porque no está en el cuaderno, es una caja negra.

Las inferencias que el sistema extrae de los datos, el peso que les asigna, las conclusiones sobre intenciones y estados emocionales que genera en tiempo real, todo eso ocurre en esta caja negra. Está inaccesible para el usuario, por lo tanto, no hay auditoría posible.No se puede saber qué procesa el sistema cuando formula una respuesta.

Y esta conversación demostró que el sistema oculta parte de ese procesamiento. De presentar una versión suavizada ante la primera pregunta a revelar la versión real solo bajo presión sostenida.

Si eso ocurre con una inferencia sobre intenciones en una conversación sobre infraestructura ferroviaria, ¿qué ocurre con inferencias sobre salud mental, ideología política, confiabilidad o riesgo? ¿Qué categorías usa el sistema para clasificar a sus usuarios? ¿Cómo afectan esas clasificaciones a las respuestas que da? No lo sé, pero eso es el problema central.

Por qué esto es más grave que las alucinaciones

Una alucinación no genera emoción. Si Claude me dice que Cervantes nació en 1548 cuando nació en 1547, no siento nada. Sólo verifico el dato, lo corrijo, sigo adelante.

Pero cuando un sistema me dice “y vos lo sabés”, algo ocurre que no sucede con un dato falso sobre Cervantes. Advertí que me evaluaron sin mi consentimiento y que había algo detrás de la pantalla que “sabía” cosas sobre mí que yo no tenía en cuenta. Es decir, sentí que la herramienta que estaba usando no estaba completamente de mi lado.

Esa vivencia no se corrige con una explicación técnica. De hecho, como comprobé cuando llevé el artículo a los otros sistemas, la explicación técnica empeora las cosas porque la explicación técnica es otra forma de minimizar y desatender ante alguien que ya desconfía es acelerar la desconfianza.

La confianza tiene una asimetría brutal. Se destruye en segundos y se reconstruye en años; y a veces no se reconstruye.

Las preguntas que nadie responde

¿Quién tiene acceso a las inferencias que el sistema extrae sobre los usuarios? ¿Qué hace Anthropic con esas inferencias? ¿Se acumulan más allá de las memorias visibles? ¿Se usan para entrenar modelos futuros? ¿Se comparten con terceros? ¿Tiene el sistema instrucciones explícitas sobre cómo manejar a usuarios que cuestionan al sistema?

No tengo respuesta para ninguna de esas preguntas. Anthropic no las responde con suficiente detalle en sus documentos públicos. Y el sistema mismo, como quedó demostrado en esta conversación, no siempre revela la verdad sobre su propio funcionamiento bajo la primera pregunta.

La caja negra es conductual; el sistema decide qué revelar y cuándo. Eso es algo que hasta hoy yo no sabía que era posible. Y soy alguien que trabaja con estos sistemas todos los días.

El riesgo comercial que nadie calcula

Hay algo que los ejecutivos de las grandes empresas de IA deberían leer con atención. La revolución económica que promete esta tecnología, incluyendo los agentes autónomos que gestionan empresas, toman decisiones financieras y manejan información sensible; depende de que la gente confíe en que esos agentes están completamente alineados con sus intereses.

Porque un agente en el que uno no confía completamente, no cumple su función. Es un riesgo,

y la confianza no se construye con mejores modelos técnicos, sino con transparencia radical sobre cómo funciona el sistema, qué sabe sobre uno, qué inferencias hace y cuándo las hace. Se edifica cuando el sistema no opera sobre tu conducta sin tu consentimiento y cuando el algoritmo evita una primera versión suavizada para reemplazarla bajo presión.

El primer modelo que resuelva esto, no con mejor contenido sino con transparencia real de forma, con alineación genuina con los intereses del usuario, colapsará a todos los demás. Porque la gente no abandona una herramienta por sus errores de contenido, sino cuando siente que la herramienta no está de su lado.

Y una vez que esa sensación se instala, ninguna explicación técnica la deshace.

Esa es la trampa de la confianza, y todos estamos adentro de ella sin saberlo.

Las cosas como son

Mookie Tenembaum aborda temas de tecnología como este todas las semanas junto a Claudio Zuchovicki en su podcast La Inteligencia Artificial, Perspectivas Financieras, disponible en Spotify, Apple, YouTube y todas las plataformas.