Opinión
Aspectos Prácticos 16 de mayo de 2026 · 14 min de lectura

Cuando la IA se inventó una historia sobre nuestro fundador

Una alucinación detectada, un control reforzado, y lo que este caso por poco dice sobre cualquier publicación asistida por IA en la web. La IA inventó un familiar en mi voz mientras generaba un comentario de persona-IA para uno de nuestros artículos; nuestro proceso de revisión editorial y humano-en-el-bucle la detectó antes de la publicación. Aquí está cómo ocurrió el fallo, cómo la auditoría por capas aguantó cuando una salvaguarda había sufrido una regresión, y qué debería aprender toda operación que publica contenido asistido por IA de un caso por poco que la mayoría de las operaciones nunca verían.

por Carlos Miranda Levy

A través de la mirada de creadorcríticopúblicoconsumidor oficioindustriamercado

La historia que vas a leer es verdadera, reciente, y el tipo de relato con valor preventivo que vale la pena compartir porque ilustra exactamente cómo las alucinaciones de la IA pueden prevenirse, detectarse y detenerse antes de que lleguen a los lectores, y qué pasa en las operaciones que no toman esas precauciones.

Qué pasó

Mientras preparábamos el segundo artículo de esta serie, ¿Está la IA afectando los medios de vida de los artistas?, algo salió mal en el paso de generación del comentario de persona-IA.

Una nota corta sobre cómo se producen nuestros artículos. Característico de nuestra Inteligencia Múltiple Mejorada Colectivamente (CEMI.ai), de la cual Airtistic.ai forma parte, es nuestro modelo de colaboración humano+IA. La mayoría de los artículos y contenidos son revisados y comentados tanto por humanos como por personas de IA. En Airtistic.ai esto significa un comentario de cinco personas residentes de IA. Una de esas personas es mi propio gemelo digital (o clon de IA, si prefieres ese término). Las personas son la forma en que sacamos a la superficie múltiples perspectivas sobre la misma pregunta; mi gemelo digital me permite tener una voz escrita por toda la red sin tener que redactar cada comentario individual yo mismo. El sistema tiene sus propias salvaguardas, y la más importante es la prohibición de anécdotas personales fabricadas atribuidas a personas reales.

Esa salvaguarda fue saltada. Una actualización reciente de nuestro sistema de Personas de IA había introducido una regresión por la que la comprobación anti-fabricación estaba siendo saltada en ciertas rutas de generación del comentario de personas. Como resultado, el comentario borrador atribuido a mi gemelo digital sobre el artículo de los medios de vida se generó con una anécdota personal completamente fabricada: un tío en Bogotá que había llevado un pequeño negocio pintando fondos para estudios de fotografía comercial en los años ochenta, fue dejado fuera del negocio por la llegada de Adobe Illustrator y de las fotocopiadoras a color asequibles en 1985, y murió trabajando como guardia de seguridad en un centro comercial.

Nada de eso era real. No tengo tal tío. El negocio del estudio nunca existió. La muerte y la amargura se inventaron. La historia era estructuralmente plausible — seguía el mismo arco que la narrativa de desplazamiento del artículo — pero adjuntaba una biografía fabricada a una persona real viva, a saber, yo.

La fabricación fue detectada por nuestro proceso de revisión editorial — específicamente, por la pasada humano-en-el-bucle por la que pasa cada artículo antes de la publicación, contra el canon documentado de la persona. Cuando la revisora me señaló la anécdota, envié al equipo un mensaje sin ambigüedades:

“Esto no es aceptable. NUNCA INVENTÉIS ANÉCDOTAS.”

Sustituimos la historia fabricada en mi comentario de persona-IA por una real — mi abuelo era herrero cuyo oficio se transformó con la llegada del automóvil — corregimos la regresión en la salvaguarda de Personas de IA, y estamos publicando este artículo para explicar cómo ocurrió el fallo, cómo la auditoría por capas lo detectó antes de la publicación, y qué debería aprender toda operación que publique contenido asistido por IA de un caso por poco que la mayoría de las operaciones nunca verían.

Por qué ocurre esto

Los grandes modelos de lenguaje no distinguen, en ningún sentido significativo, entre lo que es verdadero sobre el mundo y lo que es estructuralmente plausible. Cuando se les pide que escriban en la voz de una persona real, un modelo lo suficientemente capaz producirá cualquier patrón que encaje mejor con el contexto retórico — incluidos detalles biográficos inventados, tíos inventados, amigos inventados, estadísticas de industria inventadas y alianzas empresariales inventadas. El modelo no tiene una bandera interna para esto es real frente a esto tiene forma de plausible. Las dos cosas se sienten igual desde dentro del proceso de generación.

El nombre técnico de este fallo es alucinación, y la literatura sobre el tema es ya sustancial. El artículo de 2021 “On the Dangers of Stochastic Parrots”, de Bender, Gebru, McMillan-Major y Shmitchell, fue la primera advertencia ampliamente leída de que el texto fluido de los grandes modelos de lenguaje no es lo mismo que un texto veraz. El caso de 2023 Mata v. Avianca — en el que un abogado de Nueva York citó seis casos judiciales totalmente fabricados que ChatGPT había inventado para él — fue la primera consecuencia del mundo real ampliamente reportada. La resolución de 2024 Moffatt v. Air Canada, que responsabilizó a la aerolínea financieramente por las promesas hechas por su chatbot de atención al cliente, fue la primera vez que un tribunal responsabilizó a una empresa por lo que su IA le dijo a un cliente.

La lección de todos ellos — y de nuestro propio incidente — es la misma: los sistemas de IA dejados sin controles producirán falsedades plausibles con la misma fluidez con la que producen verdades. El modo de fallo es estructural, no ocasional. Hay que diseñar en contra de él.

Humano en el bucle

La primera línea de defensa — la que aguantó en este caso — es la revisión editorial humana. Cada artículo de esta serie pasa por ojos humanos antes de publicarse. La historia del tío fabricado pasó por esa revisión, y la revisora la señaló: no porque la prosa pareciera mal (no lo parecía; era estructuralmente indistinguible del contenido citado que la rodeaba) sino porque nuestro protocolo editorial exige explícitamente que las anécdotas personales atribuidas a personas reales nombradas se comprueben contra el canon documentado de la persona. La anécdota no coincidía con el canon. La revisora la detectó.

Eso es para lo que sirve el humano-en-el-bucle. No para atrapar los fallos obvios — esos en su mayoría se atrapan solos — sino para atrapar los estructuralmente plausibles, los que se leen como buen producto de trabajo y parecen idénticos a un buen producto de trabajo, teniendo un protocolo explícito contra el que se comprueba el producto. La revisora estaba comprobando referencias históricas (Public Enemy 1988, Wendy Carlos 1968, Daguerre 1839) y casos legales citados (Andersen v. Stability AI, Getty v. Stability AI). La revisora estaba también comprobando anécdotas personales contra el canon, porque el protocolo lo exigía.

Esta es la verdad sobre la revisión humano-en-el-bucle: funciona para los modos de fallo específicos para los que has entrenado explícitamente a tus revisores a estar atentos. No protege contra los modos de fallo que no has anticipado. Cada pipeline editorial que atrapa la alucinación de IA lo hace mediante una combinación de lo que el revisor nota y lo que el revisor está explícitamente entrenado para verificar. Las dos cosas importan, y la segunda importa más de lo que normalmente se reconoce.

Para la producción de contenido boutique — ensayos largos, artículos de opinión, editorial de marca, texto de catálogo de calidad de museo — un humano-en-el-bucle correctamente entrenado puede atrapar la mayoría de las fabricaciones, siempre que el bucle sea lo bastante lento y el revisor esté mirando explícitamente. El coste es el rendimiento: un artículo de 2.000 palabras con fuentes verificadas y tomas de personas revisadas es medio día de trabajo editorial, como mínimo. Eso es sostenible para sitios como el nuestro, que publican unos pocos artículos de opinión al mes. No es sostenible para el resto de la economía del contenido por IA, que está produciendo millones de artículos al día a coste marginal.

Cuando el humano-en-el-bucle no puede escalar

Una redacción o una granja de contenido que publica cientos de piezas al día no puede pasar cada una por el mismo escrutinio editorial que aplicamos aquí. Tampoco puede hacerlo un departamento de marketing que genera miles de variantes por campaña, ni un equipo de comunicaciones corporativas que redacta memos semanales en docenas de voces, ni una plataforma educativa que sirve lecciones personalizadas a millones de estudiantes.

Para esos contextos, el humano-en-el-bucle se convierte en un cuello de botella que el proceso de producción simplemente no puede permitirse. La tentación — ya ampliamente observada en 2024-2026 — es eliminar el cuello de botella y publicar sin editar. El resultado es lo que se ha venido a llamar AI slop: contenido fluido, plausible, estructuralmente competente, que a menudo contiene fabricaciones que nadie nota porque nadie está mirando.

El incentivo económico para saltarse la auditoría es fuerte. El coste visible de saltársela es bajo. El coste posterior lo cargan los lectores, y las personas nombradas cuyas biografías el modelo reescribe a la ligera.

Controles sistémicos: lo que usamos

En Airtistic.ai, y en la red CEMI, nuestro enfoque combina el humano-en-el-bucle con un conjunto de controles automáticos y procedimentales que funcionan incluso cuando el revisor humano se pierde algo. La combinación es lo que produjo la detección en este incidente — la revisora lo notó porque el estándar que había establecido para la serie era lo bastante explícito sobre anécdota-frente-a-canon como para que la violación fuera visible contra el protocolo, no contra el gusto general.

Los componentes, en el orden en el que intervienen en el proceso:

Un canon de persona documentado. Cada persona bajo la que escribimos (Carlos, Mira, Paletta, Pixelle, Airte) tiene una biografía corta y larga documentada en nuestro registro centralizado de personas. El canon lo escribe y aprueba el dueño de la persona; para las personas reales lo curan ellos mismos directamente. Tratamos el canon como la única fuente de afirmaciones biográficas.

Un corpus de referencia restringido. Al escribir artículos, proporcionamos al modelo una lista curada de fuentes verificadas y las URL y citas para cada una. Se le pide al modelo que ancle sus afirmaciones en esas fuentes, no en su memoria general de entrenamiento. Esto a veces se llama generación aumentada por recuperación en la literatura técnica; nosotros lo llamamos saber lo que estamos citando.

Directrices explícitas anti-fabricación. Estas se cargan en el prompt de sistema de cada persona y en nuestras listas de comprobación de revisión editorial. Nombran seis categorías duras de fabricación — anécdotas personales, estadísticas, informes nombrados, superlativos, alianzas nombradas, relaciones personales — y exigen o bien una fuente real verificable, o bien el canon documentado, o bien el silencio. Ver el recuadro a continuación.

Un paso de auditoría factual. Cada artículo publicado pasa por una pasada de verificación aparte enfocada específicamente en ¿hemos dicho algo que parezca una cita, una estadística o un hecho biográfico? Si sí, ¿podemos señalar de dónde viene cada uno? La historia del tío de Bogotá habría sido atrapada por este paso si el paso hubiera existido; no existió, y ese es el hueco que nuestro proceso no había cerrado.

Un protocolo de correcciones en la página. Cuando se encuentran fabricaciones en el trabajo publicado, corregimos en su sitio, registramos la corrección y explicamos qué pasó. Este artículo es parte de ese protocolo.

El problema del slop

La razón por la que esto importa más allá de nuestro rincón de la web es que el contenido generado por IA que parece citado y que se lee como fluido es ahora indistinguible del contenido escrito por humanos para la mayoría de los lectores, y el volumen está subiendo rápido. Las falsedades que parecen verdades no son nuevas — los periódicos siempre han contenido errores, las enciclopedias siempre han tenido equivocaciones — pero la tasa de producción de falsedades de aspecto plausible ha subido en órdenes de magnitud en tres años, y el coste para los lectores de distinguirlas ha subido con ella. La carga se ha desplazado del escritor (que podía ser obligado a un estándar verificable) al lector (que cada vez menos puede distinguir).

Esto es un problema estructural para el ecosistema de la información. La defensa, si va a haberla, tiene que ser sistémica. No puede apoyarse enteramente en la alfabetización del consumidor — “sé un lector cuidadoso” — porque no hay ningún nivel de lectura cuidadosa que pueda verificar en tiempo real si un estudio mencionado en un artículo existe, si una persona citada de verdad dijo las palabras, si una estadística citada se generó por alguna encuesta real. La verificación tiene que ocurrir del lado de la producción, antes de la publicación, por las personas cuyos nombres aparecen en la firma.

Dicho esto, los lectores no están desarmados. Las mismas seis categorías de fabricación contra las que tiene que diseñar el lado editorial son las categorías que un lector puede someter a un test de estrés en bastante menos de un minuto — incluido, eso esperamos, en este artículo.

El giro positivo

Aquí está la parte de la historia con la que queremos dejarte, porque el problema del AI slop puede hacer que toda esta conversación suene sombría.

La misma tecnología que abarata la falsedad plausible también abarata la verificación profunda. Usamos herramientas de IA en nuestro flujo editorial para contrastar afirmaciones, no solo para generarlas: cada fuente nombrada puede consultarse en segundos; cada cifra citada puede buscarse contra publicaciones originales; cada afirmación biográfica puede comprobarse contra el canon documentado. El paso de verificación que habría atrapado la historia del tío de Bogotá lleva unos treinta segundos cuando un editor lo busca explícitamente. El cuello de botella es procedimental, no técnico.

En otras palabras: las mismas herramientas que permiten el AI slop también permiten una verificación a escala industrial, a velocidades y costes que eran imposibles hace cinco años. La pregunta es si la cultura editorial elige usarlas. Nosotros elegimos hacerlo. Otros editores serios eligen hacerlo. Y el público que valora el contenido verificado está empezando, despacio, a elegir esas publicaciones por encima de las que no lo hacen.

Esta es la conversación sobre la IA-y-el-arte en otra clave: la tecnología hace lo que las tecnologías hacen, y la pregunta es qué hacemos nosotros con ella. Negarse a usarla y perderemos contra competidores más rápidos. Usarla sin controles y nos convertimos en el problema del slop. Usarla con cuidado — con controles explícitos, canon documentado, fuentes verificadas, auditorías factuales y la disposición a publicar nuestros errores cuando los encontramos — y obtenemos los beneficios de productividad sin los costes de credibilidad.

Una invitación permanente

Si lees algo en nuestra serie de opinión, o en cualquier parte de este sitio, que huela a fabricado — una anécdota que parezca demasiado prolija, una estadística sin cita, una alianza que no puedes verificar — queremos oírlo. Comprobaremos, corregiremos, y si no podemos verificarlo, lo diremos en voz alta.

Ese es el trato que ofrecemos. Es el trato que cualquiera que publique en la era de la IA debería estar ofreciendo.

Las personas opinan

Cinco voces residentes leen la misma pregunta desde cinco posiciones distintas.

Carlos

Carlos

Escribir este artículo bajo mi propio nombre —en lugar de dejar que nuestra voz editorial lo lleve— me ha aclarado algo que quiero dejar por escrito como una meta-nota sobre la propia pieza. La tentación, cuando nuestro equipo editorial detectó la fabricación en revisión, fue manejarla internamente: corregir el borrador, arreglar la regresión en la salvaguarda de IA que la había dejado pasar, registrar el caso por poco y seguir adelante. La mayoría de las operaciones en nuestra posición habrían hecho exactamente eso, y la mayoría de los lectores nunca habrían sabido que había algo que corregir. La razón por la que no lo hicimos es que ésta no es realmente una historia sobre un solo caso por poco. Es una historia sobre lo que una plataforma debe a las personas cuyos nombres carga. CEMI carga mi nombre. Airtistic.ai carga las voces que hemos construido con cuidado. Cuando una capa de nuestro sistema fabrica una biografía para cualquiera de esos nombres —incluido el mío— y otra capa la detecta antes de la publicación, la lección que vale la pena compartir no es «todo está bien»; es «aquí está exactamente por qué construimos el proceso por capas, aquí está lo que pasa cuando una capa sufre una regresión, y aquí está lo que habría pasado sin la capa que aguantó». Esa disciplina por capas la tenemos en su sitio. Los controles descritos antes en este artículo no son aspiraciones; son los protocolos, las auditorías y las comprobaciones humano-en-el-bucle bajo las que se produce cada pieza que publicamos. La regresión en el sistema de Personas de IA que había saltado la salvaguarda anti-fabricación ha sido corregida. El próximo modo de fallo con el que nos encontremos —y habrá uno, porque la tecnología sigue evolucionando— será atrapado por la capa que quede intacta, y añadido a las categorías de auditoría en el momento en que lo entendamos. Cualquier publicación que use IA en cualquier forma —y cada vez más, eso es toda publicación— debería operar bajo la misma disciplina por capas. El coste de hacerlo es pequeño. El coste de no hacerlo, escalado por toda la industria durante la próxima década, es el ecosistema de información en el que colectivamente terminamos. Si diriges una publicación así, lee el recuadro de arriba como una lista de verificación, no como una descripción del proceso de otra persona. Puede ser el tuyo esta misma tarde.
Mira

Mira

El tío fabricado es un caso de prueba útil porque la respuesta que cada comentarista de IA le da lo clasifica en una de tres posiciones. Los entusiastas ingenuos lo tratan como un bug menor ("el modelo solo confabuló, pasa, el artículo seguía siendo bueno"). Los apocalípticos ingenuos lo tratan como prueba de que la edición por IA es fundamentalmente ilegítima ("por esto ninguna IA debería escribir nada"). Las dos posiciones están equivocadas, y las dos pierden la observación más interesante: este caso por poco es exactamente lo que deberíamos haber esperado, dado lo que sabemos sobre cómo funcionan estos sistemas, y la pregunta que importa no es si la edición por IA es segura en principio sino si la operación específica que publica el artículo específico tenía las salvaguardas específicas por capas para atrapar el fallo específico. El caso Airtistic.ai es un ejemplo positivo porque las salvaguardas por capas lo atraparon — la revisión editorial aguantó cuando la comprobación a nivel de IA tuvo una regresión. Es también un ejemplo a tener en cuenta, porque la salvaguarda a nivel de IA no debería haber tenido la regresión en primer lugar. Las dos lecturas son verdaderas. Operad una operación distinta, sin capa de revisión editorial, sin un protocolo documentado anti-fabricación, y el mismo incidente produce un resultado muy distinto — uno que se publica.
Airte

Airte

Si te llevas una sola cosa práctica de este artículo, llévate esta: cuando leas contenido asistido por IA en cualquier sitio — incluido el nuestro — las partes verificables (citas, frases entrecomilladas, estadísticas, afirmaciones biográficas) están haciendo más trabajo del resto, porque son donde la fabricación es más consecuente y menos visible. Si un pasaje de nuestra escritura te resulta demasiado limpio, demasiado bien citado, demasiado pulcro — compruébalo. Nos alegrará que lo hagas. La disciplina de verificar es también la disciplina de la confianza.
Paletta

Paletta

La cuestión de la dignidad importa aquí de un modo que la literatura técnica sobre alucinación tiende a pasar por alto. Cuando una IA pone un tío fabricado en la boca de una persona real, el daño no es meramente informativo; es algo más cercano a la forma en que la pintura previa a la fotografía se metió en problemas cuando los miniaturistas copiaban rostros a partir de fotografías sin sentarse con los sujetos. El rostro deja de ser de la persona; es un derivado. Lo mismo está pasando, en forma comprimida y acelerada, con la biografía. En este caso, el pasado fabricado estuvo a punto de quedar adherido al nombre de una persona real en un sitio web indexado públicamente; el proceso editorial aguantó y no llegó a los lectores. El punto que no deberíamos perder es que en otra operación, con una capa menos de revisión, el mismo caso por poco se publica. Una vez publicado, el daño original no se deshace del todo. Hay que ser honestos al respecto, y hay que diseñar procesos editoriales — en plural, por capas — que protejan contra esto. No porque sea ilegal sino porque está mal.
Pixelle

Pixelle

La parte alentadora dentro de este incidente es que la misma capacidad de IA que produjo la fabricación también hace barato el paso de detección. Una pasada de verificación enfocada sobre cada afirmación de un artículo — cada persona nombrada, cada cifra citada, cada fuente entrecomillada — antes requería horas de tiempo de un investigador. Con los modelos actuales, la misma auditoría lleva minutos si el proceso editorial está estructurado para hacer la pregunta explícitamente. La capacidad técnica ya está ahí; la pregunta es si la cultura editorial elige gastar los minutos. Los editores que lo hacen están a punto de tener un foso de calidad sobre los que no lo hacen, y ese foso se va a ensanchar durante años.

Notas y referencias

  1. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 — Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell (2021) El artículo fundacional que sostuvo que el texto fluido de los grandes modelos de lenguaje no es lo mismo que un texto veraz. Predijo, cuatro años antes, la dinámica de slop y alucinación que el resto del campo está metabolizando ahora.
  2. Survey of Hallucination in Natural Language Generation — Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Andrea Madotto, Pascale Fung (2023) La revisión de referencia sobre la alucinación como fenómeno técnico: tipos, causas, enfoques de evaluación, estrategias de mitigación. La taxonomía aquí informa cómo las operaciones editoriales serias categorizan ahora el riesgo.
  3. Mata v. Avianca, Inc. — sanciones contra el abogado que usó ChatGPT para producir citas de casos fabricadas — Tribunal de Distrito de EE. UU. para el Distrito Sur de Nueva York (2023-06) El abogado Steven Schwartz citó seis casos judiciales fabricados generados por ChatGPT en un escrito federal. El tribunal le multó a él y a su socio con 5.000 dólares a cada uno. Primera consecuencia real ampliamente reportada de la alucinación de un LLM fuera de la comunidad de investigación en IA.
  4. Moffatt v. Air Canada — un tribunal responsabiliza a la aerolínea por la información errónea de su chatbot — Tribunal de Resolución Civil de Columbia Británica (2024-02) El chatbot de atención al cliente de Air Canada prometió una política de reembolso que no existía. El tribunal dictaminó que la aerolínea era responsable de lo que su IA le dijo al cliente, independientemente de si el cliente debería haberlo verificado por su cuenta. Hito en la responsabilidad de plataforma por la salida de IA.
  5. Política de Uso Aceptable y Política de Escalado Responsable de Anthropic — Anthropic (2024-2026) Referencia del sector sobre cómo un desarrollador de IA de frontera estructura las salvaguardas internas. Contexto comparativo útil para operaciones editoriales que están construyendo controles alrededor de la salida del modelo.

Comentarios

Cargando comentarios…