Herramientas que prometen detectar lo que no pueden: el espejismo del detector universal de deepfakes

Hay una promesa que se repite cada vez que un escándalo de video falso o de voz clonada llega a los titulares: existe, o existirá pronto, una herramienta capaz de decirnos qué es real y qué no lo es. La promesa es seductora porque resuelve un problema epistemológico aterrador —ya no podemos confiar en lo que vemos y oímos— con un objeto técnico, una aplicación, un botón. Sube el video sospechoso, espera unos segundos, recibe un veredicto: 87% probabilidad de ser sintético. La angustia se transforma en métrica, y la métrica nos devuelve la sensación de control. El problema es que esa sensación es, en buena medida, un espejismo. Y como casi todos los espejismos tecnológicos de la última década, este se ve distinto —más peligroso— cuando se lo mira desde América Latina.

La conversación dominante sobre deepfakes tiende a desplazar la responsabilidad hacia dos polos: el ciudadano, a quien se le pide desarrollar un ojo entrenado para “detectar las señales”, y la herramienta, a la que se le encarga hacer el trabajo forense que el ojo no puede. Ambos desplazamientos son convenientes para quienes producen y distribuyen el contenido sintético —las plataformas, los proveedores de modelos generativos— porque los eximen de rediseñar la infraestructura sobre la que circula el engaño. Este ensayo se concentra en el segundo polo: las herramientas de detección como objetos en el mundo. Qué hacen realmente, qué le hacen a quien las usa, y por qué su importación acrítica a un contexto de datasets pobres, licencias caras y actualizaciones intermitentes puede producir más daño que beneficio.

El detector no detecta verdad: detecta patrones que envejecen

Conviene empezar por desmistificar qué hace, mecánicamente, un detector de deepfakes. No examina la realidad. Examina artefactos estadísticos: inconsistencias en el parpadeo, en los bordes de la cara, en la textura de la piel, en la sincronía entre labios y fonemas, en el ruido de compresión. Aprende a reconocer las huellas que dejan los modelos generativos de una época determinada. Y ahí está el primer problema estructural: el detector y el generador están atrapados en una carrera armamentista donde el generador casi siempre va adelante. Cada vez que un detector aprende a reconocer una huella, la siguiente generación de modelos aprende a borrarla.

El propio AI Index de Stanford documenta que las herramientas de deepfake han mejorado significativamente desde las elecciones estadounidenses de 2020, volviendo “significativamente más fácil generar desinformación” a gran escala HAI AI-Index-Report-2024. Lo que ese informe registra como un avance de las herramientas de generación es, al mismo tiempo, una degradación de las herramientas de detección: cada salto generativo deja obsoletos a los detectores entrenados con la generación anterior. Un detector no es un instrumento que se calibra una vez; es un perecedero con fecha de caducidad invisible que su vendedor rara vez imprime en la etiqueta.

Esto tiene una consecuencia que la propaganda comercial omite: ninguna herramienta de detección disponible hoy se acerca a la confiabilidad que su lenguaje de marketing sugiere. Los porcentajes de precisión que se publicitan suelen provenir de evaluaciones de laboratorio, sobre datasets curados, contra modelos generativos conocidos. En condiciones reales —video comprimido por WhatsApp tres veces, reenviado, capturado de pantalla, recortado— la precisión cae. La diferencia entre el 95% del folleto y el rendimiento real importa enormemente, porque el detector se usa precisamente cuando hay incertidumbre, es decir, en el peor escenario para él.

El falso positivo es el daño que nadie cuenta

Cuando se discute la falibilidad de un detector, casi todo el foco recae sobre el falso negativo: el deepfake que pasa como auténtico. Es el error intuitivo, el que da miedo. Pero el error inverso —el falso positivo, el contenido auténtico que el detector marca como sintético— es probablemente más corrosivo para una democracia, y es el que menos atención recibe.

Pensemos en la mecánica política. Una vez que existe una herramienta que “detecta” deepfakes y que el público confía en ella, cualquier actor con interés en desacreditar un video real —una confesión grabada, un acto de corrupción, una declaración comprometedora— solo necesita pasarlo por un detector que arroje un resultado ambiguo, o directamente afirmar que es falso. La existencia misma del detector habilita lo que los investigadores llaman el “dividendo del mentiroso”: la posibilidad de negar la realidad invocando la sospecha generalizada de manipulación. Marta Peirano describe con precisión el mecanismo cuando observa que el contenido más efectivo “es material legítimo que ha sido manipulado para que parezca otra cosa; mentiras con un poso de verdad circulando por canales donde no entra la luz del sol” El enemigo conoce el sistema: manipulación de ideas, personas e influencias después de la economía de la atención. El detector falible añade un giro perverso: ahora también lo legítimo puede ser declarado mentira con un poso de tecnología.

En contextos de instituciones débiles y polarización aguda —que describe a buena parte de América Latina— esto no es teórico. El AI Index advierte que la desinformación a gran escala puede “socavar la confianza en las instituciones democráticas, manipular la opinión pública y polarizar las discusiones públicas” HAI AI-Index-Report-2024. Una herramienta de detección poco confiable, lejos de restaurar esa confianza, ofrece munición a ambos bandos: el que niega lo verdadero y el que afirma lo falso, cada uno con su captura de pantalla del veredicto que le conviene. El detector se convierte así en un dispositivo retórico antes que forense.

Objetos situados: el sesgo geopolítico de la detección

Aquí es donde la mirada latinoamericana deja de ser un agregado regional y se vuelve estructural. Las herramientas de detección no son neutrales ni universales: son objetos situados, productos de decisiones técnicas tomadas en lugares concretos, con datos concretos, para problemas concretos que no necesariamente son los nuestros.

Un detector de rostros sintéticos se entrena con un dataset de rostros. Si ese dataset está poblado mayoritariamente por personas de fenotipos del norte global —como ocurre con la inmensa mayoría de los conjuntos de datos faciales públicos—, el detector aprende a reconocer artefactos en esos rostros mejor que en otros. La literatura sobre sesgo algorítmico en visión por computadora lo ha documentado hasta el cansancio: Ruha Benjamin nombró esta arquitectura de discriminación incrustada en lo técnico como la “Nueva Casta del Código”, donde la apariencia de neutralidad matemática esconde jerarquías heredadas Race After Technology. Un detector de deepfakes entrenado en San Francisco puede, plausiblemente, rendir peor sobre el rostro de una mujer indígena peruana o de un hombre afrodescendiente salvadoreño, no por malicia sino por ausencia: esos rostros no estaban suficientemente en los datos de entrenamiento.

Lo mismo aplica a la voz, y la voz importa especialmente porque la estafa por clonación vocal es hoy una de las aplicaciones más urgentes y dañinas de la tecnología sintética en la región. Un detector de audio sintético entrenado sobre inglés estándar no necesariamente generaliza al español rioplatense, al castellano andino, al spanglish centroamericano, a los acentos y cadencias que constituyen el habla real de cientos de millones de personas. Kate Crawford insiste en que la IA es siempre una industria extractiva y material, anclada en infraestructuras, datos y trabajo localizados, nunca una abstracción flotante The Atlas of AI. Importar un detector es importar las decisiones de quien lo hizo, incluidas las que excluyeron nuestro idioma y nuestros rostros de su definición de “normal”.

García Canclini ya había señalado, en su análisis de las operaciones de desinformación en campañas electorales latinoamericanas, que “la sociedad civil no dispone de conocimiento o de la capacidad necesaria para protegerse de estos ataques” Ciudadanos reemplazados por algoritmos. El detector importado se presenta como esa capacidad faltante, pero entrega una capacidad calibrada para otra sociedad civil, otra geografía de rostros y voces. La brecha no se cierra: se disfraza.

El costo, la licencia y la dependencia: la trampa de la suscripción

Supongamos por un momento que existiera un detector confiable y bien calibrado para contenidos latinoamericanos. Quedaría el problema de cómo se accede a él, y aquí las herramientas comerciales introducen una segunda capa de daño que es económica y política antes que técnica.

Las herramientas de detección serias suelen llegar bajo modelos de suscripción, con cuentas corporativas, APIs de pago por consulta, y frecuentemente con bloqueos regionales o requisitos de verificación que excluyen a usuarios fuera de ciertos mercados. Para un ciudadano que recibe una llamada con la voz clonada de su hija pidiendo dinero, o para una pequeña organización de verificación periodística en Lima o San Salvador, el costo es prohibitivo y el acceso es incierto. Conviene poner los números sobre la mesa: el PIB per cápita de El Salvador es de 5.579 dólares El Salvador (El Salvador), y el de Perú de 8.452 dólares Perú (Peru). Una suscripción mensual a una herramienta forense en dólares, pensada para presupuestos corporativos del norte, no es un gasto marginal en esas economías: es un lujo estructuralmente inaccesible para los mismos actores —periodistas locales, defensores comunitarios, familias— que más la necesitan.

El daño más profundo, sin embargo, no es el precio sino la dependencia. Cuando una redacción, un organismo electoral o un banco delega su capacidad de verificación a un proveedor extranjero único, entrega también su soberanía epistémica. La herramienta puede subir de precio, cambiar de términos, ser adquirida por un competidor, discontinuarse, o simplemente fallar en silencio cuando el modelo generativo del momento supera su entrenamiento. Zuboff advirtió que la lógica del capitalismo de vigilancia consiste precisamente en volvernos dependientes de servicios cuya gobernanza no controlamos y cuyos incentivos no coinciden con los nuestros The Age of Surveillance Capitalism. Un país que construye su defensa contra la desinformación sobre una suscripción a un proveedor privado extranjero no ha construido una defensa: ha alquilado una, y el contrato lo escribió otro.

Argentina, que encabeza la región en preparación para la IA con un índice ILIA de 67.5 y un Plan Nacional de Inteligencia Artificial Argentina (Argentina), ilustra el límite: aun el país mejor posicionado del vecindario carece de la masa crítica de cómputo, datos y financiamiento para sostener el desarrollo y la actualización continua de detectores propios al ritmo que exige la carrera armamentista generativa. Si Argentina no puede sola, El Salvador —con su Agenda Digital 2020-2030 y una fracción del músculo económico— mucho menos. La dependencia no es una elección moral sino, por ahora, una condición material.

Lo abierto como alternativa, con su propia letra chica

Frente a la trampa de la suscripción comercial, la respuesta intuitiva es lo abierto: herramientas de código abierto y gratuitas como las desarrolladas por laboratorios universitarios, que permiten auditar el funcionamiento del detector, entender qué mide, y eventualmente reentrenarlo con datos locales. La ventaja es real y conviene defenderla: un detector cuyo código y cuyos pesos son inspeccionables no nos pide fe, nos permite verificación. Frente a la caja negra comercial que dice “87% sintético” sin explicar por qué, lo abierto al menos abre la posibilidad de auditoría local, de adaptación al español, de validación contra nuestros propios casos.

Pero la honestidad obliga a nombrar la letra chica. Lo abierto traslada la carga técnica al usuario. Instalar, configurar, mantener y reentrenar un detector de código abierto requiere capacidad técnica —ingenieros, cómputo, datasets locales etiquetados— que la mayoría de las organizaciones latinoamericanas que enfrentan deepfakes simplemente no tienen. La herramienta gratuita no es gratuita en el sentido que importa: cuesta en talento escaso, en infraestructura, en tiempo. La gratuidad del software se paga en una moneda —capacidad técnica instalada— que es justamente la que escasea. UNESCO, en su marco de pensamiento crítico, propone preguntar de cada caso “qué algoritmos atraparían esto y qué lo amplificaría”, y planear actividades en torno a las preocupaciones según “su relevancia para tu país” UNESCO Think Critically Click Wisely. Es exactamente el tipo de adaptación contextual que lo abierto habilita y lo comercial impide —pero habilitar no es realizar. Entre la posibilidad técnica y la capacidad efectiva hay un abismo que se llama financiamiento sostenido, y ese financiamiento es la decisión política que ninguna herramienta toma por nosotros.

Hay aquí un matiz que esta publicación ya rozó al analizar la detección de contenido generado por IA, y conviene nombrar el delta: entonces el foco era el propósito y los desafíos de implementación de las herramientas en general. Ahora el desplazamiento es más específico y más incómodo: el problema no es solo si la herramienta funciona, sino que su existencia misma —funcione o no— reconfigura el campo de la confianza pública, y esa reconfiguración beneficia a quien produce el engaño tanto como a quien lo combate.

Las lentes LATAM: disponibilidad y alternativas como ejes del problema

Vale la pena detenerse explícitamente en dos de las lentes con que esta publicación lee la tecnología desde la región, porque concentran el argumento.

Disponibilidad: la herramienta que no habla tu idioma ni mira tu cara

La pregunta de disponibilidad no es solo “¿existe la herramienta?” sino “¿existe para mí, en mi idioma, optimizada para mi contexto, accesible desde mi país?”. Y la respuesta para los detectores de deepfakes es, mayoritariamente, no. Las herramientas de detección líderes carecen de versiones en español, no están optimizadas para acentos y rostros latinoamericanos, y muchas requieren cuentas o suscripciones bloqueadas por región. Esto no es un detalle de localización pendiente: es una decisión de diseño sobre quién cuenta como usuario. Cuando un detector se entrena y se valida sin contemplar el español ni los fenotipos de la región, el latinoamericano queda en una posición estructural de desventaja: la herramienta que supuestamente lo protege rinde peor justamente sobre el contenido que más necesita verificar. La disponibilidad aparente —“la app existe, descárgala”— enmascara una indisponibilidad real para el caso de uso latinoamericano. Es el mismo patrón que García Canclini detectó en el mercado desregulado de operaciones de manipulación: las capacidades de ataque están ampliamente disponibles mientras que las capacidades de defensa permanecen fuera del alcance de la sociedad civil Ciudadanos reemplazados por algoritmos.

Alternativas: cuando lo simple vence a lo sofisticado

Si la detección automatizada es falible, cara, dependiente y mal calibrada para la región, ¿cuál es la alternativa? Aquí el análisis se vuelve, paradójicamente, optimista, porque las alternativas más robustas no son las más sofisticadas técnicamente sino las más simples socialmente.

La primera alternativa es la verificación contextual de baja tecnología: acordar con la familia una palabra clave que la voz clonada no podría conocer, devolver la llamada al número guardado en lugar de confiar en el que llama, confirmar por un segundo canal antes de transferir dinero. Frente a la estafa de voz clonada —una de las aplicaciones más dañinas y crecientes en la región— ningún detector de audio compite con el simple protocolo de “te llamo yo a tu número de siempre”. La defensa más efectiva no requiere descargar nada.

La segunda alternativa es el apoyo comunitario y las redes de confianza: el fact-checking manual realizado por organizaciones periodísticas locales que conocen el contexto, los actores, las cadenas de WhatsApp. El verificador humano que reconoce que un audio atribuido a un político no encaja con cómo habla ese político, o que rastrea el origen de un video, sigue siendo el estándar de oro, precisamente porque opera sobre conocimiento situado que ningún detector entrenado en otra geografía posee.

La tercera —y aquí está la inversión conceptual decisiva— es dejar de perseguir la detección de lo falso y empezar a construir la verificación de lo auténtico. Es mucho más tratable, técnicamente, probar que un contenido es genuino que probar que es falso. Sellos criptográficos de procedencia, metadatos firmados desde la cámara que capturó el video, estándares de autenticación de contenido en el origen: en lugar de pedirle a una herramienta que adivine la falsedad después del hecho, se construye una cadena verificable de autenticidad desde el momento de captura. La carga se desplaza del detector imposible al certificado posible. Esta es la innovación que importa, y es infraestructural antes que algorítmica.

El contraargumento honesto: ¿no es mejor algo que nada?

Sería deshonesto cerrar sin enfrentar la objeción más fuerte. Si un detector imperfecto detecta el 80% de los deepfakes, ¿no es mejor tenerlo que no tenerlo? ¿No es el escepticismo de este ensayo un lujo de quien no recibe llamadas de extorsión con voces clonadas?

La objeción tiene fuerza, y la respuesta no es desechar las herramientas sino ubicarlas correctamente en el ecosistema. Una herramienta de detección puede ser útil como una señal más entre varias —nunca como veredicto final— cuando quien la usa entiende sus límites, su tasa de error, su sesgo geográfico y su fecha de caducidad. El daño no proviene de la herramienta sino de su uso acrítico: de tratar el “87% sintético” como una sentencia en lugar de como una pista falible. El problema, entonces, es de alfabetización sobre la herramienta, no de la herramienta en sí.

Pero —y aquí está el matiz que complica incluso mi propia tesis— esa alfabetización sobre los límites del detector es exactamente tan difícil de distribuir masivamente como la alfabetización visual que critiqué al inicio. Pedirle al ciudadano que sea experto en las tasas de error de los detectores es tan irrealista como pedirle que sea experto forense del píxel. Por eso la conclusión no puede descansar en educar al usuario sobre las herramientas, sino en rediseñar el ecosistema para que la confianza no dependa de la pericia individual de nadie. La carga debe moverse del individuo —sea como ojo entrenado o como usuario sofisticado de detectores— hacia la infraestructura: plataformas obligadas a etiquetar contenido sintético, bancos con protocolos de verificación que no asuman la autenticidad de una voz, estándares de procedencia incorporados en el origen.

Implicaciones y preguntas abiertas para la región

El espejismo del detector universal es atractivo porque ofrece una solución de mercado a un problema político. Comprar una suscripción es más fácil que reformar la gobernanza de las plataformas, exigir etiquetado obligatorio de contenido sintético, o financiar redes locales de verificación humana. Pero la facilidad es engañosa: el detector importado, caro, sesgado y perecedero, puede generar una falsa sensación de seguridad que es peor que la conciencia clara de la vulnerabilidad.

Para América Latina, esto deja varias preguntas que la región tendrá que responder con decisiones, no con descargas. ¿Quién financia el desarrollo y la actualización continua de herramientas de verificación adaptadas al español y a los rostros y voces de la región, dado que ni el país mejor posicionado tiene solo la masa crítica para hacerlo? ¿Es posible una infraestructura de verificación regional, compartida entre países, de código abierto y gobernanza pública, que rompa la dependencia del proveedor único? ¿Pueden los marcos regulatorios —el Plan argentino, la Estrategia peruana, la Agenda salvadoreña— pasar de la declaración de principios a la obligación concreta de que las plataformas que operan en la región etiqueten el contenido sintético y firmen criptográficamente el auténtico?

La anticipación, como lente, exige no esperar a que el problema escale. La inversión que importa no es en mejores detectores —una carrera que la región perderá siempre contra los generadores— sino en infraestructura de autenticación de origen, en campañas masivas que enseñen protocolos simples de verificación contextual antes que pericia forense, y en marcos legales que pongan la carga sobre quien produce y distribuye el engaño. Toffler advirtió hace medio siglo que el exceso de cambio sin estructuras de absorción produce parálisis y desorientación colectiva Future Shock; la respuesta latinoamericana al deepfake no puede ser otra herramienta más en la pila, sino las estructuras sociales y de infraestructura que hacen que la verificación sea fácil para todos, en lugar de un privilegio para los que pueden pagar la suscripción.

La pregunta de fondo no es “¿qué herramienta detecta deepfakes?”. Es “¿qué ecosistema hace que la verdad sea verificable sin convertir a cada ciudadano en un experto?”. El detector universal no existe, y perseguirlo nos distrae de construir lo que sí podemos: una arquitectura de confianza que no descanse sobre la pericia imposible del individuo, sino sobre protocolos compartidos, infraestructura pública y la obligación de las plataformas de no escupir engaño sin etiqueta. La detección automatizada es, en el mejor de los casos, una pieza menor de esa arquitectura. Tratarla como la solución es comprar el espejismo. Y los espejismos, en el desierto de la desinformación, matan de sed precisamente a quienes corren hacia ellos.