Briefing por Audiencia

El espejismo de la detección: por qué la alfabetización visual no puede ser la única defensa contra los deepfakes en América Latina

Hay una tentación recurrente en el discurso global sobre desinformación sintética: convertir al ciudadano en perito forense. Las campañas anglosajonas insisten en que aprendamos a contar los dedos en las manos generadas, a detectar parpadeos irregulares, a sospechar de la iluminación inconsistente. Esta semana, el peso de la evidencia disponible nos obliga a ser más exigentes con esa narrativa, no porque la alfabetización sea inútil, sino porque trasladar la carga de la detección al individuo es, en el contexto latinoamericano, una forma de abdicación institucional disfrazada de empoderamiento.

La tesis es directa: la alfabetización en detección de deepfakes es necesaria pero estructuralmente insuficiente. En una región donde las herramientas forenses no llegan, no están en español, o están bloqueadas por geografía y costo, exigir que cada ciudadano sea capaz de auditar un audio clonado es trasladar a la población una responsabilidad que corresponde a plataformas, bancos y reguladores. Para nuestra audiencia —investigadoras e investigadores activos en IA y educación— esto no es un lamento. Es una agenda de investigación con vacíos de evidencia específicos, problemas de diseño abiertos y un déficit de datos regionales que solo la comunidad científica latinoamericana puede subsanar.

Conviene aclarar de entrada el alcance metodológico de lo que sigue. La literatura sobre detección de deepfakes está dominada por benchmarks construidos sobre poblaciones angloparlantes y condiciones de captura que no representan la distribución real del fenómeno en la región. Cuando hablamos de “estado del arte”, hablamos de un arte calibrado para otra realidad. Ese es, precisamente, el punto de entrada para el trabajo que nos corresponde.

El sesgo de distribución: por qué los detectores fallan donde más se les necesita

El primer problema es de validez externa. Los modelos de detección entrenados sobre datasets como FaceForensics++ o DFDC alcanzan métricas impresionantes en condiciones de laboratorio, pero su desempeño se degrada sistemáticamente fuera de la distribución de entrenamiento. Para América Latina, la distribución relevante incluye tres factores que esos benchmarks subrepresentan: compresión agresiva (el video que circula por WhatsApp ha pasado por reencodings sucesivos), baja resolución de captura (cámaras de gama media, condiciones de iluminación deficientes) y características fonético-acústicas del español regional con sus variantes de acento.

La consecuencia no es trivial. Un detector con alta tasa de falsos positivos sobre contenido latinoamericano legítimo es peor que inútil: erosiona la confianza en la herramienta y, peor aún, puede ser instrumentalizado para desacreditar evidencia audiovisual auténtica. Esto conecta directamente con un hallazgo de las ciencias sociales que la investigación regional debe tomar en serio: la exposición a deepfakes no solo nos hace creer en lo falso, sino que erosiona la confianza en toda evidencia audiovisual, incluida la real. Marta Peirano lo formuló con precisión en El enemigo conoce el sistema, donde documenta cómo “las cuentas que diseminaron informaciones falsas durante la campaña electoral aún estaban activas” y cómo “la sociedad civil no dispone de conocimiento o de la capacidad necesaria para protegerse” (El enemigo conoce el sistema). El fenómeno tiene nombre técnico en la literatura: el liar’s dividend, el dividendo del mentiroso, por el cual la mera existencia de deepfakes permite a actores de poder descartar grabaciones genuinas como falsificaciones.

Para la audiencia investigadora, esto define un problema de diseño experimental. Si vamos a evaluar detectores para despliegue regional, los protocolos de validación no pueden usar las métricas estándar sobre los datasets estándar. Necesitamos test sets que incorporen la cadena de degradación real: capturar contenido, pasarlo por la compresión efectiva de WhatsApp y videollamadas, y medir robustez sobre ese pipeline. La pregunta de investigación no es “¿este modelo detecta deepfakes?”, sino “¿este modelo mantiene precisión y recall aceptables tras compresión extrema y sobre hablantes de español rioplatense, caribeño y andino?”. Esa es una pregunta que, hasta donde alcanza la evidencia disponible, casi nadie está respondiendo con rigor para la región.

El vacío de datos: no hay benchmark regional, y eso es un problema de investigación, no de ingeniería

El obstáculo de fondo es la ausencia de conjuntos de datos representativos. Sin un benchmark regional de deepfakes en español —con la diversidad de acentos, escenarios de uso (estafa financiera, extorsión, desinformación electoral, bullying escolar) y condiciones de captura propias de la región— cualquier afirmación sobre el desempeño de una herramienta en América Latina es, metodológicamente, una extrapolación no validada.

Construir ese dataset no es una tarea de ingeniería que pueda subcontratarse. Es investigación que arrastra problemas no resueltos de ética y gobernanza que esta publicación ya ha señalado en contextos adyacentes. Cuando analizamos los desafíos éticos de la IA educativa, sostuvimos que la integración responsable depende de marcos de gobernanza explícitos (Análisis crítico: IA en educación superior). El delta de esta semana es concreto: aquí el problema de gobernanza no es abstracto sino operativo. ¿Cómo se construye un dataset de deepfakes sin generar material que pueda ser reutilizado para causar daño? ¿Qué aprobación de comité de ética (IRB) requiere recolectar audios clonados de voces reales, aunque sea con consentimiento? ¿Cómo se maneja el consentimiento de las personas cuyas voces o rostros sirven de base para los ejemplos sintéticos?

Estas no son preguntas retóricas. Son condiciones de viabilidad para el financiamiento. Un proyecto presentado a CONICET, CNPq, CONACYT o CONCYTEC que proponga construir un corpus de deepfakes en español enfrentará —correctamente— escrutinio ético severo. La recomendación práctica es anticipar ese escrutinio en el diseño: trabajar con datos generados sobre voluntarios con consentimiento informado robusto, segregar el acceso al dataset bajo acuerdos de uso restringido, y documentar el data statement con el detalle que la literatura de procesamiento de lenguaje natural ya exige. La alternativa —scraping de contenido sintético que circula en la red— es metodológicamente más sucia (no hay ground truth confiable sobre qué es real y qué es falso) y éticamente más expuesta.

Aquí hay una vía de colaboración que la evidencia regional respalda: trabajar con organizaciones de fact-checking. Los verificadores latinoamericanos —que ya operan como el estándar de oro de la verificación manual— acumulan casos reales de deepfakes en circulación con contexto documentado. Esa colaboración resuelve simultáneamente el problema del ground truth y el de la representatividad de la distribución. El fact-checking manual sigue siendo, hoy, la línea de defensa más confiable, y los datos que genera son un activo de investigación infrautilizado.

La detección debe vivir donde vive el fenómeno: WhatsApp, TikTok, la llamada telefónica

Hay una desconexión entre dónde se investiga la detección y dónde ocurre el daño. Las herramientas globales de detección de deepfakes —de Microsoft, OpenAI y empresas emergentes— no tienen versiones optimizadas para español, requieren suscripción o están bloqueadas por región, y exigen subir archivos pesados a través de interfaces en inglés técnico. Ninguna de esas condiciones se cumple en el canal donde el ciudadano latinoamericano efectivamente encuentra el contenido sospechoso: un audio de voz en un chat de WhatsApp, un video corto en TikTok, una llamada telefónica con una voz clonada que pide dinero.

Esto reordena las prioridades de investigación en visión computacional y procesamiento de audio. Un modelo de detección que requiere resolución de estudio y archivos sin comprimir resuelve un problema que la región no tiene. El problema que la región sí tiene es la detección sobre el audio de una nota de voz de WhatsApp de quince segundos, comprimida con el códec Opus a baja tasa de bits, en español caribeño, capturada en un entorno ruidoso. Los desarrollos que importan son los que mantienen desempeño bajo esa degradación específica.

La aplicabilidad manda. Cuando esta publicación analizó las promesas de transformación de las herramientas de IA, advertimos que el éxito depende de superar limitaciones concretas de infraestructura y equidad, no de la viabilidad técnica en abstracto (Análisis crítico: herramientas de IA). El contraste de esta semana es que el caso de los deepfakes invierte la habitual relación: aquí la tecnología de detección no es la solución que busca un problema, sino una capacidad genuinamente demandada que está mal calibrada para su contexto de uso. El problema no es de adopción; es de diseño orientado a la distribución equivocada.

Para investigadoras de audio, esto sugiere una agenda específica: detección de clonación de voz robusta a compresión Opus y a las condiciones acústicas de la telefonía móvil regional. Para investigadoras de visión, detección de manipulación facial que tolere los artefactos de la videollamada de baja calidad. En ambos casos, la métrica relevante no es la precisión en condiciones ideales sino la curva de degradación: cuánto se pierde a medida que aumenta la compresión y baja la resolución.

Alfabetización: medir comportamiento, no conocimiento

El componente educativo del problema tiene su propio déficit de evidencia, y es uno que la investigación en alfabetización debe corregir con urgencia. La pregunta no es si las intervenciones de alfabetización transmiten conocimiento —eso es relativamente fácil de lograr y de medir— sino si cambian el comportamiento de verificación en el momento crítico. Una persona puede aprobar un cuestionario sobre señales de deepfakes y, aun así, transferir dinero cuando recibe la llamada de una voz que suena exactamente como la de su hija.

La evidencia disponible sobre canales sugiere que los videos cortos en TikTok y WhatsApp tienen mayor alcance que los folletos o los cursos en línea, y que las simulaciones interactivas —ponerse en el rol del estafador— mejoran la retención de comportamientos de verificación frente a la instrucción pasiva. Pero “mayor alcance” y “mejor retención” son afirmaciones que requieren escrutinio metodológico. ¿Mayor alcance medido cómo: impresiones, finalización del video, recuerdo a las setenta y dos horas? ¿Mejor retención de qué: del conocimiento declarativo o de la conducta de verificación?

Aquí está el desafío de diseño para la investigación en ciencias sociales y educación: la variable dependiente correcta no es el conocimiento autorreportado sino el comportamiento observado. Medir si una campaña funciona implica medir si las personas efectivamente llaman a verificar antes de actuar, idealmente en un diseño que capture conducta y no intención declarada. Esto exige diseños experimentales más caros y complejos —ensayos controlados con medición de comportamiento, ojalá con seguimiento longitudinal— que los estudios habituales de pre-test/post-test sobre conocimiento. Y exige tamaños muestrales que sostengan el análisis: una intervención evaluada sobre treinta participantes con un cuestionario de conocimiento no nos dice nada útil sobre cambio conductual poblacional.

La dimensión de poder no puede quedar fuera del diseño. En contextos de alta polarización política, los deepfakes se usan instrumentalmente para desacreditar voces opositoras, y la alfabetización que solo enseña a detectar artefactos técnicos —sin enseñar a analizar quién se beneficia de que un contenido sea creído o descreído— produce ciudadanos técnicamente competentes pero políticamente desarmados. García Canclini, en Ciudadanos reemplazados por algoritmos, sitúa esta tensión en el centro del problema contemporáneo de la ciudadanía mediada por sistemas automatizados (Ciudadanos reemplazados por algoritmos). La alfabetización efectiva, entonces, debe incorporar el análisis de poder como variable, no como adorno crítico. Esto define una hipótesis investigable: las intervenciones que combinan detección técnica con análisis de incentivos producen mejor discriminación que las que enseñan solo detección técnica.

El ecosistema de verificación: la infraestructura como objeto de investigación

Si la alfabetización individual es insuficiente, la pregunta es qué la complementa. La respuesta apunta a la infraestructura: hacer la verificación fácil en lugar de exigir que el ciudadano sea experto. Esto incluye los sellos de verificación de contenido que algunas plataformas implementan, el etiquetado obligatorio de contenido sintético, y mecanismos de verificación contextual de baja tecnología —como acordar una palabra clave familiar para confirmar identidad en una llamada sospechosa— que funcionan sin requerir ninguna herramienta forense.

Para la investigación, esto abre un frente que excede la visión computacional: el estudio empírico de la efectividad de los mecanismos de procedencia y etiquetado. ¿Las etiquetas de “contenido generado por IA” modifican efectivamente la credulidad del usuario, o se vuelven ruido que se ignora? ¿Los estándares de procedencia de contenido sobreviven a la compresión de WhatsApp que destruye los metadatos? Estas son preguntas medibles, y la respuesta determina si las soluciones de infraestructura que el discurso global da por sentadas funcionan en el canal de distribución real de la región.

El punto editorial es que la detección no debe entenderse como un problema de un modelo aislado sino de un sistema sociotécnico. La continuidad con nuestra posición previa sobre la necesidad de marcos regulatorios y alfabetización es clara, pero el delta importa: lo que antes planteamos como recomendación de política general, hoy se especifica como agenda de investigación con preguntas falsables sobre qué componentes del ecosistema funcionan y bajo qué condiciones de degradación.

Qué significa esto para investigadoras e investigadores

Las implicaciones para la práctica de investigación de esta semana son concretas y accionables.

Sobre el diseño de evaluación. Si trabaja en detección de deepfakes con miras a despliegue regional, abandone las métricas sobre datasets estándar como evidencia suficiente. Construya o adopte un test set que incorpore la cadena de degradación real: compresión de WhatsApp, códecs de telefonía, baja resolución, español regional. Reporte la curva de degradación, no solo el desempeño en condiciones ideales. Un revisor par competente debería rechazar afirmaciones de aplicabilidad regional sostenidas únicamente sobre FaceForensics++ o DFDC.

Sobre la construcción de datos. Si su proyecto contempla construir un corpus regional, planifique la aprobación ética desde el inicio, no como trámite posterior. El consentimiento informado para clonación de voz y rostro, los acuerdos de acceso restringido al dataset y el data statement documentado son condiciones de publicabilidad y de financiamiento. Considere la colaboración con organizaciones de fact-checking como vía simultánea para obtener ground truth confiable y distribución representativa.

Sobre los estudios de intervención. Si investiga alfabetización, mida comportamiento, no solo conocimiento. Un diseño que solo reporta cambio en cuestionarios de conocimiento no responde la pregunta relevante. Dimensione la muestra para detectar efectos conductuales, incorpore seguimiento longitudinal donde sea posible, y haga explícitas las limitaciones cuando el diseño solo captura intención declarada. Incorpore la variable de análisis de poder en las condiciones experimentales: es una hipótesis investigable, no un compromiso ideológico.

Sobre el financiamiento. El argumento de que América Latina necesita benchmarks regionales, detección robusta a compresión y estudios de intervención con medición conductual constituye una justificación sólida para convocatorias de CONICET, CNPq, CONACYT y CONCYTEC. La relevancia social —estafas financieras, extorsión, desinformación electoral— es directa y documentable, lo que fortalece la sección de impacto de cualquier propuesta. La colaboración interdisciplinaria entre grupos de visión/audio y de ciencias sociales no es un adorno: es estructuralmente necesaria para abordar el problema completo, y los esquemas de financiamiento que premian la interdisciplinariedad deberían acogerla.

Sobre la autoría y la producción científica. El campo está suficientemente abierto como para que contribuciones regionales bien diseñadas tengan impacto real. No hay todavía un benchmark de español que se haya consolidado como estándar; quien lo construya con rigor metodológico y gobernanza ética sólida ocupará un espacio de referencia. Esto es relevante para investigadoras en etapas tempranas que buscan líneas con margen de contribución original frente a campos ya saturados.

Observación prospectiva

La conversación global se moverá, previsiblemente, hacia la procedencia criptográfica del contenido como solución dominante: estándares que firman el contenido en origen para certificar su autenticidad. Es una dirección sensata, pero la lección de esta semana es que ningún estándar de procedencia sobrevive intacto a la cadena de distribución latinoamericana, donde la compresión sucesiva y el reenvío destruyen metadatos rutinariamente. La pregunta de investigación que anticipamos como central para los próximos ciclos es la robustez de los mecanismos de procedencia bajo las condiciones reales de circulación regional —y esa es una pregunta que solo se responde con datos de la región.

La tentación de delegar la defensa en el ciudadano-perito persistirá, porque es barata y desplaza la responsabilidad lejos de plataformas y reguladores. La comunidad investigadora latinoamericana tiene la oportunidad —y la obligación metodológica— de generar la evidencia que demuestre lo que el discurso global da por sentado sin probarlo: que la alfabetización individual, sin un ecosistema de verificación accesible, es una defensa que falla precisamente donde el daño es mayor. Esa demostración no se hace con opinión. Se hace con datasets representativos, diseños experimentales que midan comportamiento, y curvas de degradación honestas. El trabajo está disponible. Falta hacerlo.