El terapeuta de bolsillo: por qué la región carece de la evidencia para evaluarlo
La pregunta que debería ocupar a la comunidad investigadora latinoamericana esta semana no es si los chatbots de salud mental funcionan. Es una pregunta metodológicamente anterior: no tenemos evidencia generada en la región para responderla, y estamos a punto de tomar decisiones de política pública —y de práctica clínica universitaria— sobre la base de ensayos diseñados para poblaciones que no se nos parecen.
Millones de personas en América Latina ya recurren a chatbots de IA como primer apoyo emocional ante la escasez estructural de psicólogos. El fenómeno está consolidado en la práctica y ausente en la literatura regional. Esa asimetría —adopción masiva sin base empírica local— es precisamente el tipo de vacío que define el trabajo de quienes investigan IA y educación en la región. No es un problema tecnológico. Es un problema de producción científica, de diseño de estudios y de financiamiento.
Conviene nombrar el delta respecto de lo que esta publicación ya argumentó. En enero analizamos el balance entre personalización y brecha digital en IA educativa, y en mayo y julio la tensión entre innovación y regulación en herramientas de IA. Aquí no repetimos ese balance genérico. El encuadre cambia: no discutimos si la herramienta es buena o mala, sino qué tendría que diseñar la comunidad investigadora latinoamericana para poder decirlo con rigor. El objeto de análisis deja de ser el chatbot y pasa a ser nuestra propia capacidad de generar evidencia.
El problema de validez externa: ensayos que no nos incluyen
La literatura sobre eficacia de chatbots conversacionales para síntomas de ansiedad y depresión existe, pero su geografía es estrecha. Los ensayos controlados disponibles se concentran en Estados Unidos, Reino Unido y Europa, con muestras universitarias o de población general de altos ingresos The promise and the peril of AI mental health chatbots. Esto plantea un problema de validez externa que no se resuelve traduciendo la interfaz al español.
Las variables que median la adherencia y el efecto terapéutico en población latinoamericana —familismo, religiosidad, las formas locales del estigma hacia la salud mental— no son ruido a controlar estadísticamente. Son moderadores plausibles del efecto. Un ensayo que demuestra una reducción de síntomas con d = 0.4 en estudiantes de una universidad estadounidense no autoriza a inferir el mismo tamaño de efecto en una cohorte de pregrado en Lima, Bogotá o Córdoba, donde la disposición a delegar la intimidad emocional en una máquina puede estar configurada por marcos culturales distintos.
El punto metodológico es elemental pero se ignora con frecuencia en la conversación de política pública: la transportabilidad de un efecto clínico requiere supuestos sobre la distribución de los moderadores en la población diana, y esos supuestos no se han testeado en la región. Cuando un ministerio de salud o un rectorado adopta una herramienta validada en otra parte, está haciendo una apuesta de transportabilidad sin los datos para sostenerla.
La universidad como laboratorio: oportunidad y trampa ética
La universidad latinoamericana es, en teoría, el escenario ideal para generar esa evidencia faltante. Concentra población joven con alta prevalencia de síntomas de ansiedad y depresión, ya equipada con smartphones, dentro de una estructura institucional que permite seguimiento longitudinal. Es un candidato natural para ensayos pragmáticos —diseños que evalúan la intervención en condiciones de uso real más que en el entorno controlado de la eficacia explanatoria.
Pero el diseño pragmático no exime del rigor; lo desplaza. Tres problemas metodológicos concretos exigen atención antes de reclutar al primer participante:
Primero, el comparador. Un ensayo que contrasta “chatbot” contra “lista de espera” sobreestima sistemáticamente el efecto, porque captura la atención inespecífica y la regresión a la media. El comparador honesto es el estándar de atención disponible —que en muchas universidades de la región es, de facto, nada o una lista de espera de meses para el servicio de bienestar estudiantil. Eso convierte la pregunta en una de ética del diseño: si el control refleja la escasez real, ¿estamos midiendo la eficacia del chatbot o la falla del sistema de atención?
Segundo, el IRB y el consentimiento informado. Los comités de ética de la investigación de muchas universidades latinoamericanas no tienen marcos consolidados para evaluar riesgos en intervenciones digitales de salud mental. ¿Qué protocolo de derivación se activa cuando el chatbot detecta ideación suicida en un participante? ¿Quién es responsable —la institución, el equipo investigador, el proveedor del modelo— si la derivación falla? El consentimiento informado debe explicitar que la herramienta no es un profesional y que sus respuestas pueden ser incorrectas, lo que introduce un sesgo de expectativa que afecta el propio resultado que se quiere medir.
Tercero, la deserción diferencial. En ensayos de aplicaciones de salud mental, las tasas de abandono superan habitualmente el 50% y no son aleatorias: abandonan más quienes no perciben beneficio. Un análisis por protocolo —solo quienes completaron— produce resultados sesgados al alza. El análisis por intención de tratar es obligatorio, y la deserción debe modelarse explícitamente, no descartarse como pérdida de seguimiento.
Quien diseñe estos estudios sin resolver estos tres puntos no producirá evidencia regional; producirá ruido publicable que, peor aún, podría usarse para justificar políticas.
La delegación emocional como objeto sociológico, no clínico
Aquí las categorías se cruzan. El efecto más interesante de los chatbots emocionales no es el que mide el ensayo clínico —reducción de puntajes en una escala de síntomas— sino el que escapa al diseño experimental: cómo la normalización de la conversación con máquinas reconfigura la relación de las personas con el cuidado emocional.
La hipótesis sociológica tiene dos brazos opuestos y ambos plausibles. La delegación en una máquina puede reducir el estigma —es más fácil confesarle a un chatbot lo que no se le confiesa a un humano por vergüenza— y así funcionar como puerta de entrada a la búsqueda de ayuda profesional. O puede operar como sustituto que desactiva esa búsqueda: la persona obtiene alivio sintomático suficiente para no escalar a un servicio que, de todos modos, no está disponible. Ninguna de las dos hipótesis se confirma con un ensayo de eficacia. Requieren métodos mixtos —encuestas longitudinales que rastreen trayectorias de búsqueda de ayuda combinadas con entrevistas en profundidad sobre el significado que los usuarios atribuyen a la interacción.
García Canclini advirtió sobre los ciudadanos reemplazados por algoritmos, y la metáfora aplica con precisión incómoda aquí: cuando lo que subsiste del Estado de bienestar no alcanza a sostener servicios de salud mental, el algoritmo no llena el vacío, lo administra. La pregunta de investigación no es si el chatbot funciona, sino qué función social cumple en ausencia del servicio que debería existir.
Un brazo de esta indagación es particularmente delicado y particularmente nuestro: las comunidades indígenas pueden interpretar las respuestas del chatbot dentro de marcos de autoridad espiritual, atribuyéndoles un estatus de “voz” que el diseño nunca contempló. Esto no es una curiosidad antropológica. Es un riesgo de daño real que ningún IRB anglosajón anticipó porque ningún ensayo anglosajón lo enfrentó. Investigar esto exige etnografía, no solo psicometría, y exige investigadores que hablen las lenguas y conozcan los marcos cosmológicos involucrados.
El instrumento que falta: medir alfabetización en IA para la salud
Si vamos a desplegar estas herramientas —y se desplegarán, con o sin nuestra aprobación— necesitamos saber si las personas que las usan pueden hacerlo de forma segura. Y aquí hay un vacío instrumental concreto: no existe una escala validada que mida la alfabetización en IA aplicada a la salud emocional, ni en general ni mucho menos calibrada para población latinoamericana.
Las dimensiones que un instrumento así debería capturar son identificables. Reconocer alucinaciones —saber que el modelo puede afirmar con total fluidez algo falso o peligroso. Entender la privacidad —comprender que lo que se confiesa al chatbot es un dato que viaja a un servidor, frecuentemente fuera de la jurisdicción nacional. Y saber cuándo escalar —reconocer las señales de que la situación excede lo que una herramienta puede manejar y requiere intervención humana inmediata.
El desafío de construcción de escala es técnico y cultural a la vez. La mayoría de los instrumentos de alfabetización digital asumen un sujeto individualista que toma decisiones autónomas sobre su información. Ese supuesto no se sostiene en contextos donde la decisión de buscar ayuda emocional es familiar o comunitaria antes que individual. Una escala que pregunta “¿sabes proteger tu privacidad?” mide algo distinto en una persona que entiende su salud mental como asunto privado y en una que la entiende como asunto del núcleo familiar.
El trabajo de validación —análisis factorial confirmatorio, invarianza de medición entre subgrupos lingüísticos y culturales, evidencia de validez predictiva respecto de comportamientos de uso seguro— es exactamente el tipo de producción científica que la región puede liderar porque nadie más tiene incentivo para hacerlo. Es, además, financiable: encaja en las convocatorias de CONICET, CNPq y CONACYT sobre tecnología y sociedad, y no requiere la infraestructura de cómputo que pone fuera de alcance otras líneas de investigación en IA.
El sesgo está en los datos, no en la interfaz
En la capa técnica, el problema es de procedencia de los datos de entrenamiento. Los modelos base —las familias GPT y Llama sobre las que se construyen la mayoría de estos chatbots— están entrenados con corpus predominantemente occidentales y anglosajones The promise and the peril of AI mental health chatbots. Esto significa que las representaciones internas del modelo sobre qué constituye angustia, qué respuesta es apropiada y qué expresión emocional es “normal” están calibradas sobre una población que no es la nuestra.
El fine-tuning con corpus locales —foros de salud mental en español, registros de líneas de apoyo, transcripciones anonimizadas— puede reducir estos sesgos. Pero esto introduce dos problemas que la comunidad investigadora debe enfrentar con honestidad metodológica.
El primero es de calidad y representatividad del corpus. Un foro de salud mental en español no es una muestra representativa de la población hispanohablante; sobrerrepresenta a quienes tienen conectividad, alfabetización digital y disposición a escribir sobre su sufrimiento. Hacer fine-tuning sobre ese corpus puede corregir el sesgo anglosajón sustituyéndolo por un sesgo de clase y de acceso. Y el español de los foros no es el español de las zonas rurales ni el de los hablantes bilingües de lenguas originarias.
El segundo es legal y ético. Los datos de fine-tuning son datos sensibles de salud, y su uso en jurisdicciones latinoamericanas con marcos de protección de datos heterogéneos —algunos robustos, muchos incipientes— es un campo minado de consentimiento, anonimización y responsabilidad. La anonimización de texto narrativo de salud mental es notoriamente difícil: los detalles que hacen útil el dato son los mismos que permiten reidentificar a la persona. Un equipo que publique un modelo fine-tuneado sin documentar la procedencia, el consentimiento y el método de anonimización de su corpus no está haciendo ciencia reproducible; está exponiendo a personas vulnerables.
Que significa esto para investigadoras e investigadores
El arco que recorre este briefing —de la validez externa al sesgo de datos, pasando por la sociología de la delegación y el vacío instrumental— converge en implicaciones concretas para el trabajo de esta semana.
Sobre el diseño de estudios. Si tienen un protocolo de chatbot de salud mental en preparación o en revisión, sometan tres decisiones a escrutinio explícito: la elección del comparador (¿refleja el estándar de atención real o infla el efecto?), el protocolo de derivación ante riesgo (¿qué pasa exactamente cuando se detecta ideación suicida, con responsabilidades nombradas?) y el plan de análisis de deserción (intención de tratar, con modelado explícito del abandono no aleatorio). Estas no son notas al pie metodológicas; determinan si el estudio produce evidencia o ruido.
Sobre el IRB. Anticipen que el comité de ética de su institución probablemente carece de un marco para intervenciones digitales de salud mental. En lugar de tratar esto como obstáculo burocrático, traten la construcción de ese marco como contribución publicable. Documentar cómo se resolvieron las cuestiones de consentimiento, derivación y responsabilidad institucional en un ensayo concreto es, en sí mismo, un aporte a la literatura regional.
Sobre el financiamiento. La línea de validación de instrumentos de alfabetización en IA para la salud es financiable con recursos al alcance de los regímenes de dedicación docente y las convocatorias nacionales, sin requerir infraestructura de cómputo de gran escala. Es una oportunidad para que grupos sin acceso a GPU de frontera produzcan investigación de primer nivel y relevancia inmediata. Considérenla para la próxima convocatoria de CONICET/CNPq/CONACYT/CONCYTEC.
Sobre la autoría y la colaboración. El trabajo con comunidades indígenas y con marcos de autoridad espiritual no se hace sobre esas comunidades sino con ellas. Eso implica repensar la autoría: los marcos de coautoría y consentimiento comunitario, no solo individual, deben establecerse en el diseño, no negociarse al momento de publicar. Un paper sobre cómo las comunidades amazónicas interpretan las respuestas de un chatbot, escrito sin participación de esas comunidades, reproduce la extracción que dice estudiar.
Sobre la documentación de datos. Si hacen fine-tuning con corpus locales, documenten procedencia, consentimiento, método de anonimización y prueba de reidentificación con el mismo rigor que dedicarían a la sección de métodos. Publiquen el datasheet del dataset aunque no puedan publicar el dataset. La reproducibilidad en este campo no es opcional cuando las personas detrás de los datos son vulnerables.
Sobre las alternativas que ya operan. Antes de proponer un nuevo chatbot, mapeen lo que ya funciona en su contexto: líneas telefónicas de apoyo como la Línea de la Vida en México, aplicaciones comunitarias como Cuida tu Estado de Ánimo en Colombia, las brigadas escolares de salud mental. Un estudio que compare honestamente el chatbot contra estas alternativas existentes —no contra el vacío— es más útil para la política pública y más difícil de descartar metodológicamente.
Cierre: la evidencia como acto de soberanía
La tentación, ante la velocidad de adopción, es saltar a la implementación. Los chatbots ya están aquí; los estudiantes ya los usan; los servicios de bienestar de las universidades ya se preguntan si adoptarlos. La presión institucional empuja hacia la decisión rápida basada en la evidencia disponible —que es evidencia ajena.
El argumento de este briefing es que la respuesta de la comunidad investigadora no debe ser ni el rechazo reflejo ni la adopción acrítica, sino la producción acelerada de evidencia propia. No porque la región sea un caso especial por capricho identitario, sino porque los moderadores culturales del efecto son reales, los marcos de protección de datos son distintos, y las alternativas existentes son nuestras. Generar esa evidencia es una forma de soberanía científica: la capacidad de decidir sobre la base de datos que nos describen.
La advertencia de Peirano sobre los límites de la ciencia del comportamiento para controlar las emociones —exitosa en modelar conducta, mucho menos en gestionar el afecto— es pertinente como cautela final. Estamos desplegando herramientas que prometen intervenir en la emoción con técnicas diseñadas para modelar la conducta. Esa brecha entre lo que la herramienta promete y lo que la evidencia sostiene es, precisamente, el espacio donde la investigación rigurosa tiene que trabajar.
La próxima convocatoria de financiamiento, el próximo protocolo que pase por el IRB, la próxima tesis de posgrado que busque tema: ahí se decide si la región será sujeto u objeto de esta investigación. La demanda insatisfecha de salud mental no la vamos a resolver con un chatbot. Pero podemos negarnos a que se administre nuestra carencia con evidencia que no nos incluye.