Cómo la IA puede acelerar (o frenar) la extinción de las lenguas minorizadas como el catalán, el gallego o el euskera

Un estudio editado por la Fundació Irla i Coppieters Foundation revela que el factor determinante para que una lengua tenga presencia en un modelo de Inteligencia Artificial no es tanto el número de hablantes como la disponibilidad de datos digitales de calidad.

Un usuari entra a ChatGPT — Un usuario entra en ChatGPTAina Martí/ACN

Judit Castaño

Barcelona-06/02/2026 11:03

La Inteligencia Artificial (IA) supondrá -o ya está suponiendo- un reto para muchos sectores laborales y en muchos ámbitos de la sociedad. Concretamente la IA generativa está transformando de manera profunda cómo producimos, distribuimos y consumimos información. También será un reto para las lenguas minorizadas como el catalán, el gallego o el euskera, que ya llevan años - desde los inicios de internet - remando a contracorriente para estar presentes en el mundo digital, basado en una serie de algoritmos que a menudo las invisibiliza. ¿Cómo afectará ahora la IA a las lenguas europeas no hegemónicas?

Es una de las preguntas que responde el estudio La IA en el futuro de las lenguas europeas no hegemónicas, de Albert Cuesta y editado por la Fundació Irla -vinculada a Esquerra Republicana de Catalunya- y Coppieters Foundation, que afirma que el despliegue acelerado de la IA puede convertirse tanto en una oportunidad histórica para la preservación de la diversidad lingüística como un factor de agravamiento de las desigualdades ya existentes entre lenguas dominantes y lenguas minorizadas.

De primeras, se podría pensar que cuantos más hablantes tiene una lengua, más presencia tiene en el mundo digital. Pero el estudio desmonta esta tesis, ya que concluye que el factor determinante para que una lengua tenga espacio en un modelo de IA no es tanto el número de hablantes como la disponibilidad de datos digitales de calidad. Esto son grandes corpus de texto, grabaciones de voz, diccionarios, datos anotados y recursos lingüísticos estructurados.

El estudio parte del hecho de que Europa es uno de los territorios con más riqueza lingüística del mundo. Conviven más de 250 lenguas, muchas de las cuales son regionales, minoritarias o minorizadas. Entre 40 y 50 millones de ciudadanos de la Unió Europea hablan habitualmente alguna de estas lenguas. Pero esta diversidad no tiene un reflejo proporcional en el entorno digital. La mayoría de estas lenguas tienen una presencia escasa o marginal en internet y en los sistemas tecnológicos avanzados. De hecho, menos del 5% de las lenguas del mundo disponen de una representación significativa en internet.

Esta desigualdad no es accidental. Según el estudio, es el resultado de procesos históricos de minorización, asimilación lingüística y desigualdades de poder que han limitado el uso público, educativo y administrativo de muchas lenguas. La IA, lejos de corregir automáticamente estas desigualdades, tiende a reproducirlas e incluso a amplificarlas, ya que los modelos de aprendizaje automático aprenden a partir de los datos existentes. Por lo tanto, si una lengua es invisible en el ámbito digital, también lo será para los sistemas de IA.

La mayoría de las lenguas tienen una presencia escasa o marginal en internet y en los sistemas tecnológicos avanzados

Pero la IA ofrece herramientas que la tecnología convencional no ofrece, como las tecnologías de procesamiento del lenguaje natural, que permiten documentar lenguas con una fuerte tradición oral mediante la transcripción automática de voz, facilitar la creación de diccionarios y gramáticas, y construir archivos digitales que aseguren la preservación del conocimiento lingüístico a largo plazo. Estas herramientas reducen de manera drástica los costes y el tiempo necesarios para tareas que hasta ahora requerían una dedicación manual muy elevada.

Por lo tanto, la IA puede contribuir a la revitalización de algunas lenguas minorizadas. Las aplicaciones basadas en IA pueden conectar hablantes nativos y aprendices separados geográficamente, ofrecer una práctica lingüística continuada y adaptar los contenidos al nivel y al ritmo de cada usuario. En términos de accesibilidad y derechos lingüísticos, la traducción automática y los asistentes digitales pueden facilitar el acceso a servicios públicos, sanitarios y educativos en lenguas no hegemónicas, mejorando la participación social y reduciendo barreras comunicativas.

Pero no todo son ventajas, el estudio alerta de los riesgos de la IA. El primero es la ampliación de la brecha digital. Las lenguas que no están bien representadas en los modelos de IA quedan excluidas de los nuevos servicios y aplicaciones, lo que genera una nueva forma de exclusión. A esto se le añaden los sesgos algorítmicos, ya que los modelos tienden a reflejar las normas, valores y visiones del mundo de las lenguas dominantes, a menudo en detrimento de las culturas minorizadas.

Otro riesgo clave es la homogeneización cultural. La producción masiva de contenidos en pocas lenguas globales puede desplazar las lenguas no hegemónicas de los espacios de creación simbólica y narrativa. Además, la falta de transparencia de los grandes modelos comerciales, a menudo concebidos como cajas negras, dificulta saber cómo tratan realmente estas lenguas y limita la capacidad de las comunidades para intervenir o corregir sus déficits.

Relacionado con este tema

La Wikipedia catalana alcanza las 800.000 entradas: "El activismo lingüístico ha sido la clave del éxito"

Judit Castaño

¿Cómo se puede revertir esta situación?

El estudio muestra que hay maneras de revertir esta situación. A través de varios casos de estudio —como el Projecte AINA para el catalán, las iniciativas de traducción automática en euskera o la experiencia islandesa con modelos globales— se demuestra que la proactividad institucional, la inversión en datos abiertos, la colaboración público-privada y la implicación de la comunidad son factores determinantes para garantizar una presencia digital.

El estudio también defiende la necesidad de que las grandes empresas tecnológicas apuesten por indicadores más justos que permitan evaluar la calidad de los sistemas de IA más allá del simple rendimiento estadístico, y que no penalicen sistemáticamente las lenguas minorizadas.

La Ley de Inteligencia Artificial de la Unió Europea no aborda explícitamente la cuestión lingüística

En cuanto a la regulación, según el estudio, la Ley de Inteligencia Artificial de la Unión Europea no aborda explícitamente la cuestión lingüística, pero establece principios como la transparencia, la seguridad y la protección de los derechos fundamentales que pueden tener un impacto indirecto en la diversidad lingüística. El estudio señala que la implementación de esta normativa es una oportunidad para incorporar una vertiente lingüística que evite reforzar aún más el predominio de las lenguas hegemónicas.

Judit Castaño

Redactora de Pauta Media para Públic. Escribe sobre la actualidad política y social catalana, mundo local y tendencias. Graduada en Comunicación y Periodismo, antes estuvo en las ediciones territoriales de La Vanguardia, donde también formó parte del equipo de verticales digitales. Colabora con el diario para jóvenes Junior Report. Redactora de Pauta Media per Públic. Escriu sobre l’actualitat política i social, món local i tendències. Graduada en Comunicació i Periodisme, va començar fent premsa comarcal a Tarragona i a les edicions territorials de La Vanguardia, on també va formar part de l’equip de verticals. Col·labora amb el diari per a joves Junior Report.

Etiquetas

Vídeos de 'Público'

Te puede interesar

Comentarios de nuestros socias/os