Google y un consorcio de instituciones de investigación africanas han lanzado el conjunto de datos WAXAL, un nuevo esfuerzo importante para… The post Google to train AI in 21 African languagesGoogle y un consorcio de instituciones de investigación africanas han lanzado el conjunto de datos WAXAL, un nuevo esfuerzo importante para… The post Google to train AI in 21 African languages

Google entrenará IA en 21 idiomas africanos, incluidos yoruba, hausa e igbo

2026/02/02 22:00
Lectura de 5 min

Google y un consorcio de instituciones de investigación africanas han lanzado el conjunto de datos WAXAL, un importante esfuerzo nuevo para corregir uno de los principales desafíos de la inteligencia artificial (IA) en el continente: su incapacidad para interpretar y comprender la mayoría de los idiomas africanos.

El proyecto ofrece un gran conjunto de datos de voz abierto que abarca 21 idiomas del África subsahariana y lleva la tecnología de voz a más de 100 millones de personas excluidas de la economía de la IA.

El conjunto de datos WAXAL es el producto de una colaboración de tres años financiada por Google y liderada por universidades locales y grupos comunitarios.

Incluye 1.250 horas de habla natural transcrita y más de 20 horas de grabaciones de calidad de estudio destinadas a crear voces sintéticas de alta fidelidad. Se dirige a idiomas como hausa, yoruba, luganda, igbo y acholi, muchos de los cuales son hablados por decenas de millones pero permanecen en gran medida invisibles para los sistemas de voz comerciales.

Google y las universidades africanas lanzan el conjunto de datos WAXAL para entrenar la IA en 21 idiomas africanos, incluidos yoruba, hausa e igbo

A pesar de todo lo que se habla sobre la IA global, las tecnologías de voz todavía se inclinan fuertemente hacia el inglés y un puñado limitado de idiomas europeos y asiáticos. África, hogar de más de 2.000 idiomas, ha quedado al margen.

Esa brecha no es académica; determina quién puede usar servicios digitales, quién puede acceder a herramientas de educación y atención médica, y quién puede construir empresas sobre plataformas de IA modernas. Google presentó el trabajo como un paso hacia la reducción de una brecha de datos de larga data que ha mantenido a muchos idiomas africanos fuera de los asistentes de voz y otras herramientas.

Por qué el conjunto de datos WAXAL es importante para la arquitectura de IA de África

Más allá de abordar directamente este desequilibrio, el proyecto importa tanto como los datos en sí.

A diferencia de iniciativas anteriores donde los datos de voz africanos fueron extraídos y poseídos en otros lugares, WAXAL fue liderado sobre el terreno por instituciones africanas. La Universidad de Makerere en Uganda, la Universidad de Ghana y Digital Umuganda en Ruanda supervisaron la recopilación de datos, el compromiso comunitario y la gestión lingüística, con apoyo técnico de Google Research Africa.

Crucialmente, esas instituciones retienen la propiedad de los datos. Ese es un cambio notable en un campo a menudo criticado por reproducir dinámicas extractivas bajo el estandarte de la apertura.

Según Aisha Walcott-Bryant, directora de Google Research Africa, "El impacto final de WAXAL es el empoderamiento de las personas en África. Este conjunto de datos proporciona la base crítica para que estudiantes, investigadores y emprendedores construyan tecnología en sus propios términos, en sus propios idiomas, llegando finalmente a más de 100 millones de personas".

"Esperamos ver a los innovadores africanos usar estos datos para crear de todo, desde nuevas herramientas educativas hasta servicios habilitados por voz que creen oportunidades económicas tangibles en todo el continente", agregó. 

Google y las universidades africanas lanzan el conjunto de datos WAXAL para entrenar la IA en 21 idiomas africanos, incluidos yoruba, hausa e igboAisha Walcott-Bryant, directora de Google Research Africa

Ese enfoque es respaldado por las universidades involucradas. Joyce Nakatumba-Nabende, profesora titular de la Universidad de Makerere, dijo:

"Para que la IA tenga un impacto real en África, debe hablar nuestros idiomas y comprender nuestros contextos. El conjunto de datos WAXAL brinda a nuestros investigadores los datos de alta calidad que necesitan para construir tecnologías de voz que reflejen nuestras comunidades únicas. En Uganda, ya ha fortalecido nuestra capacidad de investigación local y ha respaldado nuevos proyectos liderados por estudiantes y profesores".

En la Universidad de Ghana, el profesor asociado Isaac Wiafe señaló la escala del compromiso público: 

"Para nosotros en la Universidad de Ghana, el impacto de WAXAL va más allá de los datos en sí. Nos ha empoderado para construir nuestros propios recursos lingüísticos y formar una nueva generación de investigadores de IA. Más de 7.000 voluntarios se unieron a nosotros porque querían que sus voces e idiomas pertenecieran al futuro digital. Hoy, ese esfuerzo colectivo ha generado un ecosistema de innovación en campos como la salud, la educación y la agricultura. Esto demuestra que cuando existen los datos, la posibilidad se expande en todas partes".

Hay razones para un optimismo cauteloso. Los conjuntos de datos de voz abiertos pueden reducir las barreras para las startups locales e investigadores que carecen de los recursos para recopilar datos a escala. También pueden reducir la dependencia de APIs extranjeras que rara vez admiten bien los idiomas africanos, si es que lo hacen.

Google y las universidades africanas lanzan el conjunto de datos WAXAL para entrenar la IA en 21 idiomas africanos, incluidos yoruba, hausa e igboEl conjunto de datos WAXAL

Aún así, los conjuntos de datos no garantizan resultados; construir sistemas de voz confiables requiere inversión sostenida, implementación local y vías comerciales que mantengan el valor en el país. El papel de Google como financiador y convocante invitará al escrutinio, particularmente en torno a cómo las empresas globales utilizan los datos de WAXAL en el futuro.

Por ahora, el lanzamiento del conjunto de datos WAXAL marca un paso concreto hacia un ecosistema de IA más inclusivo lingüísticamente. No resuelve los desafíos de IA de África, pero aborda uno fundamental. La voz es a menudo la interfaz más natural con la tecnología. Asegurarse de que la IA pueda escuchar hablar a África, en toda su diversidad, es algo muy esperado.

La publicación Google para entrenar IA en 21 idiomas africanos, incluidos yoruba, hausa e igbo apareció primero en Technext.

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.