
Wikipedia está lejos de convertirse en la suma de todo el conocimiento humano hasta que el vehículo de ese conocimiento, las lenguas habladas en todo el mundo, también estén bien representadas en Wikipedia.
La mayoría de las lenguas del mundo son orales y no escritas. El texto no puede expresar completamente los matices de una lengua en comparación con el audio o el video. Sin embargo, un audio o video sin transcripción en una lengua es meramente representativo para un hablante no nativo. De las 7,164 lenguas habladas en el mundo, solo se encuentran 354 Wikipedias. Necesitamos un audio o video descriptivo para cada lengua hablada. Los medios deben tener subtítulos para hacerlos comprensibles para hablantes no nativos y lectores con discapacidades. Ese es un objetivo sumamente ambicioso. Pero, a menudo, ¡estos objetivos requieren dar un pequeño paso a la vez! Estamos lanzando OpenSpeaks Archives, un archivo digital multimedia abierto y público de lenguas, optimizado para Wikipedia y los proyectos Wikimedia, con un enfoque en lenguas con menos recursos.
En nuestro primer proyecto piloto, recopilamos audios y videos en cinco lenguas nativas y habladas: Kusunda (Gejmehac Gipan) de Nepal, Baleswari-Odia, Bonda (Remosam), Ho y Van Gujjari de India. Cada archivo de video tiene subtítulos en múltiples lenguas, al menos en una lengua oficial local y en inglés. Algunos videos también incluyen subtítulos cerrados en la misma lengua hablada. Estos videos han enriquecido Wikipedia en más de 20 lenguas, así como Wikcionario, Wikisource, Wikidata y Wikimedia Commons.
Ladura Singh Haiburu, hablante de lengua Ho, presentando los nombres de las partes del cuerpo (subtitulado en inglés).
Este proyecto piloto contribuyó al lanzamiento inaugural de Wiki Loves Languages, un editatón destinado a expandir el conocimiento sobre las lenguas y sus hablantes en los proyectos Wikimedia. Actualmente, está en marcha la colaboración con dos archivos internacionales para adquirir y distribuir los medios entre sus redes. Todo el metraje original proviene de material de archivo no utilizado de cinco documentales: Gyani Maiya (2019), Remosam (2019), Mage Porob (2019), Marginalized Aadhaar (2021) y Nani Ma (2022). El enfoque y la metodología provienen de OpenSpeaks. El piloto hizo un uso extensivo de software de código abierto y permitió identificar una serie de brechas tecnológicas que dificultan la documentación de lenguas.
Metodología de trabajo
Revisamos grabaciones de audio y video sin editar, recopiladas desde 2014 en nuestro archivo privado, seleccionando contenido relevante para Wikipedia o Wiktionary. En muchos casos, el audio y el video fueron registrados por separado, por lo que utilizamos un editor de video no lineal para sincronizarlos. Para facilitar la transcripción, creamos subtítulos preliminares marcando las pausas en las oraciones habladas. Luego, enviamos estos subtítulos junto con una versión editada de los videos a personas expertas en la lengua, quienes los revisaron y ajustaron, devolviendo borradores corregidos. Posteriormente, realizamos una edición adicional en los videos, ajustando el contenido y el audio, eliminando secciones innecesarias y utilizando edición A/B roll para añadir material complementario. Tradujimos los subtítulos y validamos la precisión de las traducciones con especialistas en la lengua. Una vez finalizados los subtítulos, exportamos los videos, los convertimos al formato WebM y los subimos a Wikimedia Commons, integrándolos en artículos de Wikipedia y otros espacios relevantes. Durante todo el proceso, verificamos varias veces la exactitud del contenido con personas expertas en la lengua para garantizar su fidelidad.
Desafíos que este archivo pretende solucionar
Los OpenSpeaks Archives se centran en cinco aspectos críticos de la producción de medios (más uno opcional):
- Grabación de habla natural y descriptiva: una persona hablando sobre cualquier tema en un lenguaje conversacional.
- Grabaciones sin música de fondo: para mantener la claridad de las palabras habladas, salvo en el caso de grabaciones de interpretaciones musicales.
- Edición profesional del contenido grabado: si es necesario se fusionarán múltiples videos; se recortarán de manera moderada las partes innecesarias (por ejemplo, preguntas del entrevistador/a), y se agregarán elementos de edición A/B roll en los videos sin alterar el flujo del habla. Además, el audio será limpiado levemente para amplificar la voz de la persona hablante y reducir el ruido, manteniendo la naturalidad del discurso.
- Archivos finales con subtítulos, transcripción y traducción al inglés: las frases habladas se transcriben o subtitulan en el idioma mayoritario cercano y en inglés, utilizando subtítulos cerrados (para subtitulado multilingüe), sin subtítulos incrustados.
- Subida de grabaciones en alta calidad e integración en proyectos Wikimedia: los videos son subidos en formato WebM y los audios en formato WAV (sin pérdida) a Wikimedia Commons. También se suben en formato .mov (solo videos, procurando una exportación sin pérdida en la edición) al Internet Archive u otra biblioteca digital de conocimiento abierto. Se busca maximizar el uso de cada video en la mayor cantidad de artículos de Wikipedia y otros proyectos Wikimedia.
- Archivado en una institución GLAM reconocida (opcional): Catalogar el material en el catálogo en línea de una institución GLAM destacada contribuye a incrementar su número de citas, lo que aumenta su confiabilidad.
Lista de herramientas de software necesarias

Esta es una lista de software que deseamos tener. Cada archivista de lenguas basado/a en la comunidad necesitaría la mayoría o todas las herramientas de esta lista. No contamos con los recursos para desarrollar herramientas completas, así que utilizamos scripts de código abierto de línea de comandos, en su mayoría basados en Python. Muchos archivistas no están familiarizados con esos flujos de trabajo, por lo que se necesitan urgentemente herramientas independientes. Sería ideal si algunas de ellas fueran basadas en navegador, independientes del sistema operativo (funcionando incluso en teléfonos inteligentes o tabletas), y sin conexión para abordar las barreras de conectividad a internet muy baja o remota. Planeamos trabajar en estas herramientas e invitamos a otras personas a contribuir también.
- Creador de subtítulos ficticios para audio/video: Identifica las pausas entre las oraciones para crear subtítulos ficticios, los cuales pueden ser editados manualmente más tarde.
- Editor de subtítulos offline y basado en navegador: Un editor de subtítulos simple, basado en navegador y offline que crea subtítulos para videos mediante reproducción, pausa y escritura.
- Calculadora de duración de archivos de audio/video: Para contar la duración de archivos de audio/video. Ayuda en la planificación del presupuesto.
- Calculadora de tasa de bits de video: Para enviar archivos de audio/video en borrador con restricciones de tamaño de archivo (por ejemplo, compartir archivos a través de aplicaciones de mensajería) entre editores de video y expertos/as en lenguas.
Como este piloto está por finalizar, planeamos expandirnos a más lenguas, involucrar a más archivistas/as comunitarios/as y sumar más personas de la comunidad Wikimedista. Ya tenemos grabaciones en más de 20 lenguas con pocos recursos, con el consentimiento informado de los/las entrevistados/as. Nuestra máxima prioridad será llevar algunas de esas grabaciones a los proyectos de Wikimedia.
Má información

Can you help us translate this article?
In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?
Start translation