5 maneras de optimizar los resultados de la transcripción automática

Influencer sorpresa

Para quienes publican contenidos de audio y vídeo, como podcasts y vlogs, la transcripción y los subtítulos son herramientas poderosas, siempre y cuando sepamos explotarlas al máximo.

De hecho, en muchos casos es muy útil para los oyentes tener el texto escrito de un podcast o vídeo para poder leerlo más tarde.

Al mismo tiempo, mucha gente ve los vídeos en las redes sociales con el sonido apagado, por lo que añadir subtítulos a los vídeos publicados es crucial para atraer y mantener su atención. Según las estadísticas más populares, la probabilidad de que un vídeo se vea de principio a fin aumenta hasta un 80% si tiene subtítulos.

No es de extrañar, por tanto, que herramientas de edición multimedia como Veed.io, Kapwing.com para vídeos y Podcastle.ai para podcasts, ofrezcan un reconocimiento de voz automático para satisfacer las necesidades de los creadores de contenidos que quieren escalar la lista de resultados de los motores de búsqueda y aumentar el engagement.

Es cierto que muchas de estas herramientas prometen porcentajes muy altos de precisión en la transcripción, pero la realidad es otra: el texto resultante de la transcripción automática, de hecho, a menudo deja que desear y hay que intervenir a mano para que sea publicable, a veces de manera contundente.

Desde luego, publicarlo sin haberlo revisado puede ser peor que no publicarlo, porque se corre el riesgo de que sea ilegible y desvíe la atención del público en lugar de atraerla.

La baja calidad de la transcripción automática se debe sobre todo a que el reconocimiento de voz en otras lenguas distintas del inglés es todavía imperfecto. Sin embargo, mientras esperamos pacientemente a que la tecnología madure, podemos poner a la inteligencia artificial en condiciones ideales para cometer menos errores, cuidando al máximo la calidad de la grabación.

De hecho, con algunos trucos técnicos, aunque no sea capaz de producir un texto «como si lo hubiera escrito un humano», el reconocimiento automático conseguirá resultados mucho mejores. De ese modo, nuestra intervención posterior puede limitarse a una ligera revisión, en lugar de tener que corregir un texto lleno de errores. La diferencia de tiempo es notable: si se trata de una grabación especialmente larga, puede ser de varias horas.

Las 5 claves para conseguir una grabación de calidad son:

  1. Equiparse con un micrófono de calidad
  2. Insonorizar el entorno
  3. Evitar el solapamiento de los diálogos
  4. Utilizar una lengua estándar
  5. Limpiar la pista de audio

Equiparse con un micrófono de calidad

Hay que evitar el micrófono de un smartphone o de una webcam porque no son suficientes para obtener un audio de calidad. Por lo tanto, es esencial invertir en un buen micrófono (nosotros utilizamos el Yeti de la marca Blue), a ser posible equipado con un filtro antipop.

El orador también debe permanecer a la distancia adecuada del micrófono, ni demasiado cerca, para evitar la distorsión de la voz, ni demasiado lejos. Lo ideal es que el micrófono se monte en un soporte giratorio.

Si grabas a una persona sentada en una mesa, quizás delante de un ordenador, el micrófono no debe estar en contacto con la mesa, sino aislado, para que no capte todas las vibraciones producidas, por ejemplo, por las manos en el teclado o el ratón.

Insonorizar el entorno

En segundo lugar, el entorno en el que se realiza la grabación - si no es un estudio - debe estar lo más insonorizado posible o, al menos, estar preparado para evitar el ruido de fondo, la resonancia y los ecos molestos. Las paredes lisas y vacías deben estar cubiertas. Si la habitación tiene cortinas, estas deben permanecer cerradas para amortiguar el sonido.

Sin embargo, si la grabación se realiza en el exterior, hay que alejarse lo más posible de las calles concurridas y de los lugares ruidosos en general. Aún así, habrá que resignarse a la idea de que, en el caso de las filmaciones externas, el trabajo de limpieza del audio (ver más adelante) puede ser más oneroso.

Evitar el solapamiento de diálogos

El reconocimiento de voz tiende a funcionar peor cuando hay voces superpuestas. Los intervinientes deberán esperar su turno y no deben interrumpir a los que ya están hablando, para evitar el solapamiento de voces. Si hay un micrófono para cada persona, hay que silenciar a las personas que no están hablando en un momento dado.

Utilizar una lengua estándar

Otro problema típico del reconocimiento de voz es la pronunciación no estándar. Algunos sistemas se pueden configurar para reconocer variantes locales (por ejemplo, para el inglés de la India o el español de México), pero sólo para las lenguas más extendidas, como el inglés y el español.

En cualquier caso, es aconsejable utilizar una pronunciación lo más estándar posible, evitando los extranjerismos, los dialectos, las cadencias regionales y las expresiones locales. Además, se debe hablar a una velocidad normal, sin murmurar ni susurrar.

Limpiar la pista audio

Desde el punto de vista técnico, el audio debe haber sido grabado profesionalmente, sin interferencias, eco, retroalimentación acústica u otros inconvenientes similares. Por regla general, cuanto más clara sea la pronunciación y más silencioso el entorno, mejor será el resultado final.

Advertencia: Una mascarilla sanitaria u otra protección para la cara y la boca amortiguará la voz y «ensuciará» la grabación.

Cuando la calidad de la grabación no es lo suficientemente buena, podemos intervenir con un buen programa de edición de audio. Si se aprenden las principales opciones y trucos de los programas de edición de audio como Audacity se pueden limpiar los archivos incluso de forma sustancial.

Límites de la transcripción automática

Como ya se ha mencionado, incluso en condiciones ideales y con un reconocimiento casi perfecto, la transcripción automática tiene una gran limitación: el texto producido carecerá de casi todos los aspectos formales habitualmente utilizados para organizar el pensamiento y facilitar la lectura.

En los textos producidos por la inteligencia artificial, la puntuación suele limitarse a comas para las pausas cortas y a puntos para las más largas: porque la máquina no siempre es capaz de distinguir una pregunta de una afirmación o exclamación por el tono de voz.

Lo mismo ocurre con la división en párrafos, con sus títulos, cursiva, negrita, listas con viñetas y numeradas: deben añadirse necesariamente a mano.

Asimismo habrá que indicar el discurso indirecto, todo lo que se dice «entre comillas» y también añadir la distinción entre diferentes personas que hablan.

Ya ni pensar que sea capaz de captar las expresiones no verbales, como las risas o los suspiros, que son parte integrante de la comunicación y deben expresarse en los subtítulos y la transcripción para una mejor comprensión.

Aquí hay un ejemplo (ficticio), en el que vemos la transcripción automática de un vídeo de una receta en comparación con la versión revisada por una persona, con el objetivo de publicar la misma receta como entrada en un blog.

Transcripción automática Texto revisado y formateado por una persona

Buenos días a todos y bienvenidos a nuestra cita habitual en mi cocina. Hoy vamos a preparar juntos el más clásico de los postres italianos el tiramisú. Esta es una receta sencilla que se ha probado una y otra vez y siempre ha sido un gran éxito así que si la seguís paso a paso quedaréis muy bien con vuestros invitados. Empecemos entonces con los ingredientes y las cantidades. Primero el café yo hago la cafetera más grande que tengo con seis ocho tazas luego ochocientos gramos de bizcochos de soletilla aquí hay dos tarrinas de queso mascarpone de doscientos cincuenta gramos cuatro huevos frescos enteros y doscientos cincuenta gramos de azúcar y por último el cacao en polvo para el espolvoreo final. Esta es la receta para hacer seis raciones y es la que no tiene alcohol pero si queréis podéis añadir al café media copa de Marsala. A ver vamos a empezar la preparación poniendo la cafetera en el fuego y dejando que el café se enfríe, esto es extremadamente importante de lo contrario los bizcochos se empaparán demasiado. Mientras se enfría separamos la yema de la clara de los huevos, las yemas se colocan en un bol grande y se mezclan con el azúcar y el mascarpone hasta formar una crema esponjosa mientras que las claras se baten a punto de nieve en otro bol. Añadimos poco a poco las claras a la crema removiendo de abajo a arriba y empezamos a extender una capa de crema en el fondo de una fuente de horno rectangular. Sumergimos los bizcochos en el café frío durante unos segundos y los colocamos en la fuente de horno luego vertemos una capa de crema haciéndola lo más uniforme posible y repetimos de nuevo con los bizcochos y otra capa de crema. En este punto lo metemos todo en la nevera cubierto con papel de aluminio durante al menos tres horas y antes de servir espolvoreamos cacao amargo por encima. ¡Qué disfrutéis!

Tiramisú clásico

Nivel de dificultad: Bajo

Tiempo de preparación: 45 min + 3 h

Utensilios:

  • Cafetera
  • 2 boles grandes
  • Batidora de varillas
  • Fuente de horno rectangular de 25 cm

Ingredientes para 6 personas:

  • 6-8 tazas de café
  • 800 g de bizcochos de soletilla
  • 500 g de queso mascarpone
  • 4 huevos frescos enteros
  • 250 g de azúcar
  • Cacao en polvo (al gusto)

Preparación

  1. Preparar el café y dejarlo enfriar.
  2. Separar la yema de la clara de los huevos.
  3. Mezclar las yemas con el azúcar y el mascarpone hasta obtener una crema esponjosa.
  4. Batir las claras a punto de nieve.
  5. Añadir las claras a la crema poco a poco, mezclando de arriba a abajo.
  6. Extender una capa de crema en la fuente de horno.
  7. Empapar los bizcochos en el café y colocaros en la fuente de horno.
  8. Cubrir con una capa de crema y extenderla uniformemente.
  9. Colocar otra capa de bizcochos y otra de crema.
  10. Cubrir con papel de aluminio y dejar reposar en la nevera durante al menos 3 horas
  11. Antes de servir, espolvorear con cacao amargo.

Subtítulos

Hasta ahora solo hemos hablado de transcripción, es decir, de un texto que corresponde a la parte hablada de un audio. Para los subtítulos de un vídeo, se aplica lo anterior, pero hay algunos matices que tener en cuenta.

De hecho, los sistemas automatizados son perfectamente capaces de dividir una transcripción en subtítulos, pero lo hacen sin ningún criterio, salvo aplicando dos parámetros puramente técnicos:

  • un número máximo de caracteres por línea (normalmente 42) y
  • un número máximo de líneas que pueden aparecer al mismo tiempo (normalmente 2).

En algunos casos se puede cambiar la apariencia de los subtítulos], es decir, el color del texto, el fondo, la posición y poco más.

En cambio, para mejorar la legibilidad, hay reglas básicas claras, que siguen los profesionales que crean subtítulos para trabajar. Son reglas sencillas y lógicas, pero que la inteligencia artificial aún no puede aplicar por sí sola.

Por ejemplo, los casos en los que el texto puede dividirse en dos líneas dependen de normas específicas: después de los signos de puntuación, antes de las conjunciones y antes de las preposiciones.

En cambio, el salto de línea nunca debe separar un sustantivo de un artículo o un adjetivo, un nombre propio de un apellido, ni un verbo de un auxiliar, un sujeto o pronombre reflexivo o una negación.

Aquí va una simulación con el comienzo de una famosa novela:

Sottotitoli automatici Sottotitoli manuali

Quel ramo del lago di Como, che volge a
mezzogiorno, tra due catene non interrotte

di monti, tutte a seni e a golfi, a
seconda dello sporgere e del rientrare di

quelli, vien, quasi a un tratto, a
ristringersi, e a prender corso e figura

di fiume, tra un promontorio a destra, e
un’ampia costiera dall’altra parte; e il

ponte, che ivi congiunge le due rive, par
che renda ancor più sensibile all’occhio

questa trasformazione, e segni il punto in
cui il lago cessa, e l’Adda rincomincia,

per ripigliar poi nome di lago dove le
rive, allontanandosi di nuovo, lascian

l’acqua distendersi e rallentarsi in nuovi
golfi e in nuovi seni.

Quel ramo del lago di Como,
che volge a mezzogiorno,

tra due catene non interrotte di monti,
tutte a seni e a golfi, a seconda

dello sporgere e del rientrare di quelli,
vien, quasi a un tratto, a ristringersi,

e a prender corso e figura di fiume,
tra un promontorio a destra,

e un’ampia costiera dall’altra parte;
e il ponte, che ivi congiunge le due rive,

par che renda ancor più sensibile all’occhio
questa trasformazione, e segni il punto

in cui il lago cessa,
e l’Adda rincomincia,

per ripigliar poi nome di lago
dove le rive, allontanandosi di nuovo,

lascian l’acqua distendersi e rallentarsi
in nuovi golfi e in nuovi seni.

No son diferencias sustanciales y pueden pasar desapercibidas para los menos experimentados, pero mejoran drásticamente la lectura y el disfrute de un vídeo subtitulado.

Conclusiones

Apoyarse en sistemas automatizados para transcribir una grabación de audio o subtitular un vídeo es un primer paso, pero no es suficiente para ofrecer al público una experiencia óptima y aumentar así el número de visualizaciones.

Incluso prestando la máxima atención a la calidad de la grabación, muchas limitaciones técnicas impiden que la inteligencia artificial logre resultados comparables al trabajo manual.

Para obtener los mejores resultados, vale la pena invertir algo de tiempo en revisar el resultado del reconocimiento de voz antes de publicarlos, siguiendo las indicaciones de este artículo.

Para quienes prefieren dedicarse a crear contenidos de audio y vídeo en lugar de preocuparse por la calidad de los textos, hemos lanzado dos nuevos servicios de transcripción y subtitulado. Están diseñados precisamente para quienes publican podcasts y vídeos en las redes sociales y desean ofrecer a sus seguidores textos de calidad editorial listos para ser publicados o añadidos a los vídeos como subtítulos.

Los primeros 5 minutos de audio para transcribir o de vídeo para subtitular ¡los haremos gratis en un plazo de dos días!

Traductor técnico, project manager, mentor y admirador del ingenio. Socio fundador de Qabiria.

Leer también

Habla con nosotros

Cuéntanos qué necesitas enviándonos un correo electrónico a hola@qabiria.com o mediante el formulario de contacto. Tendrás una respuesta garantizada en 24 horas, pero habitualmente mucho antes.

Contacta con nosotros