5 modi per ottimizzare i risultati della trascrizione automatica

Influencer sorpresa

Per chi pubblica contenuti audio e video come podcast e vlog la trascrizione e i sottotitoli sono strumenti potentissimi, purché sfruttati al meglio.

In molti casi infatti è estremamente utile agli ascoltatori avere il testo scritto “sbobinato” di un podcast o di un video per poterlo leggere in un secondo momento.

Allo stesso tempo, molte persone guardano i video sui social con l’audio disattivato, quindi aggiungere i sottotitoli ai video pubblicati è fondamentale per attirare e mantenere la loro attenzione. Secondo le statistiche più diffuse, le probabilità che un video venga guardato dall’inizio alla fine salgono addirittura all’80% se è provvisto di sottotitoli.

Non c’è da stupirsi dunque che gli strumenti di editing multimedia come Veed.io, Kapwing.com per i video e Podcastle.ai per i podcast, offrano il riconoscimento vocale automatico per venire incontro alle esigenze dei creatori di contenuti che vogliono scalare l’elenco dei risultati sui motori di ricerca e incrementare l’engagement.

È vero che molti di questi strumenti promettono percentuali altissime di precisione nella trascrizione, ma la realtà è un’altra: il testo risultante dalla trascrizione automatica infatti lascia spesso a desiderare e bisogna intervenire a mano per renderlo pubblicabile, a volte anche pesantemente.

Pubblicarlo senza averlo rivisto infatti può essere peggio che non pubblicarlo affatto, perché rischia di essere illeggibile e di distogliere l’attenzione del pubblico invece di attirarla.

La scarsa qualità della trascrizione automatica dipende sicuramente dal fatto che il riconoscimento vocale nelle lingue diverse dall’inglese è ancora imperfetto. Tuttavia, mentre aspettiamo con pazienza che la tecnologia maturi, possiamo mettere l’intelligenza artificiale nelle condizioni ideali per commettere meno errori, curando al massimo la qualità della registrazione.

Infatti, con qualche accorgimento tecnico, per quanto non sia in grado di produrre un testo “come se fosse stato scritto da un umano”, il riconoscimento vocale automatico riuscirà decisamente meglio. Di conseguenza il nostro intervento a posteriori potrà limitarsi a una revisione leggera, invece di dover correggere a fondo un testo pieno di errori. La differenza di tempistiche è notevole: se si tratta di una registrazione particolarmente lunga, può essere anche di diverse ore.

I 5 punti più importanti per ottenere una registrazione di qualità sono:

  1. Dotarsi di un microfono di qualità
  2. Insonorizzare l’ambiente circostante
  3. Evitare i dialoghi sovrapposti
  4. Usare una lingua standard
  5. Ripulire la traccia audio

Dotarsi di un microfono di qualità

Il microfono di uno smartphone o della webcam andrebbero evitati perché non sono sufficienti a ottenere un audio di qualità. È fondamentale dunque investire in un buon microfono (noi usiamo lo Yeti della Blue), possibilmente provvisto di filtro antipop.

Chi parla inoltre deve stare alla giusta distanza dal microfono, né troppo vicino, per evitare la distorsione della voce, né troppo lontano. L’ideale è montare il microfono su un apposito supporto orientabile.

Se si registra una persona seduta a un tavolo, magari davanti al computer, il microfono non dev’essere posto sul tavolo, ma va isolato, in modo che non capti tutte le vibrazioni prodotte, ad esempio, dalle mani sulla tastiera o sul mouse.

Insonorizzare l’ambiente circostante

In secondo luogo, l’ambiente in cui avviene la registrazione - se non è uno studio - dev’essere il più possibile insonorizzato, o quanto meno va allestito in modo da evitare rumori di fondo, rimbombi e fastidiose eco. Le pareti lisce e spoglie andrebbero rivestite. Se la stanza dispone di tende, andrebbero chiuse per attutire il suono.

Se la registrazione avviene all’aperto bisogna invece stare lontani, per quanto possibile, dalle strade trafficate e dai luoghi rumorosi in genere. Ci si dovrà però rassegnare all’idea che in caso di riprese esterne il lavoro di ripulitura dell’audio (vedi sotto) potrà essere più gravoso.

Evitare i dialoghi sovrapposti

Il riconoscimento vocale automatico tende a funzionare peggio quando ci sono voci sovrapposte. Chi vuole intervenire deve aspettare il suo turno di parola e non deve interrompere chi sta già parlando, per evitare che le voci si sovrappongano. Se c’è un microfono per ogni persona, è bene silenziare quelli delle persone che non stanno parlando in un dato momento.

Usare una lingua standard

Un altro problema tipico del riconoscimento vocale è la pronuncia non standard. Alcuni sistemi possono essere impostati per il riconoscimento delle varianti locali (ad esempio per l’inglese dell’India o lo spagnolo del Messico), ma solo per le lingue più diffuse, come appunto l’inglese e lo spagnolo.

In ogni caso, si consiglia di usare una pronuncia quanto più standard, evitando parole straniere, dialetto, cadenze regionali, espressioni locali. Inoltre, si dovrebbe parlare a una velocità normale, senza borbottare o sussurrare.

Ripulire la traccia audio

Dal punto di vista tecnico l’audio dev’essere stato registrato in modo professionale, senza interferenze, eco, feedback o altri inconvenienti simili. Come norma generale, quanto più chiara la dizione e silenzioso l’ambiente circostante, migliore sarà il risultato finale.

Attenzione! La mascherina sanitaria o altre protezioni per il viso e la bocca attutiscono la voce e “sporcano” la registrazione.

Quando la qualità della registrazione non è sufficiente possiamo intervenire con un buon programma di editing audio. Imparando i comandi principali e i trucchi di programmi di editing audio come Audacity si possono ripulire i file anche in maniera sostanziale.

Limiti della trascrizione automatica

Come già anticipato, anche in condizioni ideali e riconoscimento pressoché perfetto, la trascrizione automatica ha un grosso limite: al testo prodotto mancheranno quasi tutti gli aspetti formali abitualmente usati per organizzare il pensiero e agevolare la lettura.

Nei testi prodotti dall’intelligenza artificiale la punteggiatura si limita di solito alle virgole per le pause più brevi e ai punti fermi per quelle più lunghe: il computer infatti non è sempre in grado di distinguere dal tono della voce una domanda da un’affermazione o un’esclamazione.

Lo stesso accade per la suddivisione in paragrafi con i relativi titoli, corsivi, grassetti, elenchi puntati e numerati: vanno aggiunti per forza a mano.

A mano va aggiunta anche l’indicazione del discorso indiretto, tutto quello che viene detto “tra virgolette” e ancora la distinzione tra persone diverse che intervengono.

Non parliamo poi di catturare le espressioni non verbali, come risate o sospiri, che sono parte integrante della comunicazione e che vanno espresse nei sottotitoli e nella trascrizione per una migliore comprensione.

Ecco un esempio (fittizio), in cui si vede la trascrizione automatica di un video di una ricetta confrontata con la revisione da parte di una persona, finalizzata alla pubblicazione della stessa ricetta come blog post.

Trascrizione automatica Testo rivisto e formattato da una persona

Buongiorno a tutti e bentrovati al nostro consueto appuntamento in cucina. Oggi prepareremo insieme il più classico dei dolci italiani il tiramisù. Questa è una ricetta semplice che è stata provata più e più volte e ha sempre avuto enorme successo quindi se la seguite passo passo farete un figurone con i vostri invitati. Allora iniziamo con gli ingredienti e le quantità. Prima di tutto il caffè io faccio la caffettiera più grande che ho da sei otto tazze poi ottocento grammi di biscotti savoiardi ecco qua due vaschette di mascarpone da duecentocinquanta grammi quattro uova fresche intere e duecentocinquanta grammi di zucchero e infine il cacao in polvere per la spolverata finale. Questa è la ricetta per fare sei porzioni ed è quella analcolica ma se volete potete aggiungere al caffè anche mezzo bicchiere di Marsala. Allora iniziamo la preparazione mettendo sul fuoco la caffettiera e facendo poi raffreddare il caffè, questo è estremamente importante altrimenti poi i savoiardi si inzuppano troppo. Intanto che si raffredda separiamo il tuorlo dall’albume delle uova, i tuorli li mettiamo in una ciotola capiente e li mescoliamo con lo zucchero e il mascarpone fino a ottenere una crema soffice mentre gli albumi li montiamo a neve in un’altra ciotola. Poco per volta uniamo quindi gli albumi alla crema mescolando dal basso verso l’alto e iniziamo a stendere un velo di crema sul fondo di una pirofila rettangolare. Inzuppiamo per qualche secondo i savoiardi nel caffè freddo e li disponiamo nella pirofila poi versiamo uno strato di crema rendendolo il più possibile uniforme e ripetiamo di nuovo con i savoiardi e un ulteriore strato di crema. A questo punto mettiamo il tutto in frigorifero coperto con la carta stagnola per almeno tre ore e prima di servirlo spolveriamo sopra del cacao amaro. Buon appetito!

Tiramisù classico

Difficoltà: Bassa

Tempi: 45 min + 3 h

Strumenti:

  • Caffettiera
  • 2 ciotole grandi
  • Frullatore a frusta
  • Pirofila rettangolare da 25 cm

Ingredienti per 6 persone:

  • 6-8 tazzine di caffè
  • 800 g biscotti savoiardi
  • 500 g mascarpone
  • 4 uova fresche intere
  • 250 g zucchero
  • Cacao in polvere (q.b.)

Preparazione

  1. Preparare il caffè e farlo raffreddare.
  2. Separare il tuorlo dall’albume delle uova.
  3. Mescolare i tuorli con lo zucchero e il mascarpone fino a ottenere una crema soffice.
  4. Montare a neve gli albumi.
  5. Unire gli albumi alla crema poco per volta, mescolando dall’alto verso il basso.
  6. Stendere un velo di crema nella pirofila.
  7. Inzuppare i savoiardi nel caffè e disporli nella pirofila.
  8. Versare uno strato di crema e spalmarlo in modo uniforme.
  9. Disporre un altro strato di savoiardi e uno di crema.
  10. Coprire con la carta stagnola e mettere in frigorifero per almeno 3 ore
  11. Prima di servire, spolverare con del cacao amaro.

Sottotitoli

Fin qui abbiamo parlato solo della trascrizione, cioè di un testo che corrisponde alla “sbobinatura” di un audio. Per i sottotitoli di un video vale quanto esposto finora, ma ci sono alcune sfumature da sottolineare.

I sistemi automatici infatti sono perfettamente in grado di spezzettare una trascrizione in modo da trasformarla in sottotitoli, ma lo fanno senza alcun criterio, salvo applicare due parametri puramente tecnici:

  • un numero massimo di caratteri per riga (di solito 42) e
  • un numero massimo di righe che possono comparire in contemporanea, (di solito 2).

In certi casi si può modificare l’aspetto dei sottotitoli, quindi il colore del testo, lo sfondo, la posizione, ma poco di più.

Invece per migliorare la leggibilità esistono regole di base ben precise, seguite dai professionisti che creano sottotitoli per lavoro. Sono regole semplici e logiche, ma che ancora l’intelligenza artificiale non riesce ad applicare da sola.

Per esempio i casi in cui si può spezzare il testo in due righe dipendono da norme specifiche: dopo i segni di punteggiatura, prima delle congiunzioni e prima delle preposizioni.

L’interruzione di riga invece non dovrebbe mai separare un sostantivo da un articolo o da un aggettivo, un nome proprio da un cognome, né un verbo da un ausiliare, da un pronome soggetto o riflessivo o da una negazione.

Ecco una simulazione con un famoso incipit:

Sottotitoli automatici Sottotitoli manuali

Quel ramo del lago di Como, che volge a
mezzogiorno, tra due catene non interrotte

di monti, tutte a seni e a golfi, a
seconda dello sporgere e del rientrare di

quelli, vien, quasi a un tratto, a
ristringersi, e a prender corso e figura

di fiume, tra un promontorio a destra, e
un’ampia costiera dall’altra parte; e il

ponte, che ivi congiunge le due rive, par
che renda ancor più sensibile all’occhio

questa trasformazione, e segni il punto in
cui il lago cessa, e l’Adda rincomincia,

per ripigliar poi nome di lago dove le
rive, allontanandosi di nuovo, lascian

l’acqua distendersi e rallentarsi in nuovi
golfi e in nuovi seni.

Quel ramo del lago di Como,
che volge a mezzogiorno,

tra due catene non interrotte di monti,
tutte a seni e a golfi, a seconda

dello sporgere e del rientrare di quelli,
vien, quasi a un tratto, a ristringersi,

e a prender corso e figura di fiume,
tra un promontorio a destra,

e un’ampia costiera dall’altra parte;
e il ponte, che ivi congiunge le due rive,

par che renda ancor più sensibile all’occhio
questa trasformazione, e segni il punto

in cui il lago cessa,
e l’Adda rincomincia,

per ripigliar poi nome di lago
dove le rive, allontanandosi di nuovo,

lascian l’acqua distendersi e rallentarsi
in nuovi golfi e in nuovi seni.

Non sono differenze sostanziali e possono sfuggire ai meno esperti, ma migliorano drasticamente la lettura e la fruizione di un video sottotitolato.

Conclusione

Affidarsi ai sistemi automatici per trascrivere una registrazione audio o sottotitolare un video è un primo passo, ma non è sufficiente per offrire al pubblico un’esperienza ottimale e aumentare così il numero di visualizzazioni.

Anche curando al massimo la qualità della registrazione, molte limitazioni tecniche impediscono all’intelligenza artificiale di ottenere risultati paragonabili al lavoro manuale.

Per ottenere i migliori risultati, vale la pena di investire del tempo a sistemare l’output del riconoscimento vocale prima di pubblicarlo, seguendo le indicazioni di questo articolo.

Per chi invece preferisce dedicarsi a creare contenuti audio e video, invece di preoccuparsi della qualità dei testi, abbiamo lanciato due nuovi servizi di trascrizione e sottotitolazione. Sono pensati proprio per chi pubblica podcast e video sui social media e desidera offrire ai suoi follower testi di qualità editoriale pronti per essere pubblicati o aggiunti ai video come sottotitoli.

I primi 5 minuti di audio da trascrivere o di video da sottotitolare te li facciamo gratis per dopodomani!

Traduttore tecnico, project manager, mentore e ammiratore dell’ingegno. Socio fondatore di Qabiria.

Leggi anche:

Parla con uno di noi

Spiegaci cosa ti serve con una mail a hola@qabiria.com o attraverso il modulo di contatto. Risposta garantita entro 24 ore, ma di solito molto prima.

Contattaci