Trascizione audio con Adobe Premiere Pro

Dalla versione CS4 di Adobe Premiere è possibile effettuare la trascrizione audio ( o speech to text ) in modo semplice e veloce. Al momento dell'installazione è disponibile un unico preset, quello della lingua inglese. Per trascrivere dialoghi in italiano è necessario scaricare il pacchetto di analisi audio per la lingua italiana, disponibile a questo indirizzo. Oltre all'italiano sono disponibili anche altre lingue: francese, tedesco, giapponese, spagnolo e koreano. Scaricare il pacchetto che coincide con la versione di Premiere Pro in vostro possesso ( CS4, CS5 o CS5.5 ) ed installatelo.

Ora siete pronti per effettuare lo speech to text. Tutto bello fino adesso, no? Col cavolo invece, quei geni dell'Adobe hanno pensato bene di metterci i bastoni tra le ruote. Infatti questo formidabile strumento di trascrizione esporta l'audio in testo ( con i relativi timecode ) come metadati. Ora una persone con un briciolo di intelligenza e con un minimo sforzo mentale direbbe: "Nei metadati ho tutta la trascrizione audio, con i timecode, quindi i sottotitoli sono abbastanza facili da creare". Ed invece no, quelli dell'Adobe hanno ritenuto più utile utilizzare questi dati per effettuare la ricerca di parole specifiche nei video. Sono il primo a dire che non si tratta di una pessima idea, però cavolo, i sottotitoli sono decisamente più importanti e dato che ho tutti i dati necessari per realizzarli perchè non fare un pulsantino "Inserisci sottotitoli"? Mistero... Spero solo che nelle versioni future questa funzionalità venga introdotta.
Ok, detto questo, negli ultimi giorni ho cercato e chiesto in giro per trovare una soluzione, o perlomeno un workaround. E come si dice: chi cerca trova. La guida la potete trovare a questo indirizzo. Questa però contiene tantissime altre cose che per questa operazioni sono inutili. Sappiate che l'operazione richiede un bel po' di tempo ed impiega Adobe Premiere Pro e Adobe After Effects, se non siete in possesso di quest'ultimo non potrete fare nulla ( almeno con questo metodo, poi non so se ne esiste un altro 😀 ).

PREREQUISITI: io cercherò di spiegare il procedimento nel modo più facile possibile, tenete comunque a mente che una piccola esperienza in Premiere e After Effect la dovete avere per compiere queste operazioni.

Cominciamo. Aprite Adobe Premiere Pro e create un nuovo progetto. Se avete la versione CS5.5 di Premiere non serve creare una sequenza, questa infatti può essere creata premendo con il tasto destro sulla clip importata e scegliendo "Nuova sequenza da clip". Se non disponete dell'ultima versione create la sequenza in base alle vostre esigenze.

Terminata questa fase preliminare importate la clip su cui volete effettuare la trascrizione audio, selezionatela e andate nella tab "Metadati" ( se non è visibile attivatela da Finestra -> Metadati ).

Adobe Premiere Pro - Metadati - Clicca per ingrandire

 

In questa finestra sono riportate molte informazioni sulla clip, noi spostiamo lo sguardo nella sezione "Analisi discorso" e premiamo il tasto "Analizza". Si aprirà una nuova finestra in cui bisogna selezionare il livello ci accuratezza dello strumento Speech Analysis.

Adobe Premiere Pro - Speech analysis - Clicca per ingrandire

Dando Ok si aprirà Adobe Media Encoder che procederà con l'analisi della clip selezionata.

Adobe Media Encoder - Content analysis - Clicca per ingrandire

Terminata l'analisi torniamo in Premiere e salviamo il progetto. Ora apriamo Adobe After Effect e controlliamo se in Preferenze -> Cache oggetto multimediale e disco la voce "Crea marcatori livello da metadati XMP metraggio" sia spuntata. Chiudiamo le preferenze e con un semplice drag and drop importiamo la clip video ( se preferite usate File -> Importa -> File ). Ora prendiamo il file appena aggiunto e trasciniamolo nella timeline, questo creerà automaticamente una composizione.

Adobe After Effect - Tab Progetto - Clicca per ingrandire

Ora nella timeline noterete che oltre alla traccia video sono presenti dei piccoli marker che contengono la trascrizione audio del discorso.

Adobe After Effect - Timeline - Clicca per ingrandire

Clicchiamo sul tool testo orizzontale nella barra in alto e inseriamo un testo in basso al centro della clip.

Adobe After Effect - Text tool - Clicca per ingrandire

Selezioniamo il font e le dimensioni che più ci aggradano dalla tab "Carattere". Impostiamo inoltre colore di riempimento bianco e riempimento su tratto. Per rendere i sottotitoli più leggibili, anche nelle peggior condizioni, aggiungiamo un'ombreggiatura esterna. Con il livello del testo selezionato andiamo su Livello -> Stile livello -> Ombra esterna.

Dirigiamo lo sguardo sulla timeline e, tramite i triangoli che si trovano a fianco  del nome dei livelli, apriamo il livello del testo. Con il tasto Alt premuto clicchiamo sul piccolo orologio che troviamo. Questo ci permetterà di aggiungere un'espressione.

Adobe After Effect - Proprietà livello testo - Clicca per ingrandire

Al posto della voce "text.sourceText" inseriamo questo testo:


//****************************************************
// This expression creates a text string consisting
// of groups of five marker comment fields
// (separated by spaces). Each text string is displayed
// when the current time has reached the first marker
// of that group.

L = thisComp.layer("QUI IL NOME DELLA CLIP");
max = 5; // number of words to display

n = 0;
if (L.marker.numKeys > 0){
 n = L.marker.nearestKey(time).index;
 if (L.marker.key(n).time > time){
 n--;
 }
}

s = " ";
if (n > 0){
 base = Math.floor((n-1)/max)*max + 1;

 for (i = base; i < base + max; i++){
 if (i <= L.marker.numKeys){
 s += L.marker.key(i).comment + "  ";
 }
 }
}
s

Dove al posto di "QUI IL NOME DELLA CLIP" dovrete scrivere il nome intero della clip sulla quale state lavorando. Nel mio caso "Freaks ! - 1X05 - Trick - Sneak Peak.mp4". A questo punto dovrebbero comparire i sottotitoli. Non resta che creare il video. Per farlo andate in Composizione -> Aggiungi a coda di rendering.

Adobe After Effect - Rendering - Clicca per ingrandire

Come prima cosa impostiamo l'output: nome e destinazione del file finale. Poi passiamo alle impostazioni sulla codifica video premendo sul triangolino "Modulo di output".

Adobe After Effect - Opzioni rendering - Clicca per ingrandire

Scegliamo il formato del video da realizzare. Io solitamente scelgo H.264 perchè poi si presta bene ad essere uploadato su YouTube. Comunque scegliete in base alle vostre esigenze. In "Opzioni formato" troviamo invece le impostazioni avanzate a seconda del formato scelto, ad esempio il bitrate e, più in generale, la qualità del prodotto finale. Ricordo inoltre di mettere la spunta alla voce Output audio, in mancanza di questa il video non avrà l'audio. Subito a destra possiamo trovare le Opzioni del formato audio, possiamo scegliere il codec che verrà utilizzato ed il bitrate. Il mio consiglio è quella di prestare attenzione a queste impostazioni, il risultato del video renderizzato sarà diretta conseguenza dei settaggi utilizzati in questo step. Premiamo Ok e finalmente possiamo iniziare il rendering, cliccando sul pulsante Rendering.

Inizierà subito il processo di render, che varierà a seconda delle prestazioni del computer su cui è effettuata l'operazione, del codec utilizzato e della complessità del video da renderizzare.  Terminato il processo avrete fra le mani il frutto del vostro lavoro: un video con le impostazioni da voi scelte e i sottotitoli generati automaticamente con lo Speech Analysis tool di Adobe Premiere.

Faccio ora delle piccole considerazioni. Come potete vedere dai miei screenshot, lo strumento di trascrizione non è assolutamente preciso ( probabilmente lo strumento in lingua  inglese è decisamente superiore come qualità ). Tuttavia da Premiere ci è consentito effettuare le modifiche necessarie per correggere eventuali parole non riconosciute ( una buona parte dell'intero discorso 🙂 ). Dovete però capire che lo strumento anche se non imbrocca la parola è estremamente utile, in quanto registra il timecode della parola trascritta. Questo ci permette sostanzialmente di scrivere i sottotitoli senza curarci di sincronizzare il testo con l'audio. Un bella rottura di scatole è stata quindi evitata. Vi dico subito che lo strumento non è applicabile in certe situazioni: ad esempio quando di sono forti rumori di sottofondo ( ad esempio una musica ). Un esempio ideale di utilizzo sarebbe quello della trascrizione audio di un'intervista fra due persone.

Questo è tutto. 😉