4.4.2 Italiano

BI-Micro, il database utilizzato per la lingua italiana, è stato acquisito da dipendenti del CSELT al fine di compiere esperimenti sull'adattamento al parlatore ed all'ambiente. È suddiviso in quattro parlatori: DM, MA, MG e RI. Ogni parlatore ha pronunciato 1600 frasi registrate contemporaneamente attraverso un canale telefonico ed uno microfonico e campionate a 8 kHz. Le frasi sono ulteriormente divise in un sottoinsieme di training di 1200 frasi ed in uno di test di 400.

Table 4.4: Composizione del database BI-Micro
Parlatore Training Test Totale
DM microfonico 1200 400 1600
DM telefonico 1200 400 1600
MA microfonico 1200 400 1600
MA telefonico 1200 400 1600
MG microfonico 1200 400 1600
MG telefonico 1200 400 1600
RI microfonico 1200 400 1600
RI telefonico 1200 400 1600
Totale 9600 3200 12800


Delle 1600 frasi di ogni parlatore, 1040 sono foneticamente bilanciate, 360 riguardano frasi appartenenti al dominio ferroviario, mentre 200 sono composte da registrazioni di ore, adatte quindi al riconoscimento ad addestrare una rete per il riconoscimento di ore e numeri. È importante ancora far notare una caratteristica che facilita notevolmente l'utilizzo di questo database nell'ambito dell'adattamento al parlatore: tutti i parlatori dicono le stesse frasi. Ci saranno perciò 1600 frasi diverse che saranno ripetute da tutti i parlatori in ambienti diversi.

Stefano Scanzio 2007-10-16