4.4.2 Italiano

BI-Micro, il database utilizzato per la lingua italiana, è stato acquisito da dipendenti del CSELT al fine di compiere esperimenti sull'adattamento al parlatore ed all'ambiente. È suddiviso in quattro parlatori: DM, MA, MG e RI. Ogni parlatore ha pronunciato 1600 frasi registrate contemporaneamente attraverso un canale telefonico ed uno microfonico e campionate a 8 kHz. Le frasi sono ulteriormente divise in un sottoinsieme di training di 1200 frasi ed in uno di test di 400.

Table 4.4: Composizione del database BI-Micro

Parlatore	Training	Test	Totale
DM microfonico	1200	400	1600
DM telefonico	1200	400	1600
MA microfonico	1200	400	1600
MA telefonico	1200	400	1600
MG microfonico	1200	400	1600
MG telefonico	1200	400	1600
RI microfonico	1200	400	1600
RI telefonico	1200	400	1600
Totale	9600	3200	12800

Delle 1600 frasi di ogni parlatore, 1040 sono foneticamente bilanciate, 360 riguardano frasi appartenenti al dominio ferroviario, mentre 200 sono composte da registrazioni di ore, adatte quindi al riconoscimento ad addestrare una rete per il riconoscimento di ore e numeri. È importante ancora far notare una caratteristica che facilita notevolmente l'utilizzo di questo database nell'ambito dell'adattamento al parlatore: tutti i parlatori dicono le stesse frasi. Ci saranno perciò 1600 frasi diverse che saranno ripetute da tutti i parlatori in ambienti diversi.

Stefano Scanzio 2007-10-16