Per eseguire gli esperimenti si sono utilizzati parametri di addestramento standard, cioè quelli tarati al fine di addestrare una normale rete SI con un numero elevato di frasi.
I parametri usati per l'addestramento sono:
Come si può chiaramente notare, l'addestramento di tutta la rete porta ad un aumento delle performance più costante e, a 1200 frasi, migliore di tutte le altre tecnologie. Si vede che durante le prime 5 frasi le tecnologie LIN e J-LIN oscillano, peggiorando anche del 2.5% i risultati che si avrebbero utilizzando una normale rete SI. Questo comportamento è riconducibile al fatto che, avendo rispettivamente solo 10920 e 1560 pesi da addestrare, queste tecnologie tendono a polarizzarsi immediatamente sulle frasi con cui vengono addestrate peggiorando notevolmente i risultati per le altre. Il comportamento di tutta la rete e di OLA è più costante, ma la crescita in percentuale di riconoscimento è decisamente più lenta. Esse durante le prime frasi si attestano sui valori della rete SI. Questo comportamento in OLA è da attribuirsi al fatto che solo il livello più alto della rete viene modificato, viene perciò permessa solo una lieve correzione alla parte alta della rete, una sorta di bilanciamento. Per l'addestramento di tutta la rete, invece, il numero di pesi è elevato e poche frasi non sono in grado di modificarne il comportamento ne' in positivo ne' in negativo.
Da 7 a 100 frasi di training, J-LIN ha un comportamento decisamente migliore rispetto alle altre tecniche riuscendo quasi a guadagnare il 2.5% rispetto all'addestramento di tutta la rete. Dopo la 50-esima frase c'è una brusca discesa dovuta all'aumento delle insertions, probabilmente provocata dal fatto che la J-LIN compie trasformazioni uguali sia sul frame centrale che sui frames di contesto.
Per quanto riguarda la LIN vediamo che fino a 100 frasi cresce, per poi oscillare attorno al 75.00%. È importante notare che la LIN, in nessun punto, offre prestazioni migliori rispetto alla J-LIN. Probabilmente i frames di contesto legati della J-LIN la rendono più adatta ad immagazzinare le informazioni di un parlatore.
OLA sembra invece non sufficiente a garantire un buon adattamento al parlatore. Essa segue il comportamento della rete completamente addestrata, ma con risultati molto peggiori.
![]() |
Stefano Scanzio 2007-10-16