Rapport TP RIIA 17 septembre 2018 M. Hinge — T. Gennuso ############## Modèle de base ############## Avec le modèle de base, on obtient les résultats suivants : $ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_1 eng.test res_1.1 * Label sequences 1000 sequences labeled 8.29%/46.20% 2000 sequences labeled 6.76%/47.45% 3000 sequences labeled 6.35%/43.63% Nb sequences : 3684 Token error : 6.61% Sequence error: 42.37% * Per label statistics O Pr=0.95 Rc=0.99 F1=0.97 I-ORG Pr=0.82 Rc=0.62 F1=0.70 I-MISC Pr=0.82 Rc=0.67 F1=0.74 I-PER Pr=0.88 Rc=0.70 F1=0.78 I-LOC Pr=0.89 Rc=0.70 F1=0.79 * Done ############################## Essais sur le pattern-matching ############################## On ajoute au fichier de pattern la ligne, dont le but est de regarder l'étiquette morphosyntaxique de l'entité : u8:%x[ 0,1] $ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_2 eng.test res_2 * Load model * Label sequences 1000 sequences labeled 5.89%/37.10% 2000 sequences labeled 5.13%/40.05% 3000 sequences labeled 4.89%/37.37% Nb sequences : 3684 Token error : 4.97% Sequence error: 36.05% * Per label statistics O Pr=0.98 Rc=0.99 F1=0.98 I-ORG Pr=0.78 Rc=0.72 F1=0.75 I-MISC Pr=0.81 Rc=0.68 F1=0.74 I-PER Pr=0.75 Rc=0.90 F1=0.82 I-LOC Pr=0.88 Rc=0.75 F1=0.81 * Done On a ajouté les pattern-matching suivants, dont le but est de trouver les entités composés uniquements de majuscules (en u9) et qui débutent par une majuscule (et dont le reste de l'entité est en minuscule, en u10) : u9:%m[ 0,0,"^\u*$"] u10:%m[ 0,0,"^\u\l*$"] $ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_3 eng.test res_3 * Load model * Label sequences 1000 sequences labeled 5.00%/33.60% 2000 sequences labeled 4.72%/37.95% 3000 sequences labeled 4.43%/34.57% Nb sequences : 3684 Token error : 4.49% Sequence error: 33.17% * Per label statistics O Pr=0.98 Rc=0.99 F1=0.99 I-ORG Pr=0.79 Rc=0.73 F1=0.75 I-MISC Pr=0.80 Rc=0.71 F1=0.75 I-PER Pr=0.79 Rc=0.92 F1=0.85 I-LOC Pr=0.88 Rc=0.76 F1=0.81 * Done On a ajouté les pattern-matching suivants, dont le but est de trouver les entités composés uniquements de chiffres (en u9) et qui débutent par une majuscule (et dont le reste de l'entité est en minuscule, en u10) : u11:%m[ 0,0,"^\d*$"] u12:%m[ 0,0,"^\d\d\d\d$"] $ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_4 eng.test res_4 * Load model * Label sequences 1000 sequences labeled 5.04%/34.30% 2000 sequences labeled 4.67%/38.10% 3000 sequences labeled 4.37%/34.67% Nb sequences : 3684 Token error : 4.46% Sequence error: 33.28% * Per label statistics O Pr=0.98 Rc=0.99 F1=0.99 I-ORG Pr=0.79 Rc=0.73 F1=0.76 I-MISC Pr=0.80 Rc=0.70 F1=0.75 I-PER Pr=0.81 Rc=0.91 F1=0.86 I-LOC Pr=0.88 Rc=0.76 F1=0.82 * Done Remarque : Le résultat n'est pas probant, le gain est très faible. On suppose que cela est lié au faible nombre de correspondance avec le pattern. On ajoute le pattern suivant, dont le but est de faire correspondre aux acronymes dont les lettres sont séparées par un signe de ponctuation. Les expressions régulières de wapiti étant très limitées, on match les entités qui débutent par une lettre puis un caractère de ponctuation. u13:%m[ 0,0,"^\a\p"] $ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_5 eng.test res_5 * Load model * Label sequences 1000 sequences labeled 4.99%/33.20% 2000 sequences labeled 4.67%/37.45% 3000 sequences labeled 4.41%/34.27% Nb sequences : 3684 Token error : 4.46% Sequence error: 32.65% * Per label statistics O Pr=0.98 Rc=0.99 F1=0.99 I-ORG Pr=0.78 Rc=0.73 F1=0.75 I-MISC Pr=0.80 Rc=0.70 F1=0.74 I-PER Pr=0.81 Rc=0.91 F1=0.86 I-LOC Pr=0.88 Rc=0.77 F1=0.82 * Done Remarque : on perd en performance (précision, rappel, F1). on retire ce pattern de la liste. ########################################## Essais sur les algorithmes d'apprentissage ########################################## On a essayé de changer l'algorithme d'aprentissage pour le gradient stochastique (sgd-l1). On ne relève aucun changement notable. On a ensuite essayé avec l'algorithme "blockwise coordinate descent" (bcd). Le temps d'entraînement est *très* long (plus de 1min30 par itération) et on ne gagne que quelques % de précision. ######################## Enrichissement du corpus ########################