Rapport TP RIIA
17 septembre 2018
M. Hinge — T. Gennuso


##############
Modèle de base
##############

Avec le modèle de base, on obtient les résultats suivants :

$ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_1  eng.test res_1.1
* Label sequences
      1000 sequences labeled	 8.29%/46.20%
      2000 sequences labeled	 6.76%/47.45%
      3000 sequences labeled	 6.35%/43.63%
    Nb sequences  : 3684
    Token error   :  6.61%
    Sequence error: 42.37%
* Per label statistics
    O       Pr=0.95  Rc=0.99  F1=0.97
    I-ORG   Pr=0.82  Rc=0.62  F1=0.70
    I-MISC  Pr=0.82  Rc=0.67  F1=0.74
    I-PER   Pr=0.88  Rc=0.70  F1=0.78
    I-LOC   Pr=0.89  Rc=0.70  F1=0.79
* Done

##############################
Essais sur le pattern-matching
##############################

On ajoute au fichier de pattern la ligne, dont le but est de regarder l'étiquette morphosyntaxique de l'entité :

u8:%x[ 0,1]

$ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_2  eng.test res_2
* Load model
* Label sequences
      1000 sequences labeled	 5.89%/37.10%
      2000 sequences labeled	 5.13%/40.05%
      3000 sequences labeled	 4.89%/37.37%
    Nb sequences  : 3684
    Token error   :  4.97%
    Sequence error: 36.05%
* Per label statistics
    O       Pr=0.98  Rc=0.99  F1=0.98
    I-ORG   Pr=0.78  Rc=0.72  F1=0.75
    I-MISC  Pr=0.81  Rc=0.68  F1=0.74
    I-PER   Pr=0.75  Rc=0.90  F1=0.82
    I-LOC   Pr=0.88  Rc=0.75  F1=0.81
* Done

On a ajouté les pattern-matching suivants, dont le but est de trouver les entités composés uniquements de majuscules (en u9) et qui débutent par une majuscule (et dont le reste de l'entité est en minuscule, en u10) :

u9:%m[ 0,0,"^\u*$"]

u10:%m[ 0,0,"^\u\l*$"]

$ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_3  eng.test res_3
* Load model
* Label sequences
      1000 sequences labeled	 5.00%/33.60%
      2000 sequences labeled	 4.72%/37.95%
      3000 sequences labeled	 4.43%/34.57%
    Nb sequences  : 3684
    Token error   :  4.49%
    Sequence error: 33.17%
* Per label statistics
    O       Pr=0.98  Rc=0.99  F1=0.99
    I-ORG   Pr=0.79  Rc=0.73  F1=0.75
    I-MISC  Pr=0.80  Rc=0.71  F1=0.75
    I-PER   Pr=0.79  Rc=0.92  F1=0.85
    I-LOC   Pr=0.88  Rc=0.76  F1=0.81
* Done

On a ajouté les pattern-matching suivants, dont le but est de trouver les entités composés uniquements de chiffres (en u9) et qui débutent par une majuscule (et dont le reste de l'entité est en minuscule, en u10) :

u11:%m[ 0,0,"^\d*$"]

u12:%m[ 0,0,"^\d\d\d\d$"]

$ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_4 eng.test res_4
* Load model
* Label sequences
      1000 sequences labeled	 5.04%/34.30%
      2000 sequences labeled	 4.67%/38.10%
      3000 sequences labeled	 4.37%/34.67%
    Nb sequences  : 3684
    Token error   :  4.46%
    Sequence error: 33.28%
* Per label statistics
    O       Pr=0.98  Rc=0.99  F1=0.99
    I-ORG   Pr=0.79  Rc=0.73  F1=0.76
    I-MISC  Pr=0.80  Rc=0.70  F1=0.75
    I-PER   Pr=0.81  Rc=0.91  F1=0.86
    I-LOC   Pr=0.88  Rc=0.76  F1=0.82
* Done

Remarque : Le résultat n'est pas probant, le gain est très faible. On suppose que cela est lié au faible nombre de correspondance avec le pattern.

On ajoute le pattern suivant, dont le but est de faire correspondre aux acronymes dont les lettres sont séparées par un signe de ponctuation. Les expressions régulières de wapiti étant très limitées, on match les entités qui débutent par une lettre puis un caractère de ponctuation.

u13:%m[ 0,0,"^\a\p"]

$ /pub/riia/wapiti-1.5.0/wapiti label -c -m modele_5 eng.test res_5
* Load model
* Label sequences
      1000 sequences labeled	 4.99%/33.20%
      2000 sequences labeled	 4.67%/37.45%
      3000 sequences labeled	 4.41%/34.27%
    Nb sequences  : 3684
    Token error   :  4.46%
    Sequence error: 32.65%
* Per label statistics
    O       Pr=0.98  Rc=0.99  F1=0.99
    I-ORG   Pr=0.78  Rc=0.73  F1=0.75
    I-MISC  Pr=0.80  Rc=0.70  F1=0.74
    I-PER   Pr=0.81  Rc=0.91  F1=0.86
    I-LOC   Pr=0.88  Rc=0.77  F1=0.82
* Done

Remarque : on perd en performance (précision, rappel, F1). on retire ce pattern de la liste.

##########################################
Essais sur les algorithmes d'apprentissage
##########################################

On a essayé de changer l'algorithme d'aprentissage pour le gradient stochastique (sgd-l1). On ne relève aucun changement notable.
On a ensuite essayé avec l'algorithme "blockwise coordinate descent" (bcd). Le temps d'entraînement est *très* long (plus de 1min30 par itération) et on ne gagne que quelques % de précision.

########################
Enrichissement du corpus
########################