Analitza i neteja les anotacions de STS

Per cada parell de frases, eliminar les anotacions que es diferencien de >1 de la mitjana i presenta un report dels exclosos. També fa un filtre de les anotacions disperes en presenta un informe al terminal. Imprimeix els parells de frases amb anotacions disperses en un document per fer-le la revisió manual. Calcula les correlacions, les imprimeix al terminal i en fa un report en html. Imprimeix un document .tsv amb totes les dades i un altre amb la nostra ground truth

Aquest bloc té dues parts i dos objectius: Detectar si un anotador s'ha despistat o si les anotacions són disperses. 1) Primer mira si un anotador se separa massa dels altres. Si és així, entenem que l'anotador s'ha equivocat i que es pot descartar la seva anotació. Per fer-ho, comprova per cada anotador si se separa de més d'un punt de la mitjana d'anotacions. Si és el cas, l'elimina, torna a calcular la mitjana sense ell i l'anota a la llista d'anotadors exclosos Finalment, copia la nova mitjana a la columna "newavg" i la llista d'anotadors exclosos a la columna "annotators_excluded"

2) Després detecta les anotacions "dispereses", en que els anotadors es divideixen en dos blocs separats per dos punts (per exemple, 1, 1, 3, 3) o més (1, 1, 3, 4). En aquest cas, entenem que el parell de frases és ambigu i que es pot descartar. Per fer-ho, compara els anotadors un a un. Per 4 anotadors, fa sis comparatives. En les frases amb anotacions disperses, d'aquestes sis comparatives, o bé quatre vegades el valor és 2 o bé dues vegades el valor és 2 i dues o més vegades és 3 o més. Comprovem si es dona el cas i, sí és així, marquem el parell de frases com a descartable.

Imprimim el df amb la mitajana, la nova mitjana i el llistat d'exclosos

Fem l'estadística d'exclosos

Presentem la llista de parell de frases que es proposa exloure

Creem un document amb el ground truth

Creem un document amb el dataset complet amb totes les informacions

Imprimim també un report en html