Ce dépôt contient des datasets convertis en XML-TEI pour le projet COLaF selon les règles dictées ici.
L'idée est de présenter des datasets de types de documents variés afin d'éprouver le schéma sélectionné et de fournir des exemples d'utilisation. Chaque dataset est classé dans un dossier à son nom dans lequel se trouve aussi un exemple de document du dataset original et l'outil créé pour transformer ce document en document COLaF (feuille XSL, programme python, etc...).
Le fichier ODD.rng en racine permet de vérifier la validation des documents COLaF ajoutés dans le dépôt.
Nom | Sujet | Langues | Période | Quantité token | Url | Info. sup. |
---|---|---|---|---|---|---|
Eltec-fra | Corpus de romans | fra | XIXème | https://github.com/COST-ELTeC/ELTeC-fra | Recup encodage level2 (POS+lemme) | |
Opensubtitles Dump | Corpus de sous-titres | fra | XX-XXIème | https://opus.nlpl.eu/OpenSubtitles/fr&/v2018/OpenSubtitles | ||
Picard Concours | Prose, poésies et scènes de théâtre produites dans le cadre d'un concours d'écriture | pic | XXIème | https://languepicarde.fr/ |