XML stats est un outil pédagogique et professionnel utile à l’exploration rapide d’un ou plusieurs fichiers XML. Il a été commencé en 2012 par pour une étude sur le balisage des dictionnaires. Il fournit différentes statistiques relatives aux balises et au texte qu’elles contiennent, notamment la liste des mots les plus fréquents pour une balise. Cet outil en ligne est utilisé lors de sessions de formation XML, ainsi que pour l’édition XML, afin de rapidement détecter des erreurs de balisage (intrus, sémantique). Les informations extraites sont orientée vers l’analyse de document textuels, notamment TEI (mais aussi, EAD). On peut ainsi compter séparément certains éléments selon la valeur d’un attribut (@type, @xml:lang…). Le logiciel introduit différents indices, par exemple la “segmentation”, c’est à dire la taille moyenne d’un segment sans interruption de balises (en caractères). Cette métrique élémentaire est assez intéressante pour mesurer la complexité d’un texte structuré.