Partenaires




Search

On this website

On the whole CNRS Web


Home page > IT Services > Developed Software > ARBORLING
tree-based text analysis software

ARBORLING
tree-based text analysis software

 Contacts : Xuan Luong et Damon Mayaffre

Philosophie Générale

Par analyse arborée, on entend un ensemble de techniques visant à utiliser un outil mathématique simple : les arbres en tant que graphes non orientés, pour décrire, structurer, explorer et visualiser un ensemble de données. ARBORLING, inventé et initialement développé par X. Luong, a pour ambition de mettre cet outil à disposition des linguistes pour représenter des distances entre des textes ou pour rendre aisément lisible l’organisation de divers objets linguistiques sous étude.

L’analyse arborée, comme la plupart des autres méthodes multdimensionnelles, propose d’abord de choisir la mesure de distances appropriée.

Puis le logiciel opère la construction des arbres. Le modèle d’arbre retenu est un graphe connexe et sans circuit, caractérisé uniquement par la distance entre ses éléments. Ces distances satisfont à la propriété dite des « quatre points » (Luong et Barthélemy). La distance entre les objets étudiés est celle que l’on peut lire sur l’arbre en suivant scrupuleusement le tracé des branches et en tenant compte de la structuration de l’arbre avec ses divers embranchements ­ ou nœuds ­ porteurs d’un groupement plus ou mois serré de « feuilles ». A chaque nœud est associé un indice de formation de l’arbre, appelé indice d’agrégation ; si l’indice est égal à 1, le groupement représenté par ce nœud s’adapte entièrement à la construction arborée ; s’il est inférieur, c’est qu’un certain pourcentage des données (par exemple 2% dans le cas d’un indice égal à 0,98) a dû être modifié pour obtenir la représentation arborée.

Les atouts du logiciel

X. Luong et ses divers collaborateurs ont montré à plusieurs reprises et sur divers types de données que l’algorithme utilisé était parmi les plus performants pour exprimer la nature arborée des données. Une autre de ses qualités est l’extrême stabilité des résultats. Par ailleurs, le mode de représentation offre l’avantage d’une très bonne lisibilité : il conserve très exactement l’échelle des distances et il donne à voir simultanément ces distances et la structure de l’arbre avec ses nœuds hiérarchiques successifs, donnant ainsi au chercheur, même peu expérimenté, une image très parlante des regroupements et des oppositions entre les différents sous-ensembles d’éléments.

Perspectives futures

Le logiciel ARBORLING était initialement prévu pour fonctionner sous Mac OS 9. Un portage partiel du logiciel a par la suite été réalisé en java, afin de pouvoir faire fonctionner le moteur d’ARBORLING aussi bien sous PC (Windows XP à Windows 7) que sur Mac (Mac OS X) ; mais ce portage ne dispose pas des mêmes fonctionnalités graphiques que le logiciel d’origine. Aussi, le Service Informatique du laboratoire BCL développe actuellement une nouvelle interface graphique pour ARBORLING afin de combler ce manque.




Navigation