UMR 7320 : Bases, Corpus, Langage

Un programme de type THESAURUS OCCITAN (THESOC) représente à la fois la postérité des atlas et sans doute un élément-clé de l’avenir de la recherche géolinguistique. Cet outil fait suite à deux générations d’atlas ; son originalité est de rassembler et d’harmoniser toutes les données recueillies par les prédécesseurs et d’y associer à la fois les commodités de consultation que procure l’informatique et des perspectives d’exploitation à travers certains menus spécifiques.

Bref historique

L’idée de constitution d’un Thesaurus occitan remonte au colloque de Wégimont organisé par l’Association Internationale d’Etudes Occitanes en avril 1989 et consacré aux "Outils de la recherche occitane". Parmi les conclusions de ce colloque figure la nécessité de susciter des opérations susceptibles de dynamiser et de fédérer les énergies de recherche et d’aboutir à l’élaboration d’outils de recherche (et de pédagogie) à mettre à la disposition de la communauté. Dans le prolongement de ce colloque et après toute une série de contacts, en particulier dans le cadre du GDR 09 du CNRS “Atlas Linguistiques, Parlers et cultures des régions de France”, a pu être esquissé, sous l’impulsion de Jean-Philippe Dalbera, le projet d’une Base de Données de la langue occitane moderne articulant et synthétisant l’ensemble des données linguistiques disponibles recueillies par enquête orale depuis le début du siècle. Une fois ce projet, intitulé désormais THESAURUS OCCITAN (THESOC), approuvé par l’Assemblée Générale de l’AIEO en août 1990 à Montpellier, J.-Ph. Dalbera a réuni l’ensemble des chercheurs susceptibles d’être concernés par ce projet (Colloque international sur l’élaboration d’un Thesaurus occitan, Nice, 3-5 juin 1992) pour mettre au point des modalités de collaboration. A partir de là les choses se sont mises en place et le travail a pu commencer.

Objectifs et moyens

L’objectif consiste à forger un instrument de documentation et de recherche relatif à la langue occitane et le mettre à la disposition des chercheurs, des pédagogues et du public par diverses voies appropriées (publications classiques, publications sous forme de cédéroms, consultations sur postes informatiques localisés, consultations par l’intermédiaire du réseau, etc.).

Cet outil prend la forme d’une base de données relationnelles dans la conception de laquelle deux ordres de préoccupation sont associés (sans être confondus ni mêlés) :

(1) donner accès aux faits et à leurs sources par des voies simples et rapides : c’est l’aspect “trésor”, mise à disposition de ressources ;

(2) élaborer et mettre à disposition des procédures spécifiques de configuration et de traitement des données : c’est l’aspect “outil heuristique”.

En matière d’assises, le programme repose sur un quadruple partenariat : interviennent, à des titres et des niveaux divers (1) les organismes de recherche (Universités et CNRS), (2) l’Education Nationale, (3) les Régions (Midi-Pyrénées, Languedoc-Roussillon, Provence-Alpes-Côte d’Azur etc.), (4) les Communautés Européennes.

Le travail a commencé sur les seules forces de l’Université. Au cours de la période initiale, les premiers éléments ont été mis en place à Nice et à Toulouse ; le chantier a bénéficié de plus, au plan de la conception informatique, de l’expérience de la Banque de Données Langue Corse mise en œuvre par l’Université de Corte et avec laquelle le développement en symbiose s’est poursuivi. Par la suite, des soutiens sont intervenus : aide – décisive – des Communautés Européennes (1995-97), appui du CNRS, engagement progressif des Régions (soutien notamment de la Région Midi-Pyrénées au pôle toulousain du THESOC, relayé ensuite par la Région Provence-Alpes-Côte d’Azur). Le chantier est désormais largement reconnu. Pour le CNRS, il s’inscrit pleinement dans les perspectives de développement de la dialectologie française ; il se trouve doté d’un site, l’UPRES-A puis l’UMR “Bases, Corpus, Langage” de l’Université Côte d’Azur, il est corrélé à des actions programmées (ACI SHS-SPI, indexation des atlas-INaLF, DGLFLF) ; la structure informatique est largement diffusée vers d’autres chantiers et sert de modèle aux bases qui s’élaborent en Europe. Les Régions, voire des entités locales plus restreintes, témoignent d’un intérêt croissant, au fur et à mesure que les réalisations prennent corps.

La philosophie informatique

La construction de la base a procédé d’un dialogue permanent entre linguistes et informaticiens : les linguistes ont défini leurs exigences relativement au stockage des faits linguistiques, aux classifications à prévoir, aux opérations à faire subir, aux connexions à opérer, aux investigations à envisager, etc. Exploitant les potentialités offertes par 4D et son environnement (4D serveur), utilisant par ailleurs les logiciels "ordinaires" à disposition pour répondre à des objectifs spécifiques, notamment Adobe Illustrator pour la partie cartographique, Adobe Photoshop pour le traitement de l’image, Adobe Acrobat etc., D. Strazzabosco, premier informaticien du projet, a développé la base pour en faire un édifice original homogène n’imposant que fort peu de conditions d’utilisation. Le logiciel a été pensé initialement dans un environnement Macintosh mais la base de données fonctionne aujourd’hui indifféremment sur Macintosh et sur PC.

Depuis septembre 2005, le THESOC dispose d’un site Internet à l’adresse http://thesaurus.unice.fr qui explique le projet et donne accès, de manière interactive, à environ un tiers de son contenu. Les fonctionnalités et le volume de ce site se développeront progressivement, au fur et à mesure que de nouvelles données pourront être mises en ligne.

Depuis décembre 2007, le développement du logiciel THESOC et la maintenance de sa plateforme web sont désormais assurés en interne par le Service Informatique du laboratoire BCL, sous la responsabilité d’un Ingénieur de recherche, Pierre-Aurélien Georges.

Le choix des matériaux linguistiques

Les données à intégrer dans la base de données sont délimitées à l’aide de plusieurs critères. En premier lieu, il doit s’agir de données linguistiques établies à partir de sources orales et susceptibles donc de donner ou d’avoir donné lieu à une transcription phonétique.

Le propos est, avant tout, de rassembler – le plus exhaustivement possible – les données recueillies par voie d’enquêtes depuis le début du siècle. Les sources privilégiées apparaissent donc comme les atlas linguistiques publiés ou en cours (ALF, Atlas Linguistiques de la France par régions, ALEPO etc.), les monographies publiées, les travaux universitaires, les témoignages épars dans les périodiques, etc. Les données sonores, lorsqu’elles existent, sont évidemment intégrées tant à des fins de conservation que d’illustration. Il en va de même pour les documents iconographiques de natures diverses réunis à l’occasion des enquêtes. Les données à prendre en considération ne sont d’ailleurs pas purement lexicales ; la dimension "glossaire" est la plus importante car elle a constitué le premier objectif de la constitution de la base, mais des textes de toutes sortes (maximes, commentaires métalinguistiques, proverbes, conversations, récits etc.) sont également pris en compte, notamment pour la constitution de la base du module morpho-syntaxique (MMS).

En second lieu, la base doit comprendre (et livrer au visiteur) des résultats d’analyses déjà réalisées, là où ces résultats sont disponibles : en matière d’étymologie ou de morphologie notamment.

Les composantes de la base de données

La base de données ainsi conçue offre une série de dimensions. Du point de vue, adopté ici, de celui qui la consulte, l’architecture comporte une dimension lexique, une dimension atlas, une dimension étymologie, une dimension morphologie, une dimension textes, une dimension sons, une dimension images, une dimension toponymie et une dimension documentaire.

Les pérégrinations à l’intérieur de la base sont extrêmement nombreuses, de même que les démarches heuristiques que la base autorise. L’accès aux informations et aux outils s’effectue à l’aide d’un tableau de bord ; le “visiteur” se laisse guider par les icônes proposées. Les fichiers organisent la matière tandis que les menus proposent une série de représentations et d’analyses. Une rapide esquisse des principales facettes de la base figure ci-après.

La dimension lexique

L’une des articulations-clefs de la base de données, compte tenu des sources, est le couple ’question’ / ’localité’ : toute donnée saisie dans la base est référée à une question et à une localité spécifiques. Cela peut donner lieu à interrogation simple. L’information est fournie en premier lieu sous forme d’une transcription phonétique (en API) ; mais la fiche comporte aussi une forme graphique et une forme lemmatisée. Ces trois rubriques correspondent à trois niveaux de notation et d’utilisation possédant chacun sa pertinence. La notation phonétique est incontournable de tous les points de vue ; le lemme, en transcendant la variation, met en évidence l’unité, facilite le repérage, fournit l’information suffisante tant qu’il s’agit d’investigations à prisme proprement lexical, joue le rôle de passerelle par rapport à des dictionnaires classiques de la langue. Un étage intermédiaire, à concevoir comme graphie phonologisante s’avère indispensable en guise d’interface pour donner accès aux dictionnaires ou ouvrages qui font une place à la variation. Il est possible d’accéder aux données de ce fichier de plusieurs manières :

par la question (affichage de l’ensemble des réponses obtenues à une question donnée) : d’où appréhension onomasiologique de synthèse et vision panoramique de la variation ;
par la localité : d’où vision de type monographique des matériaux.

Par ailleurs, en dépit des contraintes imposées par la logique spécifique de recueil des données qui a été utilisée, un fichier inverse a été construit, qui permet l’interrogation à partir des lemmes dialectaux et ouvre la perspective d’étude sémasiologique.

Le fichier ’Localités’ rassemble tous les points où des enquêtes ont été conduites et des données recueillies ; en premier lieu les points des réseaux d’atlas mais sans exclusive puisque la base accueille toutes sortes de données, issues notamment de travaux monographiques, pourvu que soit respectée la double exigence ’source orale’ + ’localité définie’. L’une des caractéristiques de la base de données est son caractère ouvert : le réseau, conçu dans un premier temps comme la réunion des réseaux des Atlas Régionaux et de l’ALF, est complété à l’occasion d’enquêtes nouvelles ou lors de la publication de monographies localisées exploitables. Un système de double numérotation (n° base unique et aléatoire, n° de surface destiné à la présentation cartographique tenant compte de la cohérence de la répartition dans l’espace, avec intégration des “nouveaux” en étoile autour du noyau initial) permet de gérer cette variabilité permanente du réseau. Le fichier localités renseigne en outre sur les sources des données fournies : de quel atlas (ou travail) elles sont issues, au terme d’une enquête menée à quelle époque, par qui, auprès de qui, dans quelles conditions. Bien entendu, le renseignement de ces rubriques est tributaire des documents originaux.

Le fichier ’Questions’ pose davantage de problèmes. Il représente en principe la réunion des différents fichiers-questions des atlas mais peut, comme le fichier localités, être enrichi “à la demande” chaque fois que la saisie de nouveaux matériaux en donne l’occasion. Mais sans même envisager ces adjonctions périodiques, l’opération qui consiste à faire la somme des questions posées dans les atlas ne manque pas de faire difficulté : se posent tous les problèmes de contrainte contextuelle, de découpage du référent, de terminologie etc. : le traitement informatique oblige là le linguiste à réfléchir sur certaines questions fondamentales (Cf. Oliviéri 2004).

La dimension atlas

Mais le THESOC n’est pas consultable uniquement comme un lexique, fût-il à accès multiples ; il sous-tend également des atlas. Les faits peuvent être, instantanément, projetés dans l’espace. La base permet de recomposer en une image globale les faits disséminés dans des cartes-papier multiples (non aisément juxtaposables) ou hors cartes (dans le cas des "marges" d’atlas ou des documents issus de monographies). Le résultat est souvent riche d’enseignements. Certes, ce mode d’accès aux données de la base pose des problèmes d’échelle : il paraît difficile par exemple d’afficher sur un écran, même de 21’, une carte de l’aire occitane comportant un réseau fort de plus de 800 localités et d’écrire à côté de chaque point la réponse à la question posée. Le corps des caractères serait en effet si réduit que ceux-ci seraient rebelles à toute lecture. Mais des solutions existent pour régler ce type de difficultés. Celle que nous avons choisie consiste à jouer avec des échelles variables. Si une vision globale des faits (tout l’occitan) est proposée, la coloration des points réseau note simplement la présence d’une réponse décelable. Mais comme la carte est interactive, cette schématisation n’est pas gênante : il suffit en effet de cliquer sur le point de la localité désirée pour que s’affiche dans une fenêtre la réponse souhaitée. Si ce type de représentation s’avère insatisfaisant, il reste la possibilité de revenir à une vision plus classique de la carte d’atlas linguistique : il suffit pour cela d’utiliser un “ zoom ” ; s’affiche alors en plein écran une aire plus restreinte (l’ordre de grandeur est le département). Et à cette échelle, il redevient possible de consigner le détail des réalisations dans chaque localité sans que le seuil de lisibilité ne soit atteint.

Le caractère interactif de la consultation permet d’exploiter plus avant les représentations cartographiques La vision de synthèse et le repérage des types essentiels sont souvent difficiles à établir. Pour faire apparaître les lignes de force de la partition étudiée, le THESOC est doté d’une cartographie à symboles : le consultant peut procéder lui-même à un lissage des faits, effectuer sa propre lemmatisation en fonction de la visée qui est la sienne, puis projeter la typologie ainsi élaborée dans l’espace. Chaque type lexical se voit associé à une couleur dont la valeur est explicitée dans une légende (procédure d’autant plus intéressante qu’elle est généralisable à tous types de phénomènes (il suffit de les organiser en tableau).

La dimension diachronique

Le fichier étymons est avant tout un document de référence ; chaque entrée, représentée avec les conventions d’usage renvoie aux grands dictionnaires étymologiques romans REW, FEW, etc. Mais son interrelation avec les autres fichiers ouvre des perspectives intéressantes ; en particulier, couplé avec la représentation cartographique, il offre des images aréologiquement très significatives sur des questions de phonétique ou de lexicologie diachroniques. La conception des procédures pour extraire de la base les traitements de phonétique historique recherchés a conduit en outre à imaginer, entre formes étymologiques et continuateurs dialectaux, un fichier-tampon, totalement construit, une sorte de latin tardif aréalisé dont l’intérêt linguistique n’est sans doute pas négligeable dans le cadre d’une reconstruction des phases diachroniques du roman.

Le module morpho-syntaxique (MMS)

Dans une perspective d’analyse morpho-syntaxique, M. Oliviéri a voulu doter le THESOC d’un module spécifique permettant de traiter des phrases. A cette fin, sont rassemblés un certain nombre de textes et de phrases, de source orale, recueillis au cours des enquêtes de terrain :

paroles transmise (tradition orale)
réflexions d’ordre métalinguistique
commentaires techniques
témoignages
récits

D’autres textes sont également pris en compte, qui relèvent de l’"oral-écrit". Il s’agit de textes de presse populaire, de théâtre populaire, de comptines, etc. En effet, bien qu’étant écrits, ils ont aussi une existence orale et permettent d’enrichir la base de données.

Aux textes, s’ajoutent des phrases recueillies à l’aide de questionnaires morphologiques ou syntaxiques spécifiques. Toutes les phrases contenues dans MMS (qu’elles proviennent de textes ou d’enquêtes spécifiques) sont ensuite traitées par l’outil informatique : étiquetage morpho-syntaxique des mots et analyse syntaxique des phrases.

L’étiqueteur morphosyntaxique est associé à un dictionnaire extrait de la base lexicale du THESOC et enrichi des divers dictionnaires occitans. L’analyseur syntaxique permet de proposer une analyse syntaxique de chaque phrase du corpus. Une fois les textes étiquetés et les phrases analysées, il est alors possible d’effectuer toutes sortes de recherches (par catégories, par lemmes ou par structures syntaxiques) et de générer automatiquement un corpus de travail (Cf. notamment Georges 2010).

Le volet sonore

Le multimédia a l’avantage d’associer commodément les données sonores aux transcriptions. Le THESOC est donc conçu de telle sorte que l’ensemble du matériau sonore issu des enquêtes de terrain menées au XXè s. (bandes magnétiques ou cassettes) puisse être à la fois sauvegardé (numérisé), traité, trié en relation avec les données transcrites de la base et mis à disposition. Cela suppose un stockage sur CD après numérisation puis nettoyage et segmentation à l’aide des tracés visualisés ; ces segments constituent autant de fichiers-sons indépendants qui, une fois étiquetés, peuvent être intégrés à la base de données. Un contrat lie Nice et Toulouse aux termes duquel le travail de numérisation des bandes s’effectue au CAM à Toulouse avec le matériel cofinancé par Nice et Toulouse (crédits alloués par la DGLF aux deux équipes engagées dans cette entreprise). Les données sonores subissent le même traitement que les données graphiques, de sorte que l’interrogation de la base livre le son comme la transcription et affiche des cartes sonorisées.

La dimension image

Le référent ne peut être évacué sans dommage de la langue. Même si le volet image ne peut être, ici, qu’un accessoire commode et non un objectif central, le multimédia offre de recourir à des représentations iconographiques dans les cas où celles-ci éclaireraient l’aspect proprement linguistique (schémas, planches, photos etc.).

Le volet toponymique

Dans le cadre des enquêtes dialectologiques, sont recueillis – inévitablement – toute une série d’informations relatives aux dénominations de l’espace, à la toponymie. Ces informations ne sauraient être traitées sur un mode comparable à celui des faits linguistiques ordinaires par suite de l’impossibilité de questionnaires comparatifs systématiques. J.-C. Ranucci développe ainsi ce module spécifique, inspiré notamment des travaux d’A. Genre sur l’Atlante Toponomastico del Piemonte Montano.

La face documentaire

Tous les faits intégrés devant pouvoir être rapportés à leurs sources ou à leurs “auteurs”, la base comporte un fichier spécifique où sont consignés tous les ouvrages-sources, publiés ou inédits, et chaque mot est référé, selon une codification très simple, à sa source. Mais au delà de ce fichier des sources, le THESOC rassemble, sous une forme classique, une bibliographie relative à la langue (non littéraire) occitane qui peut être consultée indépendamment.

Menu

Nos tutelles

Nos partenaires

Rechercher

PRESENTATION GENERALE : Historique et fonctionnalités