(dernière modification : )

IEML : Premier séminaire d’IEML

Objectif : baliser en IEML un lexique appartenant à un domaine de connaissance particulier pour alimenter une base de données IEML, grâce à un outil d’édition appelé Intlekt.

Contexte

Niveaux de localisation des données :

Projet proposé : un adressage universel des concepts, métadonnées sémantiques qui unifient l’ensemble des données en conservant une pluralité des structures sémantiques. Nous avons déjà un système d’adressage couplé à des métadonnées riches, mais sans disposer d’un modèle qui ne soit pas que descriptif. Ces systèmes ne communiquent pas entre eux.

On pourrait procéder à une traduction énoncé par énoncé (entre ces systèmes), mais la communication n’est pas automatique.

Idée du projet : un système sémantique qui unifierait l’ensemble des données. Ce système ne devrait pas imposer quoi que ce soit aux utilisateurs — un même ensemble de données devrait pouvoir être représenté de toutes sortes de manières, selon la manière dont on se le représente.

Deuxièmement, aucune hiérarchie ne devrait pas être pré-inscrite dans le système de classification conceptuel (il ne s’agit pas d’imposer quoi que ce soit). Tous les langages documentaires actuels reposent sur un système de classification.

Nous avons une mémoire physique commune, mais nous n’avons pas de mémoire sémantique commune.

Objectif : créer une seule et même langue pour tous les concepts. Actualiser la potentialité entre les différentes langues qui, ensemble, constituent une « mémoire collective ». La sémantique (paradoxalement) n’a lieu que dans une hétérogénéité des langages – ce qui ne signifie pas qu’il y ait une infinité de possibilités sémantiques!

L’IEML est une langue philologique. Les langues (philologiques) ont la propriété remarquable d’être traduisibles entre elles. L’IEML est une sorte d’Esperanto (une langue à visée universelle, mais néanmoins naturelle), à la différence qu’elle est plus stable que les langues naturelles : tout est déterminé, donc calculable, sans toutefois être univoque. IEML demeure souple, mais stable.

Indexé en IEML : la bibliothèque numérique idéale

La traduction IEML vers une langue naturelle devient très facile.

À supposer que l’IEML devienne un standard, on peut imaginer de nombreuses possibilités en sciences humaines.

L’ouverture d’un espace sémantique calculable, universel et infini pourrait provoquer un changement de paradigme, voire une révolution scientifique, dans les sciences humaines…

Bases linguistiques

Présupposé partagé avec Chomsky : nous avons une aptitude naturelle à parler une langue.

La parole est quelque chose de naturel pour l’être humain.

L’écriture, par contre, n’est pas aussi évidente : il faut des années d’éducation pour se (con)former à un système d’écriture.

Il y aurait donc des gènes qui produiraient les neurones servant au langage; on en déduit qu’il y aurait une « grammaire universelle ».

Il y aurait donc un « langage régulier », à caractère algorithmique, reconnaissable par un ordinateur. Les langues naturelles ne sont pas des langages réguliers.

La plupart des langages réguliers n’étaient pas des langues philologiques.

Objectif : produire un langage à la fois :

Saussure et la notion de signifié/signifiant

Distinction signifiant/signifié (cf. Saussure) : association entre le signifiant (un mot, par exemple : « rouge ») et le signifié (la couleur rouge, dont le mot prononcé n’a rien à voir avec la chose elle-même).

On distingue la langue (système synchronique) et la parole (actualisation du système).

Dans la langue, les unités linguistiques, en particulier en partant des morphèmes, sont organisées en paradigmes.

Par exemple, dans le paradigme des couleurs, nous avons le rouge, le vert, le mauve, le violet, etc. Les éléments d’un même paradigme s’excluent les uns les autres (le rouge n’est pas le vert), mais en même temps se rapprochent les uns des autres (le violet se rapproche du mauve).

Autre exemple : vendre et acheter sont reliés à un même paradigme – bien qu’ils s’opposent – celui des actions économiques (transactions).

Paradigmes de signifiant : système de voyelles (« i », « o », etc.). Dans la plupart des langues naturelles, signifié et signifiant sont disjoints.

Dans l’IEML, il y a concordance, correspondance, parallélisme entre signifiant et signifié : les paradigmes signifiants et signifiés coïncident. C’est ce qui permet de calculer les relations entre les signifiants.

Autre façon de le dire (cf. Vitali-Rosati) : la syntaxe et la sémantique concordent. Syntaxe et symboles se ressemblent, voire correspondent.

Dans un système comme IEML, on sélectionne un nombre fini de morphèmes, puis on les met relation selon un nombre limité de règles, ce qui crée une quantité pratiquement infinie de relations. (On cherche délibérément à limiter le nombre de morphèmes pour que le système demeure « gérable », jusqu’à 10 000, soit le même que nombre d’idéogrammes chinois).

Lucien Tesnière

Pour Tesnière, la syntaxe est l’architecture de la sémantique. Il a théorisé la linguistique cognitive : la langue permet la construction de modèles mentaux et la narration.

Modèle actanciel de la phrase : process, actants, circonstants. Un syntagme est une description d’une scène.

La langue décrit toujours des petites scènes avec des personnages qui interagissent parmi des décors. Une histoire est un enchaînement de scènes.

Igor Melchuk cite beaucoup Lucien Tesnière : Il y a des fonctions standard entre les mots. On retrouve des mêmes couples de relations dans plusieurs langues : averse/pluie (la première est plus courte); collines/montagnes (la première est plus petite); scieur/scie (la première est une personne qui utilise l’instrument).

On s’appuie sur un système de cas : chaque mot a une fonction particulière dans la description d’une scène.

La distribution des rôles (« agresseur x attaque victime *y* ») est une autre caractéristique semblable : certains mots vont ensemble, et pas d’autres.

On ne dit pas :

un silence lourd de malentendus

mais bien plutôt :

un silence lourd de sous-entendus.

(La nuance est subtile.)
Certains mots vont ensemble, et d’autres non!

Qu’est-ce donc que le sens commun?
Comment se traduit-il – se code-t-il – en intelligence artificielle?

Le sens commun est codé dans le langage commun.

La modélisation actancielle, les fonctions lexicales et les frames (paradigmes de phrases) sont supportés en IEML.

L’aspect pragmatique

Au niveau de l’énonciation, une des principales fonctions du langage est l’action, qui peut avoir des conséquences sur la réalité extra-linguistique.

Selon les règles du jeu, les paroles auront tel ou tel effet. Chez certaines personnes, très habiles, les paroles peuvent avoir un autre effet.

Jeux de langage :

Importance de la référence, de l’indexicabilité : effets de déictique. La déictique (par exemple : « demain ») est toujours par rapport à l’énonciation (par exemple, le 2 octobre, « demain » désignera le 3 octobre). Ces effets de pointeurs, de référence, sont des jeux de langage.

Il y a beaucoup de jeux de langage (pragmatiques) auxquels on peut jouer avec l’IEML.

Il faut pouvoir d’abord référer à un état de choses, puis faire un raisonnement qui s’appuie dessus.

Communication sociale : il faut pouvoir communiquer le sens à d’autres personnes.

Instructions à des machines : ensemble de règles qu’on peut décrire à des machines (jeu de langage auquel on joue). Autrement dit, on peut aussi coder la dimension pragmatique.

IEML et sens commun

Nous n’avons pas tous le même sens commun. Mais avec un même système de lettres, de règles et de morphèmes, nous pourrions tous comprendre nos différents « sens communs »!

Architecture générale du langage

Schéma de l’architecture générale du langage (image Pierre Levy)

Dans les langues naturelles, on crée des morphèmes à partir de multiplications ternaires : des ensembles de lettres multipliés par ensembles de lettres multipliés par ensembles de lettres = formation de paradigmes.

Il y a une relation entre les morphèmes des différentes couches (inférieures et extérieures) : c’est une relation genre-espèce.

Parmi des morphèmes d’une même couche, on a des relations d’analogie (correspondent, dans une matrice, à des éléments d’une même colonne ou d’une rangée).

Polymorphèmes : rassembler plusieurs termes sous un même morphème (par exemple : aller / aller vers le haut = monter).

Le domaine de métaphorisation par excellence chez les humains est l’espace. Par exemple : la déchéance sociale est toujours représentée par une descente, jamais une ascension!

Le contexte peut renvoyer :

Arbre syntagmatique

Arbre syntagmatique (image Pierre Levy)

Syntagme > Process > Actants > Sous-actants
Syntagme
|-- process
  |-- initiateur
  |---- arbre des propriétés 
  |-- inteactant
    |---- qualité
    |---- actant sub
      |------ …
  |-- destinataire
  |-- temps
  |-- lieu
  |-- intention
  |-- manière
  |-- cause

Nous avons besoin d’une structure syntagmatique pour exprimer un concept qui, en français par exemple, s’exprime en un seul mot.

On peut fabriquer des mots qui disent des structures complexes.

3 types de polymorphèmes (question posée à @plevy) :

Instrument de musique analogique (question posée à @plevy) :

Anaphore (renvois d’un mot à un autre) : à quoi renvoie un mot comme « ce »?

3 types de fonctions :