Invitation au colloque international

CASK (Computer-Aided Acquisition of Semantic Knowledge) Sorbonne 2008

 

"Language Data Mining"

June, 13-14 2008

 

Université Paris-Sorbonne - Paris 4

Maison de la Recherche

28 rue Serpente, 75006 Paris -  room D 323

 


Le projet CASK consiste à utiliser les méthodes informatiques d’exploration des bases de données pour la recherche en sémantique (grammaticale et lexicale) des langues naturelles. Il s’agit de l’application au domaine linguistique de certaines théories informatiques (1) des concepts formels (R. Wille, Allemagne), (2) des ensembles approximatifs (Z. Pawlak, Pologne) ainsi que (3) des méthodes statistiques de l’analyse factorielle des correspondances (Jean-Paul Benzécri, France). Un logiciel à l’usage des linguistes intégrant ces méthodes (SEMANA) a été spécialement conçu et réalisé au CELTA pour le projet. Les ordinateurs permettent notamment de traiter des « structures de traits sémiques », plus puissantes que les descriptions par « faisceaux de traits » en sémantique componentielle. Les premiers domaines linguistiques étudiés sont l’aspect et les catégories nominales mais aussi la modalité et les verbes de mouvement.

Des coopérations ont commencé au plan international avec la Pologne, le Japon et le Royaume-Uni. En France, avec une équipe d’informatique de l’Université de Caen. La conférencière invitée, Mme Uta PRISS de l’Université Napier à Edimbourg, est à la fois spécialiste de la méthode des concepts formels de Rudolf Wille et de sémiotique logique et du langage naturel (Frege, Pierce …).

Bien que les intervenants au colloque soient en majorité des informaticiens (mais spécialistes du langage naturel) les exposés permettront aux linguistes de se rendre compte que leurs connaissances des langues sont indispensables pour concevoir et alimenter les bases de données et comment en retour, les méthodes informatiques leur permettront de systématiser ces connaissances et d’y découvrir des structures qui ne sont pas perceptibles sans outils d’exploration des bases de données.

Ce colloque est l’occasion de montrer comment nous concevons au CELTA la coopération entre les recherches en linguistique descriptive et celles en linguistique assistée par ordinateur. Les seules compétences informatiques requises de la part des linguistes sont celles du traitement de texte et des logiciels de courrier électronique et de navigation Internet.