Programme détaillé – démonstrations
Démonstrations 1
Vendredi 4 juillet, de 9h30 à 11h30, Salle des Colloques
P-Demo1.1 : ORTOLANG : une infrastructure de mutualisation de ressources linguistiques écrites et orales
Démonstrations 1
Résumé : Nous proposons une démonstration de la Plateforme de l’Equipex ORTOLANG (Open Resources and Tools for LANGuage : www.ortolang.fr) en cours de mise en place dans le cadre du programme d’investissements d’avenir (PIA) lancé par le gouvernement français. S’appuyant entre autres sur l’existant des centres de ressources CNRTL (Centre National de Ressources Textuelles et Lexicales : www.cnrtl.fr) et SLDR (Speech and Language Data Repository : http://sldr.org/), cette infrastructure a pour objectif d’assurer la gestion, la mutualisation, la diffusion et la pérennisation de ressources linguistiques de type corpus, dictionnaires, lexiques et outils de traitement de la langue, avec une focalisation particulière sur le français et les langues de France.
P-Demo1.2 : Utilisabilité d’une ressource propriétaire riche dans le cadre de la classification de documents
Démonstrations 1
Résumé : Synapse Développement propose depuis plusieurs années des outils d’analyse du texte permettant d’enrichir un texte avec des méta-données sémantiques le concernant : mots-clefs du document, noms propres clefs, et concepts clefs sur une taxinomie générique. Nous nous intéressons ici à l’utilisation de cette ressource linguistique propriétaire riche pour une tâche de classification. L’objectif est ici de mesurer l’impact de l’ajout de ces ressources sur cette tâche en termes de performances.
P-Demo1.3 : CFAsT: Content-Finder AssistanT
Démonstrations 1
Résumé : Cette démonstration de CFAsT s’intéresse à “comment concevoir un système de dialogue avec un effort minimal”. Cet assistant virtuel repose sur un nouveau modèle pour la génération automatique de système de dialogue construite à partir de contenus. Cette approche utilise un moteur de recherche auquel on a ajouté des fonctionnalités de dialogue : à chaque tour, le système propose trois mots-clefs de manière à optimiser l’espérance de gain d’information.
P-Demo1.4 : Démonstration de Kawâkib, outil permettant d’assurer le feedback entre grammaire et corpus arabe pour l’élaboration d’un modèle théorique
Démonstrations 1
Résumé : Kawâkib est un outil assurant le feedback entre corpus arabe et grammaire. Ce logiciel interactif en ligne démontre le bien fondé de la méthode de variation des grammaires arabes pour l’obtention de l’algorithme optimal tant au niveau de l’analyse morphologique, cruciale étant donnée la structure du système sémitique, que syntaxique ou dans le domaine de la recherche de critères pertinents et discriminants pour le filtrage des textes.
P-Demo1.5 : OWI.Chat : Assistance sémantique pour un conseiller Chat, grâce à la théorie OWI
Démonstrations 1
Résumé : Le canal chat permet aux entreprises de transformer leur site web en un véritable lieu d’achat et de service. OWI a développé un outil d’assistance aux conversations en ligne (OWI.Chat), qui analyse les messages des internautes et conseille les conseillers en temps réel.
P-Demo1.6 : ZombiLingo : manger des têtes pour annoter en syntaxe de dépendances
Démonstrations 1
Résumé : Cet article présente ZombiLingo un jeu ayant un but (Game with a purpose) permettant d’annoter des corpus en syntaxe de dépendances. Les annotations créées sont librement disponibles sur le site du jeu.
P-Demo1.7 : Ubiq : une plateforme de collecte, analyse et valorisation des corpus
Démonstrations 1
Résumé : Proxem édite Ubiq, une plateforme de collecte de documents et d’analyse sémantique, capable d’extraire des informations pertinentes à partir du contenu de vastes corpus. Les documents analysés sont d’une grande diversité : opinions collectées sur des sites web, emails de réclamation ou de demande d’information, réponse à des questions ouvertes dans des sondages, offres ou demandes d’emploi, etc. La reconnaissance des entités nommées joue un rôle central car c’est un préalable à d’autres traitements sémantiques. La conception d’un module de reconnaissance d’entités nommées nécessite généralement un investissement important en amont, avec une adaptation de domaine. Ubiq propose une approche d’apprentissage faiblement supervisé de l’extraction d’entités nommées qui tient compte du corpus collecté et de ressources externes (Wikipédia). La méthode et l’outillage développés permettent de déterminer à la volée, en interaction avec l’utilisateur, la granularité des types d’entités adaptée à un corpus de texte tout-venant.
Démonstrations 2
Vendredi 4 juillet, de 14h00 à 16h00, Salle des Colloques
P-Demo2.1 : Zodiac : Insertion automatique des signes diacritiques du français
Démonstrations 2
Résumé : Nous proposons dans cette démonstration de présenter le logiciel Zodiac, permettant l’insertion automatique de diacritiques (accents, cédilles, etc.) dans un texte français. Zodiac prend la forme d’un complément Microsoft Word sous Windows permettant des corrections automatiques du texte au cours de la frappe. Sous Linux et Mac OS X, il est implémenté comme un programme sur ligne de commande, se prêtant naturellement à lire ses entrées sur un « pipeline » et écrire ses sorties sur la sortie standard. Utilisant UTF-8, il met en œuvre diverses librairies C++ utiles à certaines tâches du TAL, incluant la manipulation de modèles de langue statistiques.
P-Demo2.2 : Le système STAM
Démonstrations 2
Résumé : Le projet STAM aborde la problématique de la transcription automatique du langage texto (SMS) et plus particulièrement la traduction des messages écrits en arabe dialectal. L’objectif du système STAM est de traduire automatiquement des textes rédigés en langage SMS dans un dialecte parlé dans le monde arabe (langue source) en un texte facilement interprétable, compréhensible et en bon français (langue cible).
P-Demo2.3 : DictaNum : système de dialogue incrémental pour la dictée de numéros.
Démonstrations 2
Résumé : Les stratégies de dialogue incrémentales offrent une meilleure réactivité, une expérience utilisateur plus aboutie et une réduction du risque de désynchronisation. Cependant, les systèmes de dialogue incrémentaux sont basés sur une architecture logicielle dont l’implantation est longue, difficile et donc coûteuse. Pour faciliter cette évolution d’architecture, nous proposons de simuler un comportement incrémental en ajoutant une surcouche à un service de dialogue traditionnel existant. DictaNum est un démonstrateur de dialogue incrémental mettant en œuvre cette démarche. Sa tâche consiste à recueillir des numéros auprès des utilisateurs. Grâce à son fonctionnement incrémental, il autorise une correction rapide des erreurs au fil de la dictée.
P-Demo2.4 : Construction (très) rapide de tables de traduction à partir de grands bi-textes
Démonstrations 2
Résumé : Dans cet article de démonstration, nous introduisons un logiciel permettant de construire des tables de traduction de manière beaucoup plus rapide que ne le font les techniques à l’état de l’art. Cette accélération notable est obtenue par le biais d’un double échantillonnage : l’un permet la sélection d’un nombre limité de bi-phrases contenant les segments à traduire, l’autre réalise un alignement à la volée de ces bi-phrases afin d’en extraire les exemples de traduction nécessaires. Cette focalisation sur les seules unités à traduire offre ainsi une solution pertinente pour construire rapidement des tables de traduction, en particulier à partir de très grands bi-textes, tout en évitant de construire des connaissances bilingues qui ne seraient très majoritairement pas utilisées.
P-Demo2.5 : Un assistant vocal personnalisable
Démonstrations 2
Résumé : Nous proposons la démonstration d’un assistant personnel basé sur une architecture distribuée. Un portail vocal relie l’utilisateur à des applications. Celles-ci sont installées par l’utilisateur qui compose de ce fait son propre assistant personnel selon ses besoins.
P-Demo2.6 : CELLO : comprendre les réponses des données aux requêtes
Démonstrations 2
Résumé : Les requêtes reçues par un moteur de recherche sont souvent polysémiques par rapport à la base documentaire intérogée. Plutôt que de mélanger dans la présentation des résultats ces différentes “communautés de sens”, CELLO informe l’utilisateur de l’existence de ces multiples points de vue sur sa requête. Cela permet à l’utilisateur de cibler sa recherche plus efficacement en affinant la requête selon les points de vue ainsi identifiés.
P-Demo2.7 : Un reconnaisseur d’entités nommées du Français
Démonstrations 2
Résumé : Nous proposons une démonstration d’un reconnaisseur d’entités nommées du Français appris automatiquement sur le French TreeBank annoté en entités nommées.