Programme détaillé – présentations orales
Session Fouille de données et TAL
Mercredi 2 juillet, de 10h30 à 12h30, Amphi Sciences Nat.
O-RI.1 : Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d’opinion au niveau du texte
Session Fouille de données et TAL, 10h30 à 11h00
Résumé : Les méthodes de détection automatique de l’opinion dans des textes s’appuient sur l’association d’une polarité d’opinion aux mots des textes, par lexique ou par apprentissage. Or, Certains mots ont des polarités qui peuvent varier selon le domaine thématique du texte. Nous proposons dans cet article une étude des mots ou groupes de mots marqueurs d’opinion au niveau du texte et qui ont une polarité changeante en fonction du domaine. Les expériences, effectuées à la fois sur des corpus français et anglais, montrent que la prise en compte de ces marqueurs permet d’améliorer de manière significative la classification de l’opinion au niveau du texte lors de l’adaptation d’un domaine source à un domaine cible. Nous montrons également que ces marqueurs peuvent être utiles, de manière limitée, lorsque l’on est en présence d’un mélange de domaines. Si les domaines ne sont pas explicites, utiliser une séparation automatique des documents permet d’obtenir les mêmes améliorations.
O-RI.2 : Expressions différenciées des besoins informationnels en LN : construct de profils utilisateurs en fction tâches RI
Session Fouille de données et TAL, 11h00 à 11h30
Résumé : Devant des collections massives et hétérogènes de données, les systèmes de RI doivent désormais pouvoir appréhender des comportements d’utilisateurs aussi variés qu’imprévisibles. L’objectif de notre approche est d’évaluer la façon dont un utilisateur verbalise un besoin informationnel à travers un énoncé de type « expression libre » ; appelé langage naturel (LN). Pour cela, nous nous situons dans un contexte applicatif, à savoir des demandes de remboursement des utilisateurs d’un moteur de recherche dédié à des études économiques en français. Nous avons recueilli via ce moteur, les demandes en LN sur 5 années consécutives totalisant un corpus de 1398 demandes. Nous avons alors comparé l’expression en tant que tel du besoin informationnel en fonction de la tâche de recherche d’informations (RI) de ’utilisateur.
O-RI.3 : Influence des domaines de spécialité dans l’extraction de termes-clés
Session Fouille de données et TAL, 11h30 à 12h00
Résumé : Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d’un document. Ils sont utiles pour diverses applications telles que l’indexation automatique ou le résumé automatique, mais ne sont pas toujours disponibles. De ce fait, nous nous intéressons à la tâche d’extraction automatique de termes-clés et, plus particulièrement, à la difficulté de cette tâche lors du traitement de documents appartenant à certaines disciplines scientifiques. Au moyen de cinq corpus représentant cinq disciplines différentes (Archéologie, Sciences de l’Information, Linguistique, Psychologie, Chimie), nous déduisons une échelle de difficulté disciplinaire et analysons les facteurs qui influent sur cette difficulté.
O-RI.4 : Etiquetage en rôles événementiels fondé sur l’utilisation d’un modèle neuronal
Session Fouille de données et TAL, 12h00 à 12h30
Résumé : Les systèmes d’extraction d’information doivent faire face depuis toujours à une double difficulté : d’une part, ils souffrent d’une dépendance forte vis-à-vis du domaine pour lesquels ils ont été développés ; d’autre part, leur coût de développement pour un domaine donné est important. Le travail que nous présentons dans cet article se focalise sur la seconde problématique en proposant néanmoins une solution en relation avec la première. Plus précisément, il aborde la tâche d’étiquetage en rôles événementiels dans le cadre du remplissage de formulaire en proposant pour ce faire de s’appuyer sur un modèle de représentation distribuée de type neuronal. Ce modèle est appris à partir d’un corpus représentatif du domaine considéré sans nécessiter en amont l’utilisation de prétraitements linguistiques élaborés. Il fournit un espace de représentation permettant à un classifieur supervisé traditionnel de se dispenser de l’utilisation de traits complexes et variés (traits morphosyntaxiques, syntaxiques ou sémantiques). Par une série d’expérimentations menées sur le corpus de la campagne d’évaluation MUC-4, nous montrons en particulier que cette approche permet de dépasser les performances de l’état de l’art et que cette différence est d’autant plus importante que la taille du corpus d’entraînement est faible. Nous montrons également l’intérêt de l’adaptation de ce type de modèles pour un domaine donné par rapport à l’utilisation de représentations distribuées à usage générique.
Session Sémantique
Mercredi 2 juillet, de 10h30 à 12h30, Amphi Physique.
O-S1.1 : Utilisation de représentations de mots pour l’étiquetage de rôles sémantiques suivant FrameNet
Session Sémantique, 10h30 à 11h00
Résumé : According to Frame Semantics (Fillmore 1976), words’ meaning are best understood considering the semantic frame they play a role in, for the frame is what gives them context. FrameNet defines about 1000 such semantic frames, along with the roles arguments can fill in this frame. Our task is to automatically label arguments’ roles, given their span, the frame, and the predicate, using maximum entropy models. We make use of distributed word representations to improve generalisation over the few training exemples available for each frame.
O-S1.2 : Modélisation probabiliste interface syntaxe sémantique à l’aide de grammairess hors contexte probabilistes, expériences avec FrameNet
Session Sémantique, 11h00 à 11h30
Résumé : Cet article présente une méthode générative de prédiction de la structure sémantique en cadres d’une phrase à partir de sa structure syntaxique et décrit les grammaires utilisées ainsi que leurs performances. Dès qu’un mot évoque un cadre sémantique selon la théorie FrameNet, un certain nombre de chemins syntaxiques de la phrase sont sélectionnés et le système génératif attribue à cet ensemble un cadre sémantique ainsi que des rôles. Bien que les résultats ne soient pas encore satisfaisants, cet analyseur permet de regrouper les tâches d’analyse sémantique, contrairement aux travaux précédemment publiés. De plus, il offre une nouvelle approche de l’analyse sémantique en cadres en s’attachant aux chemins syntaxiques, plutôt qu’aux mots de la phrase.
O-S1.3 : Traitement FrameNet des constructions à attribut de l’objet
Session Sémantique, 11h30 à 12h00
Résumé : Dans le cadre du projet ASFALDA, qui comporte une phase d’annotation sémantique d’un FrameNet français, nous cherchons à fournir un traitement linguistiquement motivé des constructions à attribut de l’objet, un exemple typique de divergence syntaxe-sémantique. Pour ce faire, nous commençons par dresser un panorama des propriétés syntaxiques et sémantiques des constructions à attribut de l’objet. Nous étudions ensuite le traitement FrameNet des verbes anglais typiques de cette construction, avant de nous positionner pour un traitement homogénéisé dans le cas du FrameNet français.
O-S1.4 : Cross-lingual Word Sense Disambiguation for Predicate Labelling of French
Session Sémantique, 12h00 à 12h30
Résumé : We address the problem of transferring semantic annotations, more specifically predicate labellings, using parallel corpora. Previous work has transferred these annotations directly at the token level, leading to low recall. We present a global approach to transfer that aggregates information across the whole parallel corpus. We show that global methods outperform previous results in terms of recall without sacrificing too much in precision.
Session Parsing 1
Mercredi 2 juillet, de 14h00 à 15h30, Amphi Sciences Nat.
O-P1.1 : Améliorer l’étiquetage de “que” par les descripteurs ciblés et les règles
Session Parsing 1, 14h00 à 14h30
Résumé : Les outils TAL statistiques robustes, et en particulier les étiqueteurs morphosyntaxiques, utilisent souvent des descripteurs “pauvres”, qui peuvent être appliqués facilement à n’importe quelle langue, mais qui ne regarde pas plus loin que 1 ou 2 tokens à droite et à gauche et ne prennent pas en compte des classes d’équivalence syntaxiques. Bien que l’étiquetage morphosyntaxique atteint des niveaux élevés d’exactitude (autour de 97 %), les 3 % d’erreurs qui subsistent induisent systématiquement une baisse de 3 % dans l’exactitude du parseur. Parmi les phénomènes les plus faciles à cibler à l’aide de l’injection de connaissances linguistiques plus riches sont les mots fonctionnels ambigus, tels que le mot “que” en français. Dans cette étude, nous cherchons à améliorer l’étiquetage morphosyntaxique de “que” par l’utilisation de descripteurs ciblés et riches lors de l’entraînement, et par l’utilisation de règles symboliques qui contournent le modèle statistique lors de l’analyse. Nous atteignons une réduction du taux d’erreur de 45 \% par les descripteurs riches, et de 55 \% si on ajoute des règles.
O-P1.2 : Jouer avec des analyseurs syntaxiques
Session Parsing 1, 14h30 à 15h00
Résumé : Nous présentons dyalog-sr, un analyseur syntaxique statistique par dépendances développé dans le cadre de la tâche SPRML 2013 portant sur un jeu de 9 langues très différentes. L’analyseur dyalog-sr implémente un algorithme d’analyse par transition (à la MALT), étendu par utilisation de faisceaux et de techniques de programmation dynamique. Une des particularité de dyalog-sr provient de sa capacité à prendre en entrée des treillis de mots, utilisée lors de SPMRL13 pour traiter des treillis en Hébreu et reprise plus récemment sur des treillis produits par SxPipe pour le français. Disposant par ailleurs avec FRMG d’un analyseur alternatif pour le français, nous avons expérimenté un couplage avec dyalog-sr, nous permettant ainsi d’obtenir les meilleurs résultats obtenus à ce jour sur le French TreeBank.
Session Lexique 1
Mercredi 2 juillet, de 14h00 à 15h30, Amphi Physique.
O-L1.1 : Principes de modélisation systémique des réseaux lexicaux
Session Lexique 1, 14h00 à 14h30
Résumé : Nous présentons une approche de la construction manuelle des ressources lexicales à large couverture fondée sur le recours à un type particulier de réseau lexical appelé « système lexical ». En nous appuyant sur l’expérience acquise dans le cadre de la construction du Réseau Lexical du Français (RL-fr), nous offrons tout d’abord une caractérisation formelle des systèmes lexicaux en tant que graphes d’unités lexicales de type « petits mondes » principalement organisés à partir du système des fonctions lexicales Sens-Texte. Nous apportons ensuite des arguments pour justifier la pertinence du modèle proposé, tant du point de vue théorique qu’applicatif.
O-L1.2 : Un modèle pour prédire la complexité lexicale et graduer les mots
Session Lexique 1, 14h30 à 15h00
Résumé : Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement retenu l’attention de psycholinguistes et enseignants de langues. Plus récemment, la question a fait l’objet d’un intérêt grandissant dans le traitement automatique des langues (TAL) et, en particulier, en simplification automatique de textes. Dans ce domaine, le but est d’identifier des termes et des structures difficiles à comprendre par un public cible et de proposer des outils de simplification automatisée de ces contenus. Dans cet article, nous décrivons un ensemble de variables intralexicales et statistiques que nous avons évaluées lors de différentes analyses corrélationnelles. Les meilleures d’entre elles ont été intégrées dans un modèle capable de prédire la difficulté lexicale, dans le cadre de textes pour apprenants du français.
O-L1.3 : Annotations et inférences de relations dans un réseau lexico-sémantique: Application à la radiologie
Session Lexique 1, 15h00 à 15h30
Résumé : Les ontologies spécifiques à un domaine ont une valeur inestimable malgré les nombreux défis liés à leur développement.Dans la plupart des cas, les bases de connaissances spécifiques à un domaine sont construites avec une portée limitée. En effet, elles ne prennent pas en compte les avantages qu’il pourrait y avoir à combiner une ontologie de spécialité à une ontologie générale. En outre, la plupart des ressources existantes manque de méta-information sur la force d’association (les poids), les annotations(informations fréquentielles : de fréquent à rare ; ou des informations de pertinence : pertinent, non pertinent et inférable)). Nous présentons dans cet article un réseau lexical dédié à la radiologie construit sur un réseau lexical généraliste (JeuxDeMots). Ce réseau combine poids et annotations sur des relations typées entre des termes et des concepts, un mécanisme d’inférence et de réconciliation dans le but d’améliorer la qualité et la couverture du réseau. Nous étendons ce mécanisme afin de prendre en compte non seulement les relations mais aussi les annotations. Nous décrivons comment les annotations améliorent le réseau en imposant de nouvelles contraintes spécialement celles basées sur la connaissance médicale. Nous présentons par la suite des résultats préliminaires.
Session Gestion des erreurs en TAL
Mercredi 2 juillet, de 16h00 à 17h30, Amphi Sciences Nat.
O-E.1 : Correction automatique par résolution d’anaphores pronominales
Session Gestion des erreurs en TAL, 16h00 à 16h30
Résumé : Cet article décrit des travaux réalisés dans le cadre du développement du correcteur automatique d’un logiciel commercial d’aide à la correction du français. Nous voulons corriger des erreurs uniquement détectables lorsque l’antécédent de certains pronoms est identifié. Nous décrivons un algorithme de résolution des anaphores pronominales intra- et interphrastiques s’appuyant peu sur la correspondance de la morphologie, puisque celle-ci est possiblement erronée, mais plutôt sur des informations robustes comme l’analyse syntaxique fine et des cooccurrences fiables. Nous donnons un aperçu de nos résultats sur un vaste corpus de textes réels et, tout en tentant d’identifier des critères décisifs, nous montrons que certains types de corrections anaphoriques sont d’une précision respectable.
O-E.2 : Peut-on bien chunker avec de mauvaises étiquettes POS ?
Session Gestion des erreurs en TAL, 16h30 à 17h00
Résumé : Dans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser l’étape de correction de l’étiquetage en POS. Nous ré-utilisons tout d’abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l’oral à partir de données annotées et corrigées manuellement. L’objectif est d’atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS, trop couteuse. La méthodologie choisie est donc guidée par un principe d’économie. Notre travail montre qu’il est possible d’apprendre un nouveau chunker performant pour l’oral à partir d’un corpus de référence annoté de petite taille, sans correction manuelle des étiquettes POS.
O-E.3 : Normalisation de textes par analogie: le cas des mots inconnus
Session Gestion des erreurs en TAL, 17h00 à 17h30
Résumé : Dans cet article, nous proposons et évaluons un système permettant d’améliorer la qualité d’un texte bruité notamment par des erreurs orthographiques. Ce système a vocation à être intégré à une architecture complète d’extraction d’information, et a pour objectif d’améliorer les résultats d’une telle tâche. Pour chaque mot qui est inconnu d’un lexique de référence et qui n’est ni une entité nommée ni une création lexicale, notre système cherche à proposer une ou plusieurs normalisations possibles (une normalisation valide étant un mot connu dont le lemme est le même que celui de la forme orthographiquement correcte). Pour ce faire, ce système utilise des techniques de correction automatique lexicale par règle qui reposent sur un système d’induction de règles par analogie.
Session Modèles Linguistiques
Mercredi 2 juillet, de 16h00 à 17h30, Amphi Physique.
O-F.1 : Une évaluation approfondie de différentes méthodes de compositionalité sémantique
Session Modèles Linguistiques, 16h00 à 16h30
Résumé : Au cours des deux dernières décennies, de nombreux algorithmes ont été développés pour capturer avec succès la sémantique des mots simples en regardant leur répartition dans un grand corpus, et en comparant ces distributions dans un modèle d’espace vectoriel. En revanche, il n’est pas trivial de combiner les objets algébriques de la sémantique distributionnelle pour arriver à une dérivation d’un contenu pour des expressions complexes, composées de plusieurs mots. Notre contribution a deux buts. Le premier est d’établir une large base de comparaison pour les méthodes de composition pour le cas adjectif-nom. Cette base nous permet d’évaluer en profondeur la performance des différentes méthodes de composition. Notre second but est la proposition d’une nouvelle méthode de composition, qui est une généralisation de la méthode de Baroni et Zamparelli. La performance de notre nouvelle méthode est également évaluée sur notre ensemble de test.
O-F.2 : Génération de textes : G-TAG revisité avec les Grammaires Catégorielles Abstraites
Session Modèles Linguistiques, 16h30 à 17h00
Résumé : G-TAG est un formalisme dédié à la génération de textes. Il s’appuie sur les Grammaires d’Arbres Adjoints (TAG) qu’il étend avec des notions propres permettant de construire une forme de surface à partir d’une représentation conceptuelle. Cette représentation conceptuelle est indépendante de la langue, et le formalisme G-TAG a été conçu pour la mise en œuvre de la synthèse dans une langue cible à partir de cette représentation. L’objectif de cet article est d’étudier G-TAG et les notions propres que ce formalisme introduit par le biais des Grammaires Catégorielles Abstraites (ACG) en exploitant leurs propriétés de réversibilité intrinsèque et leur propriété d’encodage des TAG. Nous montrons que les notions clefs d’arbre de g-dérivation et de lexicalisation en G-TAG s’expriment naturellement en ACG. La construction des formes de surface peut alors utiliser les algorithmes généraux associés aux ACG et certaines constructions absentes de G-TAG peuvent être prises en compte sans modification supplémentaire.
O-F.3 : Les modèles de description du verbe dans les travaux de linguistique, terminologie et TAL
Session Modèles Linguistiques, 17h00 à 17h30
Résumé : Dans le cadre de notre projet de recherche, qui a pour but l’implémentation d’un outil de simplification des emplois spécialisés de verbes dans des corpus médicaux à partir de l’analyse syntaxico-sémantique de ces verbes en contexte, nous proposons une analyse de quelques approches et travaux qui ont pour objet principal la description du verbe dans les trois domaines à l’interface desquels se situe notre travail : linguistique, TAL et terminographie. Nous décrivons plus particulièrement les travaux qui peuvent avoir une incidence sur notre étude. Cet état de l’art nous permet de mieux connaître le cadre théorique dans lequel s’intègre notre projet de recherche et d’avoir les repères et références nécéssaires pour sa réalisation
Session Méthodes numériques pour le TAL
Jeudi 3 juillet, de 10h00 à 12h00, Amphi Sciences Nat.
O-N1.1 : Apprentissage partiellement supervisé d’un étiqueteur morpho-syntaxique par transfert cross-lingue
Session Méthodes numériques pour le TAL, 10h00 à 10h30
Résumé : Les méthodes de transfert cross-lingue permettent partiellement de pallier l’absence de corpus annotés,en particulier dans le cas de langues peu dotées en ressources linguistiques. Le transfert d’étiquettes morpho-syntaxiques depuis une langue riche en ressources, complété et corrigé par un dictionnaire associant à chaque mot un ensemble d’étiquettes autorisées, ne fournit cependant qu’une information de supervision incomplète. Dans ce travail, nous reformulons ce problème dans le cadre de l’apprentissage ambigu et proposons une nouvelle méthode pour apprendre un analyseur de manière faiblement supervisée à partir d’un modèle à base d’historique. L’évaluation de cette approche montre une amélioration sensible des performances par rapport aux méthodes de l’état de l’art pour trois langues sur quatre considérées, avec des gains jusqu’à 3,9% absolus ou 35.8% relatifs.
O-N1.2 : Réseau de neurones profond pour l’étiquetage morpho-syntaxique
Session Méthodes numériques pour le TAL, 10h30 à 11h00
Résumé : L’analyse syntaxique et sémantique de langages non-canoniques est principalement limitée par l’absence de corpus annotés. Il est donc primordial de mettre au point des systèmes robustes capables d’allier références canoniques et non-canoniques. Les méthodes exploitant la théorie des réseaux de neurones profonds ont prouvé leur efficacité dans des domaines tels que l’imagerie ou les traitements acoustiques. Nous proposons une architecture de réseau de neurones appliquée au traitement automatique des langages naturels, et plus particulièrement à l’étiquetage morpho-syntaxique. De plus, plutôt que d’extraire des représentations empiriques d’une phrase pour les injecter dans un algorithme de classification, nous nous inspirons de récents travaux portant sur l’extraction automatique de représentations vectorielles des mots à partir de corpus non-annotés. Nous souhaitons ainsi tirer profit des propriétés de linéarité et de compositionnalité de tels plongements afin d’améliorer les performances de notre système.
O-N1.3 : Construire un corpus monolingue annoté comparable
Session Méthodes numériques pour le TAL, 11h00 à 11h30
Résumé : Motivé par la problématique de construction automatique d’un corpus annoté morpho-syntaxiquement distinct d’un corpus source, nous proposons une définition générale et opérationnelle de la relation de la comparabilité entre des corpus monolingues annotés. Cette définition se veut indépendante du domaine applicatif. Nous proposons une mesure de la relation de comparabilité et une procédure de construction d’un corpus comparable. Enfin nous étudions la possibilité d’utiliser la mesure de la perplexité définie dans la théorie de l’information comme moyen de prioriser les phrases à sélectionner pour construire un corpus comparable. Nous montrons que cette mesure joue un rôle mais qu’elle n’est pas suffisante.
O-N1.4 : Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue
Session Méthodes numériques pour le TAL, 11h30 à 12h00
Résumé : Le dialogue incrémental est au coeur de la recherche actuelle dans le domaine des systèmes de dialogue. Plusieurs architectures et modèles ont été publiés comme (Allen et al., 2001; Schlangen & Skantze, 2011). Ces approches ont permis de comprendre différentes facettes du dialogue incrémental, cependant, les implémenter nécessite de repartir de zéro car elles sont fondamentalement différentes des architectures qui existent dans les systèmes de dialogue actuels. Notre approche se démarque par sa réutilisation de l’existant pour tendre vers une nouvelle génération de systèmes de dialogue qui ont un comportement incrémental mais dont le fonctionnement interne est basé sur les principes du dialogue traditionnel. Ce papier propose d’intercaler un module, appelé Scheduler, entre le service et le client. Ce Scheduler se charge de la gestion des événements asynchrones, de manière à reproduire le comportement des systèmes incrémentaux vu du client. Le service, de son côté, ne se comporte pas de manière incrémentale.
Session Lexique 2
Jeudi 3 juillet, de 10h00 à 12h00, Amphi Physique.
O-L2.1 : La base lexicale Démonette : entre sémantique constructionnelle et morphologie dérivationnelle
Session Lexique 2, 10h00 à 10h30
Résumé : Démonette est une base de données lexicale pour le français dont les sommets (entrées lexicales) et les arcs (relations morphologiques entre les sommets) sont annotés au moyen d’informations morpho-sémantiques. Elle résulte d’une conception originale intégrant deux approches radicalement opposées : Morphonette, une ressource basée sur les analogies dérivationnelles, et DériF, un analyseur à base de règles linguistiques. Pour autant, Démonette n’est pas la simple fusion de deux ressources pré-existantes : cette base possède une architecture compatible avec l’approche lexématique de la morphologie ; son contenu peut être étendu au moyen de données issues de sources diverses. L’article présente le modèle Démonette et le contenu de sa version actuelle : 31 204 verbes, noms de procès, noms d’agent, et adjectifs de propriété dont les liens morphologiques donnent à voir des définitions bi-orientées entre ascendants et entre lexèmes en relation indirecte. Nous proposons enfin une évaluation de Démonette qui comparée à Verbaction obtient un score de 84 % en rappel et de 90% en précision.
O-L2.2 : Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels
Session Lexique 2, 10h30 à 11h00
Résumé : Dans cet article, nous abordons le problème de construction et d’amélioration de thésaurus distributionnels. Nous montrons d’une part que les outils de recherche d’information peuvent être directement utilisés pour la construction de ces thésaurus, en offrant des performances comparables à l’état de l’art. Nous nous intéressons d’autre part plus spécifiquement à l’amélioration des thésaurus obtenus, vus comme des graphes de plus proches voisins. En tirant parti de certaines des informations de voisinage contenues dans ces graphe nous proposons plusieurs contributions. 1) Nous montrons comment améliorer globalement les listes de voisins en prenant en compte la réciprocité de la relation de voisinage, c’est-à-dire le fait qu’un mot soit un voisin proche d’un autre et vice-versa. 2) Nous proposons également une méthode permettant d’associer à chaque liste de voisins (i.e. à chaque entrées du thésaurus construit) un score de confiance. 3) Enfin, nous montrons comment utiliser ce score de confiance pour réordonner les listes de voisins les plus proches. Ces différentes contributions sont validées expérimentalement et offrent des améliorations significatives sur l’état de l’art.
O-L2.3 : Réduction de la dispersion des données par généralisation des contextes distributionnels : application aux textes de spécialité
Session Lexique 2, 11h00 à 11h30
Résumé : Les modèles d’espace vectoriels mettant en œuvre l’analyse distributionnelle s’appuient sur la redondance d’informations se trouvant dans le contexte des mots à associer. Cependant, ces modèles souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. Il s’agit d’un enjeu majeur sur les corpus de spécialité pour lesquels la taille est beaucoup plus petite et les informations contextuelles moins redondantes. Nous nous intéressons au problème de la dispersion des données sur des corpus de spécialité et proposons une méthode permettant de densifier la matrice en généralisant les contextes distributionnels. L’évaluation de la méthode sur un corpus médical en français montre qu’avec une petite fenêtre graphique et l’indice de Jaccard, la généralisation des contextes avec les patrons lexico-syntaxiques permet d’améliorer les résultats, alors avec une large fenêtre et le cosinus, il est préférable de généraliser avec l’inclusion lexicale.
O-L2.4 : Extraction non supervisée de relations sémantiques lexicales
Session Lexique 2, 11h30 à 12h00
Résumé : Nous présentons une base de connaissances comportant des triplets de paires de verbes associés avec une relation sémantique/discursive, extraits du corpus français frWaC par une méthode s’appuyant sur la présence d’un connecteur discursif reliant deux verbes. Nous détaillons plusieurs mesures visant à évaluer la pertinence des triplets et la force d’association entre la relation sémantique/discursive et la paire de verbes. L’évaluation intrinsèque est réalisée par rapport à des annotations manuelles. Une évaluation de la couverture de la ressource est également réalisée par rapport au corpus Annodis annoté discursivement. Cette étude produit des résultats prometteurs démontrant l’utilité potentielle de notre ressource pour les tâches d’analyse discursive mais aussi des tâches de nature sémantique.
Session Traduction automatique
Jeudi 3 juillet, de 14h00 à 15h30, Amphi Sciences Nat.
O-T.1 : Modèles de langue neuronaux: une comparaison de plusieurs stratégies d’apprentissage
Session Traduction automatique, 14h00 à 14h30
Résumé : Alors que l’importance des modèles neuronaux dans le domaine du traitement automatique des langues ne cesse de croître, les difficultés de leur apprentissage freinent leur diffusion dans la communauté. Cet article étudie plusieurs stratégies, dont deux sont originales, pour estimer des modèles de langue, en se focalisant sur l’ajustement du pas d’apprentissage. Les résultats expérimentaux montrent d’une part l’importance que revêt la conception de cette stratégie, et d’autre part qu’en choisissant une stratégie appropriée, il est possible d’apprendre efficacement des modèles de langue donnant des résultats état de l’art tant en terme de perplexité qu’en terme de score BLEU, lorsque ce modèle est inclus dans un système de traduction automatique statistique.
O-T.2 : Etude de l’impact de la translittération de noms propres sur la qualité de l’alignement de mots à partir de corpus parallèles français-arabe
Session Traduction automatique, 14h30 à 15h00
Résumé : Les lexiques bilingues jouent un rôle important en recherche d’information interlingue et en traduction automatique. La construction manuelle de ces lexiques est lente et coûteuse. Les techniques d’alignement de mots sont généralement utilisées pour automatiser le processus de construction de ces lexiques à partir de corpus de textes parallèles. L’alignement de formes simples et de syntagmes nominaux à partir de corpus parallèles est une tâche relativement bien maîtrisée pour les langues à écriture latine, mais demeure une opération complexe pour l’appariement de textes n’utilisant pas la même écriture. Dans la perspective d’utiliser la translittération de noms propres de l’arabe vers l’écriture latine en alignement de mots et d’étudier son impact sur la qualité d’un lexique bilingue français-arabe construit automatiquement, cet article présente, d’une part, un système de translittération de noms propres de l’arabe vers l’écriture latine, et d’autre part, un outil d’alignement de mots simples et composés à partir de corpus de textes parallèles français-arabe. Le lexique bilingue produit par l’outil d’alignement de mots intégrant la translittération a été évalué en utilisant deux approches : une évaluation de la qualité d’alignement à l’aide d’un alignement de référence construit manuellement et une évaluation de l’impact de ce lexique bilingue sur la qualité de traduction du système de traduction automatique statistique Moses. Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de l’alignement de mots que celle de la traduction.
O-T.3 : Adaptation thématique pour la traduction automatique de dépêches de presse
Session Traduction automatique, 15h00 à 15h30
Résumé : L’utilisation de méthodes statistiques en traduction automatique (TA) implique l’exploitation de gros corpus parallèles représentatifs de la tâche de traduction visée. La relative rareté de ces ressources fait que la question de l’adaptation au domaine est une problématique centrale en TA. Dans cet article, une étude portant sur l’adaptation thématique des données journalistiques issues d’une même source est proposée. Dans notre approche, chaque phrase d’un document est traduite avec le système de traduction approprié (c.-à-d. spécifique au thème dominant dans la phrase). Deux scénarios de traduction sont étudiés : (a) une classification manuelle, reposant sur la codification IPTC ; (b) une classification automatique. Nos expériences montrent que le scénario (b) conduit à des meilleures performances (à l’aune des métriques automatiques), que le scénario (a). L’approche la meilleure pour la métrique BLEU semble toutefois consister à ne pas réaliser d’adaptation ; on observe toutefois qu’adapter permet de lever certaines ambiguïtés sémantiques.
Session Traitement de corpus
Jeudi 3 juillet, de 14h00 à 15h30, Amphi Physique.
O-S2.1 : Étude quantitative des disfluences dans le discours de schizophrènes : automatiser pour limiter les biais
Session Traitement de corpus, 14h00 à 14h30
Résumé : Nous présentons dans cet article les résultats d’expériences que nous avons menées concernant les disfluences dans le discours de patients schizophrènes (en remédiation). Ces expériences ont eu lieu dans le cadre d’une étude plus large recouvrant d’autres niveaux d’analyse linguistique, qui devraient aider à l’identification d’indices linguistiques conduisant au diagnostic de schizophrénie. Cette étude fait la part belle aux outils de traitement automatique des langues qui permettent le traitement rapide de grandes masses de données textuelles (ici, plus de 375 000 mots). La première phase de l’étude, que nous présentons ici, a confirmé la corrélation entre l’état schizophrène et le nombre de disfluences présentes dans le discours.
O-S2.2 : Repérage et analyse de la reformulation paraphrastique dans les corpus oraux
Session Traitement de corpus, 14h30 à 15h00
Résumé : Nous proposons d’exploiter les corpus oraux et les marqueurs de reformulation paraphrastique pour la détection de paraphrases. Le travail est basé sur une approche syntagmatique. L’annotation manuelle effectuée par deux annotateurs permet d’obtenir une description fine et multidimensionnelle des données de référence. La méthode automatique est proposée afin de décider si les énoncés comportent ou ne comportent pas des reformulations paraphrastiques. Les résultats obtenus montrent jusqu’à 66,4 % de précision. L’analyse de l’annotation manuelle indique qu’il existe peu de segments paraphrastiques avec des modifications morphologiques (flexion, dérivation ou composition) et que l’équivalence syntaxique entre les segments en relation de paraphrase n’est que rarement respectée.
O-S2.3 : Evaluation d’une approche possibiliste pour la désambiguïsation des textes arabes
Session Traitement de corpus, 15h00 à 15h30
Résumé : La désambiguïsation morphologique d’un mot arabe consiste à identifier l’analyse morphologique appropriée correspondante à ce mot. Dans cet article, nous présentons trois modèles de désambiguïsation morphologique de textes arabes non voyellés basés sur la classification possibiliste. Cette approche traite les données imprécises dans les phases d’apprentissage et de test, étant donné que notre modèle apprend à partir de données non étiquetés. Nous testons notre approche sur deux corpus, à savoir le corpus du Hadith et le Treebank Arabe. Ces corpus contiennent des données de types différents classiques et modernes. Nous comparons nos modèles avec des classifieurs probabilistes et statistiques. Pour ce faire, nous transformons la structure des ensembles d’apprentissage et de test pour remédier au problème d’imperfection des données.
Session Parsing 2
Jeudi 3 juillet, de 16h00 à 17h30, Amphi Sciences Nat.
O-P2.1 : Un analyseur discriminant de la famille LR pour l’analyse en constituants
Session Parsing 2, 16h00 à 16h30
Résumé : On propose un algorithme original d’analyse syntaxique déterministe en constituants pour le langage naturel inspiré de LR (Knuth, 1965). L’algorithme s’appuie sur un modèle d’apprentissage discriminant pour réaliser la désambiguisation (Collins, 2002). On montre que le modèle discriminant permet de capturer plus finement de l’information morphologique présente dans les données, ce qui lui permet d’obtenir des résultats état de l’art en temps comme en exactitude pour l’analyse syntaxique du français.
O-P2.2 : Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux
Session Parsing 2, 16h30 à 17h00
Résumé : La compréhension d’un texte s’opère à travers les niveaux d’information visuelle, logique et discursive, et leurs relations d’interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (i) labelliser des blocs visuels par apprentissage afin d’obtenir des unités logiques et (ii) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d’Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l’arbre.
O-P2.3 : Jugement exact de grammaticalité d’arbre syntaxique probable
Session Parsing 2, 17h00 à 17h30
Résumé : La robustesse de l’analyse probabiliste s’obtient généralement au détriment du jugement de grammaticalité sur la phrase analysée. Les analyseurs comme le Standford Parser, ou les Reranking Parsers ne sont, en effet, pas capables de dissocier une analyse probable grammaticale d’une analyse probable erronée, et ce qu’elle porte sur une phrase elle-même grammaticale ou non. Dans cet article nous montrons que l’adoption d’une représentation syntaxique basée sur la théorie logique des modèles, accompagnée d’une structure syntaxique classique (par exemple de type syntagmatique), est de nature à permettre la résolution exacte de différents problèmes tels que celui du jugement de grammaticalité. Afin de démontrer la praticité et l’utilité d’une alliance entre symbolique et stochastique, nous nous appuyons sur une représentation de la syntaxe par modèles, ainsi que sur une grammaire de corpus, pour présenter une méthode de résolution exacte pour le jugement de grammaticalité d’un arbre syntagmatique probable. Nous présentons des résultats expérimentaux sur des arbres issus d’un analyseur probabiliste, qui corroborent l’intérêt d’une telle alliance.
Session Lexique 3
Jeudi 3 juillet, de 16h00 à 17h30, Amphi Physique.
O-L3.1 : Annotation sémantique et validation terminologique en texte intégral en SHS
Session Lexique 3, 16h00 à 16h30
Résumé : Nos travaux se focalisent sur la validation d’occurrences de candidats termes en contexte. Les contextes d’occurrences proviennent d’articles scientifiques des sciences du langage issus du corpus SCIENTEXT. Les candidats termes sont identifiés par l’extracteur automatique de termes de la plate-forme TTC-TermSuite et leurs occurrences sont ensuite projetées dans les textes. La problématique générale de cet article est d’étudier dans quelle mesure les contextes sont à même de fournir des critères linguistiques pertinents pour valider ou rejeter chaque occurrence de candidat terme selon qu’elle relève d’un usage terminologique en sciences du langage ou non (langue générale, transdisciplinaire, autre domaine scientifique). Pour répondre à cette question, nous comparons deux méthodes d’exploitation (l’une inspirée de la textometrie et l’autre de Lesk) avec des contextes d’occurrences du même corpus annoté manuellement et mesurons si une annotation sémantique des contextes améliore l’exactitude des choix réalisés automatiquement.
O-L3.2 : Identification des noms sous-spécifiés, signaux de l’organisation discursive
Session Lexique 3, 16h30 à 17h00
Résumé : Dans cet article, nous nous intéressons aux noms sous-spécifiés, qui forment une classe d’indices de l’organisation discursive. Ces indices ont été peu étudiés dans le cadre de l’analyse du discours et en traitement automatique des langues. L’objectif est d’effectuer une étude linguistique de leur participation à la structuration discursive, notamment lorsqu’ils interviennent dans des séquences organisationnelles fréquentes (e.g. le patron Problème-Solution). Dans cet article, nous présentons les différentes étapes mises en oeuvre pour identifier automatiquement ces noms en corpus. En premier lieu, nous détaillons la construction d’un lexique de noms sous-spécifiés pour le français à partir d’un corpus constitué de 7 années du journal Le Monde. Puis nous montrons comment utiliser des techniques fondées sur la fouille de données séquentielles pour acquérir de nouvelles constructions syntaxiques caractéristiques des emplois de noms sous-spécifiés. Enfin, nous présentons une méthode d’identification automatique des occurrences de noms sous-spécifiés et son évaluation.
O-L3.3 : Extraction terminologique : vers la minimisation de ressources
Session Lexique 3, 17h00 à 17h30
Résumé : Cet article présente une méthode ayant pour objectif de minimiser l’apport extérieur nécessaire à la tâche de l’extraction terminologique et de rendre cette tâche moins dépendante à la langue. Pour cela, la méthode prévoit des ressources morphologiques et morphosyntaxiques simplifiées construites directement à partir d’un corpus lemmatisé. Ces ressources endogènes servent à la création d’un système de filtres qui affinent les calculs statistiques et à la génération de patrons pour l’identification de candidats termes poly-lexicaux. La méthode a été testée sur deux corpus comparables en chimie et en télécommunication en français et en anglais. La précision observée sur les premiers 100 candidats termes mono-lexicaux fluctue entre 87% et 71% pour le français et entre 69% et 42% en anglais ; celle des candidats termes poly-lexicaux s’élève à 78-69% en français et 85-69% en anglais en fonction du domaine.