La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L'analyse syntaxique de l'oral : problèmes et méthode

Présentations similaires


Présentation au sujet: "L'analyse syntaxique de l'oral : problèmes et méthode"— Transcription de la présentation:

1 L'analyse syntaxique de l'oral : problèmes et méthode
Christophe Benzitoun, Estelle Campione, José Deulofeu, Sandrine Henry, Frédéric Sabio, Sandra Teston, André Valli, Jean Véronis ---- Equipe DELIC Université de Provence Christine Project (Sampson, 2003) et le Switchboard Corpus (Taylor et al., 2003) pour l'anglais. Ils sont totalement inexistants pour le français oral et d'ailleurs rarissimes pour l'écrit (cf. Habert et al., 1997 ; Abeillé et al., 2001).

2 Problématique Paroles prononcées Paroles reconnues
non non non non je veux pas de Pa- de de Paris gare d' Austerlitz Paroles reconnues Nancy dans nonante jours à Le Havre de Paris gare d' Austerlitz Analyse syntaxique de l’oral : complexité décourageante mais… Nous faisons donc l’hypothèse que l’étude de l’oral peut aussi amener quelque lumière dans les zones d’ombre, souvent négligées par commodité, de l’écrit (surtout des NFCE).

3 Conventions de transcription
Fidélité maximale Processus de validation On note les répétitions, inachèvements, euh, etc. Pauses (semi-automatique) Intonations (automatique) Délimitation de certains phénomènes Pas de ponctuation Ne pas surimposer a priori le modèle de l’écrit (Campione, 2001) Transcription assistée par ordinateur : logiciel Transcriber (Barras et al. 1998;2000). Experts + réécoute/validation. Normalisation non destructrice, délimitation et non correction des phénomènes considérés comme « propre à l’oral ». Annotation syntaxique manuelle.

4 Exemple 1 Gras : disfluences Souligné : interruptions
L2 on a un poste consacré aux objets sonores ↗ + donc là ça va de: {bruit : le locuteur tape sur un objet} ça hein des verres enfin tout un tas tout un tas de choses qui sont amplifiées retraitées ↗ par des effets rediffusés ↗ + et: un quatrième poste ↗ qui est surtout ce qui est: qui est: dédié aux: ce qu'on appelle les machines tournantes ↘ donc tout c- tout ce qui est enregistrements analogiques numériques les bandes les disques durs les machins ↗ enfin tout ce qui peut: tout ce qui peut s'enregistrer ↗ + donc qui consiste euh qui consiste à les: + à travailler sur des supports en différentes vitesses ↗ à manipuler à la main des bandes magnétiques analogiques ↗ pour jouer sur des vitesses obtenir des formes des choses comme ça ↗ + qui consiste aussi à les: à les repiquer à la volée des: des petits morceaux de ce que sont en train de faire les autres ↗ pour les retraiter différemment sur des boucles ou des choses comme ça ↗ pour ré-impulser ↗ + pour ré-impulser de la matière sur laquelle les autres vont réagir ↗ et puis et vice versa l'interaction elle est là ↘

5 Exemple 2 Mêmes phénomènes dans les dialogues finalisés:
L1 non + non non non je veux pas de Pa- de de Paris gare d' Austerlitz mais de Marseille ou d' Aix suivant les possibilités parce que je souhaiterais pouvoir voyager en TGV jusqu' à Lyon + parce qu' il y a un changement à Lyon le train n' est pas direct + et je voudrais après prendre le train Corail + qui euh conduit jusqu' à Belfort et et au-delà Machine nous ne savons pas quel jour c' est Pâques + désirez-vous partir de Paris gare d' Austerlitz vers 14 heures le vendredi 11 juillet et arriver à Aix en Provence vers 16 heures 26 le dimanche 16 mars et voyager dans un train corail + parlez s' il vous plaît

6 Exemple 2 (l’explication)
Prononcé : non + non non non je veux pas de Pa- de de Paris gare d' Austerlitz mais de Marseille ou d' Aix suivant les possibilités parce que je souhaiterais pouvoir voyager en TGV jusqu' à Lyon + parce qu' il y a un changement à Lyon le train n' est pas direct + et je voudrais après prendre le train Corail + qui euh conduit jusqu' à Belfort et et au-delà Compris : Nancy dans nonante jours à Le Havre de Paris gare d' Austerlitz à Metz deux mardi seize dernier seize vingt-six Pâques je souhaiterais pour Le Havre en voyager en TGV Cannes Lyon oov de Thionville à Angers mardi onze sept de Cannes et arriver à Aix en Provence dans un train corail ^ ^ oov Mâcon vingt-huit juin quatorze de la

7 Les difficultés Les « disfluences » La segmentation
Hésitations, amorces, répétitions, etc. Inachèvements, ruptures de construction La segmentation Adieu la phrase ? L’organisation syntaxique Enchaînements, listes, parenthétiques Particules discursives Terme anglo-saxon qui présuppose une norme écrite. Nous ne considérons pas ces phénomènes comme étant des ratés mais comme étant liés au mode de production, à la mise en discours.

8 « Disfluences » Repérer But : pauses, répétitions, amorces
inachèvements, autocorrections, anacoluthes But : laisser la possibilité de les « gommer » avant analyse Utile pour l’analyse humaine mais pour l’analyse automatique… Exemple : donc tout c- tout ce qui est enregistrements analogiques numériques donc tout ce qui est enregistrements analogiques numériques Ces traces de la mise en discours, le plus souvent, ne modifient pas la structure syntaxique de l'énoncé mais en compliquent seulement la réalisation linéaire. Interactions entre les différentes formes de disfluences : modèles prédictifs. c'est comme ça petit à petit en travaillant qu'on s'est aperçu / + euh que euh cinquante pour cent hein environ et même à partir de certaines altitudes plus* / + euh par exemple de- que la: + euh d- euh cin- bon plus de cinquante pour cent / + de la: de la fl- de la flore / + est endémique / à la Corse ^

9 Segmentation Phrase = unité graphique point + majuscule
ne correspond pas nécessairement aux relations syntaxiques exemple : Soyons direct, ║ après l'avoir fréquenté depuis des années, après l'avoir écouté pendant des heures au long de monologues sans fin, on aime Claude Got. ═ Et peut-être encore plus aujourd'hui qu'hier, alors qu'on l'accuse de vouloir imposer une «société sanitaire», sans plaisirs ni risques, ennuyeuse à mourir. [Libération, 9 mars 2004 ] (Blanche-Benveniste & Jeanjean, 1986 ; Leech & al., 1997). La phrase fait pour le moins l’objet d’un débat (Berrendonner, 2002 ; Blanche-Benveniste, 2002 ; Kleiber, 2003). Pauses ne sont pas des marques de ponctuation (Campione & Véronis, 2002). Phrase = pas une bonne unité de calcul syntaxique.

10 Unités maximales tout ce qui est lié à travers l’arbre de dépendances
exemple : 2 U.M. : 1. Soyons direct _______________________________________________ 2. après l'avoir fréquenté depuis des années, après l'avoir écouté pendant des heures au long de monologues sans fin, on aime Claude Got. Et peut-être encore plus aujourd'hui qu'hier, alors qu'on l'accuse de vouloir imposer une «société sanitaire», sans plaisirs ni risques, ennuyeuse à mourir. Chez Biber : C-Unit (clausal et non clausal unit).

11 (Exemple 1) on a un poste consacré aux objets sonores + donc là ça va de ça hein des verres enfin tout un tas tout un tas de choses qui sont amplifiées retraitées par des effets rediffusés + et un quatrième poste qui est surtout ce qui est qui est dédié aux ce qu'on appelle les machines tournantes donc tout c- tout ce qui est enregistrements analogiques numériques les bandes les disques durs les machins enfin tout ce qui peut tout ce qui peut s'enregistrer + donc qui consiste euh qui consiste à les + à travailler sur des supports en différentes vitesses à manipuler à la main des bandes magnétiques analogiques pour jouer sur des vitesses obtenir des formes des choses comme ça + qui consiste aussi à les à les repiquer à la volée des des petits morceaux de ce que sont en train de faire les autres pour les retraiter différemment sur des boucles ou des choses comme ça pour ré-impulser + pour ré-impulser de la matière sur laquelle les autres vont réagir et puis et vice versa __________________________________________________________________ l'interaction elle est là

12 (Exemple 3) voilà __________________________________________________________________________ nous nous étions interrompus + euh au moment où nous avons rencontré les deux Anglaises dont une était euh + noire + et qui était d'ailleurs la seule parlant français ____________________________________________________________________________________ alors nous le euh + nous avons a- accepté de + de les prendre avec nous nous nous sommes mis d'accord pour partager les frais d'essence euh + parce que c'est vrai que ça faisait + euh + ça fait l'éch- l'essence était très chère + et euh + quand on en trouvait + et nous voilà partis donc euh à cinq + le Dogon les deux Anglaises mon épouse et moi euh + et euh + et six avec le chauffeur même + nous nous n'oublions pas ce + le chauffeur + et nous sommes partis donc euh nous sommes allés à Sanga donc Sanga qui était euh qui est qui est toujours euh + Parler de « parce que » et « et ».

13 Organisation syntaxique
Enchaînements Marqueurs Difficulté : intra ou inter UM indices syntaxiques, prosodiques... Exemples : alors... donc... et... et alors... et puis... mais... sinon... parce que... etc. Ici, traitement différent des approches traditionnelles. Parce que (Debaisieux, 1994) Marquent une relation dont la nature se déduit du contexte : relation de dépendance, d’association, avec un contexte extra-linguistique ou l’ensemble de ce qui a été précédemment dit. il y en a qui ne retourneront pas à l'hôpital parce que c'est embêtant L1 eh bè le le pâtissier a eu une lettre recommandée accusé de réception + L2 parce qu'il avait pas prévenu (ex. Debaisieux, 2001)

14 Listes même place syntaxique à l’intérieur d’une UM interprétation :
coordination? autocorrection? précision? souvent indécidable tout un tas de choses qui sont amplifiées retraitées par des effets rediffusés tout ce qui est enregistrements analogiques numériques les bandes les disques durs les machins enfin tout ce qui peut s'enregistrer et un quatrième poste qui est est dédié ... qui consiste à travailler ... qui consiste aussi à les repiquer ... « Et » marqueur de liste et « et » connecteur d’UM.

15 Parenthétiques UM à l’intérieur d’UM (Exemple 1)
on a un poste consacré aux objets sonores + donc là ça va de ça hein des verres enfin tout un tas tout un tas de choses qui sont amplifiées retraitées par des effets rediffusés + et un quatrième poste qui est surtout ce qui est qui est dédié aux ce qu'on appelle les machines tournantes donc tout c- tout ce qui est enregistrements analogiques numériques les bandes les disques durs les machins enfin tout ce qui peut tout ce qui peut s'enregistrer + donc qui consiste euh ... Les incises posent problème car elles peuvent perturber les contraintes sur les combinatoires des catégories.

16 Inserts extrêmement fréquentes souvent ambiguës (bon, quoi, etc.)
Oral donc, là, bon, alors, parce que, quoi, après, puis, enfin, voila, ben, en fait, quand même, puisque, par exemple, c'est-à-dire, ensuite, justement, disons, du coup, malgré tout, étant donné que, en l'occurrence Forum mais, bien, aussi, car, surtout, d'ailleurs, de plus, seulement, plutôt, en plus, pourtant, en effet, sinon, finalement, certes, par contre, en tout cas, à propos, bref, tout de même, au contraire, du moins, au fait, néanmoins, par ailleurs, toutefois, à cause de, concernant, après tout, en somme, en ce qui concerne, n'empêche, autrement dit, en réalité, en fin de compte, de ce fait, de toute manière, somme toute, inversement Littérature ainsi, or, cependant, malgré, tandis que, au fond, par conséquent, si bien que, de sorte que Presse notamment, en revanche, précisément, de fait, en outre, au total (Teston & Véronis, 2004) Chaque corpus fait mots. Dans le tableau : mots surreprésentés dans un genre particulier. Repérés et isolés de l’arbre de dépendance. bon

17 on a un poste consacré aux objets sonores donc là ça va de ça hein des verres enfin tout un tas de choses qui sont amplifiées retraitées par des effets rediffusés et un quatrième poste qui est dédié à ce qu'on appelle les machines tournantes donc tout ce qui est enregistrements analogiques les bandes numériques les disques durs les machins enfin tout ce qui peut s’enregistrer donc qui consiste à travailler sur des supports en différentes vitesses à manipuler à la main des bandes magnétiques analogiques pour jouer sur des vitesses obtenir des formes des choses comme ça qui consiste aussi à les repiquer à la volée des petits morceaux de ce que sont en train de faire les autres pour les retraiter différemment sur des boucles ou des choses comme ça l’interation elle est là pour ré-impulser de la matière sur laquelle les autres vont réagir et vice versa

18 Conclusion Marquage et « gommage » des « disfluences »
Identification des listes et organisation de l’énoncé en arbres « marcottés » Identification et isolement des « inserts » marquage des relations syntaxiques de manière plus familière


Télécharger ppt "L'analyse syntaxique de l'oral : problèmes et méthode"

Présentations similaires


Annonces Google