La perception de la parole Mme. MEDANE Université Hassiba Benbouali-Chlef- (Algérie)
récepteur = cerveau émetteur
La parole Auditeur Locuteur ????????? objectif : la communication idée, niveau cognitif, pensée. Locuteur La parole compréhension Auditeur ????????? objectif : la communication traitement cognitif construction grammaticale. prétraitement sensoriel commande musculaire. signal acoustique = vecteur de la parole L’objectif de toute application du domaine du traitement de la parole est de reproduire l’un ou l’autre des blocs de cette représentation, par un système spécifique. La modélisation a pour but de simuler (ou synthétiser) la parole. Les techniques de reconnaissance vocales cherchent à remplacer le prétraitement sensoriel, c’est à dire à pouvoir reconnaître des mots (enlever le bruit=filtrer) découper les mot, éventuellement reconnaître les voyelles, les consonnes, i.e. les phonèmes. C’est une analyse syntaxique (=correcteur d’orthographe de Word dqns le domaine de l’écrit). Les techniques encore plus évoluées utilisant l’intelligence artificielle, cherchent à interpréter (=analyse sémantique, reconnaissance de phrases, notion de SENS, pouvant permettre une prise de décision ou un apprentissage) système auditif système phonatoire Télécommunications, services & usages
Système de reconnaissance de la parole
Complexité du signal de parole Redondance Influence de l'environnement Influence du locuteur Influence du contexte
Redondance Le signal acoustique est très redondant, il faut donc un traitement préalable, avant toute tentative de reconnaissance, pour extraire l'information pertinente sans la dégrader.
Influence de l'environnement Parmi les facteurs de variabilité liés à l'environnement on peut citer : - l'acoustique de la pièce, - la présence de bruit,
Influence du locuteur On distingue deux sources de variabilités : - la variabilité inter-locuteur observable lors d'un changement de locuteur, - la variabilité intra-locuteur :
la variabilité inter locuteur Ces variabilités sont liées, aux caractéristiques suivantes : Age et sexe : l'appareil phonatoire dépend des différences physiologiques entre locuteurs, qui se traduisent par une production acoustique différente (les voix d'hommes, de femmes et d'enfants). accent : dans chaque pays on peut remarquer la présence d'accents régionaux. vitesse d'élocution : elle caractérise la vitesse à laquelle une personne parle. articulation : elle caractérise la prononciation correcte des sons. des facteurs extra-linguistiques, par exemple l'attitude du locuteur à l'égard du message ( le doute, l'ironie, la conviction,...).
la variabilité intra locuteur : On observe des modifications du signal de parole, même en se restreignant à un seul locuteur : Les conditions psychologiques (stress, émotion) ou physiques (fatigue, rhume) modifient les propriétés prosodiques et spectrales du signal acoustique.
Influence du contexte La réalisation acoustique d'un son (phonème, mot,...) dépend de son environnement immédiat : les sons qui précèdent et ceux qui suivent influent fortement la production d'un son en raison de l'anticipation ou la rétention du geste articulatoire. Il s'en suit que la forme acoustique d'un son, et plus particulièrement ses zones transitoires sont dépendantes des traits articulatoires des sons adjacents, c'est le phénomène de coarticulation
La perception et la compréhension de la parole des mécanismes intuitivement simples reconnaissance de Compréhension mots distincts de la phrase Or, cette facilité n’est qu’apparente : La compréhension de la parole implique pourtant un traitement fort complexe, dont on ne connaît pas encore tous les mécanismes.
Un traitement impliquant plusieurs niveaux linguistiques d’analyse
L’auditeur reconnaît des portions du signal portant le sens du message produit par le locuteur = des mots • Ces mots, en nombre fini, sont des briques de sens qui se combinent à l’infini. Ces mots sont stockés en mémoire à long terme dans ce qu’on appelle le lexique mental. • Un point clé de la perception de la parole est la localisation et l’identification des formes lexicales dans le signal de parole afin d’accéder au sens qui leur est associé. –Q: comment fait-on pour localiser, segmenter, les mots dans le signal? Les mots ne sont pas séparés par des espaces comme à l’écrit; des hésitations au milieu d’un mot ne nous empêchent pas de recoller les portions de signal pour reconnaître un mot…
Lorsqu’on entend une langue connue, on ne peut s’empêcher de percevoir le signal de parole comme une séquence de mots… • Mais lorsque l’on entend une langue inconnue, avec un traitement direct du signal, il est impossible de dire où les mots commencent et où les mots finissent. => démontre que cette segmentation du signal en mot relève plutôt d’une opération cognitive que d’un traitement acoustique direct. => suppose une connaissance de la forme sonore des mots stockés dans le lexique pour qu’il y ait un appariement entre une forme produite et la forme stockée. Or on sait que les formes produites sont extrêmement variables!!! – Q: comment fait-t-on pour reconnaître des mots alors qu’il n’ont jamais la même forme dans le signal? – Q: comment sont stockés les mots dans le lexique, avec quelles informations phonétiques?
Le traitement perceptif va consister à convertir un signal de parole continu et variable en unités discrètes et invariantes.
• Complexité à plusieurs niveaux : Blablablabla…. ? …?.... ? Reconnaissance de mots distincts Compréhension de la phrase 1. Propriétés du signal de parole 2. Traitement(s) intermédiaire(s) Étapes Unités de représentation 3. Traitement Lexical. Unités d’entrée au lexique …
1. Complexité de traitement due aux propriétés intrinsèques du signal de parole
(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur... Coarticulation: Prononcez /istrstru/ comme dans sinistre structure. Les deux s sont différents. Quand on prononce, on ne fait pas les choses les unes après les autres, il y a superposition.
Le problème de l’invariance la variation dans la parole rend difficile l’identification de corrélats acoustiques invariants toujours présents pour chaque segment de parole. (A)La parole est variable Les sons/mots varient selon contexte, débit, locuteur... Or on suppose que le traitement perceptif consiste à convertir ce signal en unités discrètes et invariantes. Coarticulation: Prononcez /istrstru/ comme dans sinistre structure. Les deux s sont différents. Quand on prononce, on ne fait pas les choses les unes après les autres, il y a superposition.
(B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement.
Illustration de (B): caractère "continu" de la parole « il est à moi » On peut identifier des «évènements» acoustiques (ex. une explosion, une forme spectrale...) qui peuvent être interpréter comme des frontières entre les sons, mais ces évènements sont nombreux et ne sont pas en correspondance une à une avec les segments de parole. i l ɛ t a m w a
On peut identifier des «évènements» acoustiques (ex On peut identifier des «évènements» acoustiques (ex. une explosion, une forme spectrale...) qui peuvent être interpréter comme des frontières entre les sons, mais ces évènements sont nombreux et ne sont pas en correspondance une à une avec les segments de parole. On peut identifier des «évènements» acoustiques (ex. une explosion, une forme spectrale...) qui peuvent être interpréter comme des frontières entre les sons, mais ces évènements sont nombreux et ne sont pas en correspondance une à une avec les segments de parole.
(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent.
Le signal de parole est non-linéaire (il n'y a pas de correspondance stricte dans le temps entre le signal et ce qu'on perçoit)
Ex1 : Lorsqu'on entend [di] et [du], on entend le même début et pourtant, il n'y a rien en commun sur le spectrographe*. * Un spectrographe est un instrument qui transforme une onde entrante en un spectre de fréquences
OR, la parole n’est pas linéaire et séquentielle. Ex2 OR, la parole n’est pas linéaire et séquentielle. Ex2. [si] (« si ») et [sy] (« su ») Il y a dans le segment acoustique s1, des info. sur le segment de parole [s] et sur le segment de parole [y]. s1 Les info. acoustiques sur la consonne et la voyelle suivante ne suivent pas de façon séquentielle. Il n’y a pas de correspondance bi-univoque entre une partie du signal acoustique et un segment de la langue : même percept /s/ mais des réalisations acoustiques très différentes.
(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. 150-300 mots /min. (Macley & Osgood, 1959) 3-5 syllabes /sec. (Deese, 1984)
(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. (E) La parole est lacunaire Les mots sont parfois prononcés incomplètement avec des phonèmes ou des syllabes qui sont omis.
E- Exemple de disparition de mots/sons Processus phonologique [il.t´.d i.k il.n ´.l´.sE.p a] "il te dit qu'il ne le sait pas" [il.t´.d i.k il.n ´.lsE.p a] "il te dit qu'il ne l'sait pas" [i.t´.di.k il.n ´.lsE.pa] "i'te dit qu'il ne l'sait pas" [it.d i.k il.sE.p a] "it' dit qu'il sait pas"
(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. (E) La parole est lacunaire Les mots sont parfois prononcés incomplètement avec des phonèmes ou des syllabes qui sont omis.
Dans le cerveau de A, on a d'abord une étape de conceptualisation (il faudrait que je dise quelque ceci à B). Ensuite (2), entre l'esprit et la bouche, il y a la formulation en langage puis un acte de parole, le bruit sort. On voit ensuite (3) la transmission du bruit. Enfin (4), B reçoit et interprète le bruit, ensuite, il réagit. On va parler plus précisément de ce qui se passe chez B. On a trois grandes étapes : • Décodage acoustico-phonologique. Réception auditive, segmentation et classification: identification des phonèmes • Reconnaissance des mots: accès lexical. Segmentation et sélection lexicale, informations morphologiques, syntaxiques et sémantiques • Analyse syntaxique et assignation des rôles thématiques.