La perception de la parole

La perception de la parole

récepteur = cerveau émetteur

La parole Auditeur Locuteur ????????? objectif : la communication
idée, niveau cognitif, pensée. Locuteur La parole compréhension Auditeur ????????? objectif : la communication traitement cognitif construction grammaticale. prétraitement sensoriel commande musculaire. signal acoustique = vecteur de la parole L’objectif de toute application du domaine du traitement de la parole est de reproduire l’un ou l’autre des blocs de cette représentation, par un système spécifique. La modélisation a pour but de simuler (ou synthétiser) la parole. Les techniques de reconnaissance vocales cherchent à remplacer le prétraitement sensoriel, c’est à dire à pouvoir reconnaître des mots (enlever le bruit=filtrer) découper les mot, éventuellement reconnaître les voyelles, les consonnes, i.e. les phonèmes. C’est une analyse syntaxique (=correcteur d’orthographe de Word dqns le domaine de l’écrit). Les techniques encore plus évoluées utilisant l’intelligence artificielle, cherchent à interpréter (=analyse sémantique, reconnaissance de phrases, notion de SENS, pouvant permettre une prise de décision ou un apprentissage) système auditif système phonatoire Télécommunications, services & usages

Système de reconnaissance de la parole

Complexité du signal de parole
Redondance Influence de l'environnement Influence du locuteur Influence du contexte

Redondance Le signal acoustique est très redondant, il faut donc un traitement préalable, avant toute tentative de reconnaissance, pour extraire l'information pertinente sans la dégrader.

Influence de l'environnement
Parmi les facteurs de variabilité liés à l'environnement on peut citer : - l'acoustique de la pièce, - la présence de bruit,

Influence du locuteur On distingue deux sources de variabilités : - la variabilité inter locuteur observable lors d'un changement de locuteur, - la variabilité intra locuteur :

la variabilité inter locuteur
Ces variabilités sont liées, aux caractéristiques suivantes : Age et sexe : l'appareil phonatoire dépend des différences physiologiques entre locuteurs, qui se traduisent par une production acoustique différente (les voix d'hommes, de femmes et d'enfants). accent : dans chaque pays on peut remarquer la présence d'accents régionaux. vitesse d'élocution : elle caractérise la vitesse à laquelle une personne parle. articulation : elle caractérise la prononciation correcte des sons. des facteurs extra-linguistiques, par exemple l'attitude du locuteur à l'égard du message ( le doute, l'ironie, la conviction,...).

la variabilité intra locuteur :
On observe des modifications du signal de parole, même en se restreignant à un seul locuteur : Les conditions psychologiques (stress, émotion) ou physiques (fatigue, rhume) modifient les propriétés prosodiques et spectrales du signal acoustique.

Influence du contexte La réalisation acoustique d'un son (phonème, mot,...) dépend de son environnement immédiat : les sons qui précèdent et ceux qui suivent influent fortement la production d'un son en raison de l'anticipation ou la rétention du geste articulatoire. Il s'en suit que la forme acoustique d'un son, et plus particulièrement ses zones transitoires sont dépendantes des traits articulatoires des sons adjacents, c'est le phénomène de coarticulation

Difficultés liées à l'application considérée
Selon les critères et le mode de fonctionnement que doit satisfaire un système de reconnaissance, différents facteurs de complexité sont en jeu. Citons les plus importants : indépendance ou dépendance du locuteur, mots isolés ou parole continue, vocabulaire, syntaxe du langage,

La perception et la compréhension de la parole
des mécanismes intuitivement simples reconnaissance de Compréhension mots distincts de la phrase Or, cette facilité n’est qu’apparente : La compréhension de la parole implique pourtant un traitement fort complexe, dont on ne connaît pas encore tous les mécanismes.

Un traitement impliquant plusieurs niveaux linguistiques d’analyse

L’auditeur reconnaît des portions du signal portant le sens du message produit par le locuteur = des mots • Ces mots, en nombre fini, sont des briques de sens qui se combinent à l’infini. Ces mots sont stockés en mémoire à long terme dans ce qu’on appelle le lexique mental. • Un point clé de la perception de la parole est la localisation et l’identification des formes lexicales dans le signal de parole afin d’accéder au sens qui leur est associé. –Q: comment fait-on pour localiser, segmenter, les mots dans le signal? Les mots ne sont pas séparés par des espaces comme à l’écrit; des hésitations au milieu d’un mot ne nous empêchent pas de recoller les portions de signal pour reconnaître un mot…

Lorsqu’on entend une langue connue, on ne peut s’empêcher de percevoir le signal de parole comme une séquence de mots… • Mais lorsque l’on entend une langue inconnue, avec un traitement direct du signal, il est impossible de dire ou les mots commencent et où les mots finissent. => démontre que cette segmentation du signal en mot relève plutôt d’une opération cognitive que d’un traitement acoustique direct. => suppose une connaissance de la forme sonore des mots stockés dans le lexique pour qu’il y ait un appariement entre une forme produite et la forme stockée. Or on sait que les formes produites sont extrêmement variables!!! – Q: comment fait-t-on pour reconnaître des mots alors qu’il n’ont jamais la même forme dans le signal? – Q: comment sont stockés les mots dans le lexique, avec quelles informations phonétiques?

Le traitement perceptif va consister à convertir un signal de parole continu et variable en unités discrètes et invariantes.

• Complexité à plusieurs niveaux :
Blablablabla…. ? …?.... ? Reconnaissance de mots distincts Compréhension de la phrase 1. Propriétés du signal de parole 2. Traitement(s) intermédiaire(s) Étapes Unités de représentation 3. Traitement Lexical. Unités d’entrée au lexique …

1. Complexité de traitement due aux propriétés intrinsèques du signal de parole

(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur...

Le problème de l’invariance
Si la parole était invariante, alors pour chaque segment de parole perçu, on devrait trouver dans le signal une série de corrélats acoustiques spécifiques qui le caractériserait dans tous les type de production. De plus, ces corrélats acoustiques devraient être présents à chaque fois qu’un segment de parole X est produit et absents lorsqu’il n’est pas produit. OR, la variation dans la parole rend difficile l’identification de corrélats acoustiques invariants toujours présents pour chaque segment de parole. La parole est variable… Or on suppose que le traitement perceptif consiste à convertir ce signal en unités discrètes et invariantes.

(A) La parole est variable Les sons/mots varient selon contexte, débit, locuteur (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement.

Illustration de (B): caractère "continu" de la parole « il est à moi »
i l ɛ t a m w a

On peut identifier des «évènements» acoustiques (ex
On peut identifier des «évènements» acoustiques (ex. une explosion, une forme spectrale...) qui peuvent être interpréter comme des frontières entre les sons, mais ces évènements sont nombreux et ne sont pas en correspondance une à une avec les segments de parole. On peut identifier des «évènements» acoustiques (ex. une explosion, une forme spectrale...) qui peuvent être interpréter comme des frontières entre les sons, mais ces évènements sont nombreux et ne sont pas en correspondance une à une avec les segments de parole.

Le problème de la segmentation
La parole est continue… Or le langage est discret

(A) La parole est variable
Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent.

Si la parole était séquentielle et linéaire, alors pour chaque segment de parole perçu (son de parole), on devrait trouver dans le signal un segment acoustique précis lui correspondant. De plus, pour une suite de segments de parole X+Y, le segment acoustique correspondant à Y devrait suivre le segment acoustique correspondant à Y. Ex. l’écrit est linéaire : les lettres se succèdent dans un ordre linéaire, et à chaque lettre (ou combinaison de lettres) correspond à un son de la langue. maison [m] [ɛ] [z] [ɔ̃]

OR, la parole n’est pas linéaire et séquentielle. Ex
OR, la parole n’est pas linéaire et séquentielle. Ex. [si] (« si ») et [sy] (« su ») Il y a dans le segment acoustique s1, des info. sur le segment de parole [s] et sur le segment de parole [y]. s1 Les info. acoustiques sur la consonne et la voyelle suivante ne suivent pas de façon séquentielle. Il n’y a pas de correspondance bi-univoque entre une partie du signal acoustique et un segment de la langue : même percept /s/ mais des réalisations acoustiques très différentes.

Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. mots /min. (Macley & Osgood, 1959) 3-5 syllabes /sec. (Deese, 1984)

Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. (E) La parole est lacunaire Les mots sont parfois prononcés incomplètement avec des phonèmes ou des syllabes qui sont omis.

E- Exemple de disparition de mots/sons
Processus phonologique [il.t´.d i.k il.n ´.l´.sE.p a] "il te dit qu'il ne le sait pas" [il.t´.d i.k il.n ´.lsE.p a] "il te dit qu'il ne l'sait pas" [i.t´.di.k il.n ´.lsE.pa] "i'te dit qu'il ne l'sait pas" [it.d i.k il.sE.p a] "it' dit qu'il sait pas"

Les sons/mots varient selon contexte, débit, locuteur... (B) La parole est continue Les sons/mots ne sont pas séparés par des pauses. Les frontières ne sont pas marquées systématiquement. (C) La parole n’est pas strictement séquentielle Les sons/mots se chevauchent. (D) La parole est rapide 12-15 sons (phonèmes) par seconde. (E) La parole est lacunaire Les mots sont parfois prononcés incomplètement avec des phonèmes ou des syllabes qui sont omis.

La perception de la parole

Présentations similaires

Présentation au sujet: "La perception de la parole"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

La perception de la parole

Présentations similaires

Présentation au sujet: "La perception de la parole"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back