giovedì 8 ottobre 2009

Aerodinamica del parlato


Nella disciplina della speech recognition, è doveroso fornire una descrizione del processo umano di produzione della voce. Tale parte, nonostante possa far parte di aspetti biologici, non è da sottovalutare, in quanto vedremo che, molte migliorie apportate ai sistemi di riconoscimento vocale, al fine di migliorare l'accuratezza degli stessi, parte proprio da alcune considerazioni fisiche sulla creazione del parlato.
La voce umana è l'effetto di rapide variazioni di aria che, emessa dai polmoni, attraversa la trachea e viene emessa all'esterno del corpo umano dalla bocca e dal naso. Nel passaggio dalla trachea, l'aria raggiunge la laringe. La laringe contiene due piccole "lamelle" di muscolo dette corde vocali. Lo spazio esistente tra le corde vocali (glottis) può essere stretto, a causa delle corde vocali che, entrambe, tendono a chiudersi, ma non completamente. In questa condizione, e con il passaggio di aria, avremo la creazione del suono vocale (voiced sound) perchè le corde vocali vibrano al passaggio. Se invece un essere umano emette dei suoni, ma mentre li emette le corde vocali sono completamente aperte (con un glottis molto ampio), allora avremo dei suoni non vocali (unvoiced sound) perchè le corde non vibrano. Al di sopra della trachea, l'aria raggiunge il tratto vocale (vocal tract) che viene suddiviso in:
-tratto orale (oral tract);
-tratto nasale (nasal tract).
Si badi che i suoni nasali, utilizzano sia il tratto nasale che quello orale come cavità di risonanza.
I movimenti d'aria sono quindi alla base della creazione del parlato.
L'aria, in una condizione statica, può essere caratterizzata attraverso la seguente equazione:
PV = nRT
Dove:
P --> pressione;
V --> volume;
n --> la massa di aria in mole;
R --> una costante del gas;
T --> la temperatura.
La temperatura influisce sulla densità, visoosità e velocità dell'aria. La pressione è un parametro fisico molto importante nel parlato. Generalmente la pressione esercitata dall'aria emessa da un essere umano, si aggira dai 5 ai 30 cm di livello di acqua misurato rispetto alla pressione atmosferica (ad esempio utilizzando un manometro). L'aria emessa dal parlato umano, genera un'onda longitudinale caratterizzata da repentine pressioni e rarefazioni rispetto alla situazione dell'aria dell'ambiente esterno. Le zone a pressione più alta, hanno delle molecole di aria che si spostano molto velocemente nelle zone rarefatte attorno. Ciò comporta una certa velocità della massa d'aria, ovvero la velocità del suono (speed of sound).
Nel caso dell'aria, la formula PV può essere semplificata. Questo perchè il fenomeno della pressione d'aria del parlato può essere considerato un processo adiabatico.
Un processo è detto adiabatico se non vi è scambio di calore tra l'interno e l'esterno del sistema che stiamo considerando. Se è vero che l'onda di pressione longitudinale provocata dal parlato provoca repentini cambi di pressione nelle molecole di aria esterne, e quindi cambi di temperatura, è altrettanto vero che questi cambi di temperatura sono talmente veloci da poter essere praticamente nulli gli scambi di calore. Con ciò, la formula di sopra diviene:
PV^gamma=Costante. (con gamma=1,4 oer l'aria).
Da notare ovviamente che la temperatura non è costante.
Il flusso d'aria che viene emessa dal corpo umano attraverso gli apparati può essere approssimato ad un flusso d'aria che passa attraverso un tubo. Il flusso d'aria è soggetto alla presenza di elementi che comportano una superficie del tubo irregolare, o meglio la presenza di escrescenze che comportano dei fenomeni turbolenti.
La computazione delle proprietà acustiche del tratto vocale e nasale, non è banale se non si impartiscono delle semplificazioni. Per fortuna, nel caso del parlato e per frequenze sotto i 4khz è possibile fare delle forti semplificazioni senza ottenere dei discostamenti apprezzabili dalla realtà effettiva.
Le assunzioni che è possibile fare sono le seguenti:
- Il tratto vocale/nasale è possibile approssimarlo ad un tubo dritto a sezioni variabili.
- La propagazione in questo tubo è un'onda planare. Ciò significa che, preso qualsiasi piano perperndicolare all'asse di propagazione, ciascuna grandezza fisica quale densità e pressione sono costanti in questo piano.
- La propagazione dell'onda nel tratto vocale è lineare. Questa assunzione è possibile farla in quanto il Mach number per i suoni vocali è molto basso ovvero minore di 0,2.

Per quanto concerne il tratto nasale, l'effetto dell'emissione di suono dal naso è dato dall'accoppiata della cavità nasale assieme alla cavità orale, e può essere approssimata anche in questo caso ad un tubo con sezione variabile. Possiamo schematizzare la cavità nasale con il seguente schema:

Velocità di volume di fluido e regime di fluido sono rispettavemente grandezze e condizioni che influiscono molto sulla propagazione della voce e sulle caratteristiche dei suoni ricevuti da chi ascolta.
Nello studio dei fluidi è importante fare alcune semplificazioni. In particolare considerare il flusso come fermo ed incomprimibile, può comportare notevoli semplificazioni nelle formule del moto dei fluidi. Un flusso fermo significa che qualunque punto del fluido, è caratterizzato da condizioni di pressione e velocità costante, ovvero il fluido non ha caratteristiche di turbolenza, in quando la turbolenza comporta variazioni casuali di pressione e velocità. L'incomprimibilità non significa che stiamo trattando i liquidi, ma che alcune condizioni che si vengono a verificare nel caso di compressibilità vengono a mancare, comportando delle semplificazioni.
Queste due condizioni comportano la possibilità di utilizzare la formula di Bernoulli per i fluidi all'interno di una conduttura (come l'aria che viene emessa attraverso la trachea)in una forma semplificata:

La formula di Bernoulli descrive le caratteristiche del flusso prendendo due punti, 1 e 2.
g--> accellerazione di gravità;
Hl--> perdita di calore;
p1 e p2 --> la pressione misurata nei punti 1 e 2;
v1 e v2 --> le velocità delle particelle nel punto 1 e 2;
ro--> la densità.
La perdita di calore e dovuta alla frizione che si viene a creare nel liquido e che crea calore. Se considideriamo il fluido privo di effetti di frizione, allora è possibile porre Hl=0 ed introducendo la grandezza di velocità di volume,
pari a:
U=vA (m^3/s)
allora avremo che:


A1 e A2 sono le aree delle sezioni del flusso nei punti 1 e 2.
Ad ogni modo la perdita di calore può divenire significativa, ed è proporzionale alla lunghezza del tubo ed al quadrato della velocità del flusso. La costante di proporzionalità dipende peraltro da una costante di rugosità e dal numero di Reynolds:
Re=VD/v
. V è pari alla velocità caratteristica
. D è pari alla dimensione caratteristica
. v è la viscosità cinematica
Per flussi all'interno di tubi, la V è pari alla velocità misurata al centro del tubo e D è il diametro del tubo.
Un altra caratteristica da introdurre, è il regime di flusso.
Il regime di flusso può essere di due tipi:
- Laminare;
- Instabile;
- Turbolento.
Il passaggio da un regime all'altra avviene attraverso il raggiungimento di valori del numero di Reynolds che vengono detti critici.
Quando un flusso di aria scorre lungo un tubo, le particelle vicine alla superficie
del tubo tendono a rallentare per effetto di attrito. Quindi al centro del tubo la velocità aumenta. Una volta che viene superata una certa velocità, si passa da fenomeni di attrito a fenomeni inerziali, ed il flusso tende a separarsi dallo strato vicino alla superficie del tubo. In questa condizione, la sezione di flusso diminuisce e la regione vicino alla superficie del tubo diventa instabile. In una
condizione di stato instabile, ogni perturbazione può essere amplificata. Se il numero di Reynolds diventa turbolento, ed il flusso diventa impredicibile. Il Recritico può essere differente a seconda del tipo di sezione del tubo.
Il flusso d'aria prodotto dal parlato umano può essere pesantemente affetto dagli effetti di regime di flusso. Nello stato turbolento, può causare diffrazione o assorbimento di onde sonore.
Un altro evento è quello relativo al fatto che, la voce umana comporta uno spostamento d'aria che è più alto nel verso del parlatore che in avanti (downstream e upstream). Questo effetto è proporzionale al Mach.
Il Mach:
M=V/c (con V la velocità media delle particelle nel fluido)
Se il Mach<<1 allora l'effetto downstream-upstream è limitato.
Ad esempio, nel caso della pronuncia delle vocali si provoca una velocità di volume pari a U=200cm^3/s e su un'area A=1cm^2 avremo che:
M=V/c=U/Ac=200/(1*35000)=0,0057 <<1 -->quindi l'effetto è insignificante.
Per fricatives, in cui il Mach è vicino ad 1, l'effetto è da tenere in considerazione. Il passaggio al regime instabile comporta la nascita di oscillazioni autosostenute che hanno una grande ampiezza ed una banda molto stretta. Tra un'asperità e l'altra del condotto si generano dei vortici che sono delle vere e proprie fonti di suono. Incrementando la velocità di flusso, anche la frequenza del suono prodotto aumenterà, ma si manterrà sempre vicina ad una frequenza di risonanza, e potrà saltare alla fr. di risonanza successiva mostrando isteresi. La turbolenza provoca un suono caratterizzato da un spettro piatto che può essere considerato un rumore. Tale tipo di rumore, non è semplicemente modellabile, e per farlo si utilizzano sorgenti di rumore che sono i monopoli acustici.
[continue]