Interval dinamic: comprimat sau standard. Reverse Mastering: Este posibilă creșterea intervalului dinamic al înregistrărilor comprimate? Modificări ale codurilor Huffman

Într-un moment în care cercetătorii abia începeau să rezolve problema creării unei interfețe de vorbire pentru computere, ei trebuiau adesea să-și facă propriile echipamente care să permită introducerea informațiilor audio în computer și, de asemenea, să le scoată de pe computer. Astăzi, astfel de dispozitive pot fi doar de interes istoric, deoarece computerele moderne pot fi echipate cu ușurință cu dispozitive de intrare și ieșire audio, cum ar fi adaptoare de sunet, microfoane, căști și difuzoare.

Nu vom intra în detalii structura internă aceste dispozitive, dar vă vom spune cum funcționează și vă vom oferi câteva recomandări pentru alegerea dispozitivelor computerizate audio pentru lucrul cu sisteme de recunoaștere și sinteză a vorbirii.

După cum am spus deja în capitolul anterior, sunetul nu este altceva decât vibrații ale aerului, a căror frecvență se află în gama de frecvențe percepute de oameni. Limitele exacte ale intervalului de frecvențe audibile pot varia de la persoană la persoană, dar se crede că vibrațiile sonore se află în intervalul 16-20.000 Hz.

Sarcina unui microfon este de a converti vibrațiile sonore în vibrații electrice, care pot fi apoi amplificate, filtrate pentru a elimina interferențele și digitizate pentru intrare. informații audio la calculator.

Pe baza principiului de funcționare, cele mai comune microfoane sunt împărțite în carbon, electrodinamic, condensator și electret. Unele dintre aceste microfoane necesită o sursă de curent externă pentru funcționarea lor (de exemplu, carbon și condensator), altele, sub influența vibrațiilor sonore, sunt capabile să producă independent curent alternativ. tensiune electrică(acestea sunt microfoane electrodinamice și electret).

De asemenea, puteți separa microfoanele în funcție de scopul lor. Există microfoane de studio care pot fi ținute în mână sau montate pe un suport, există microfoane radio care pot fi prinse de îmbrăcăminte și așa mai departe.

Există și microfoane concepute special pentru computere. Astfel de microfoane sunt de obicei montate pe un suport amplasat pe suprafața unei mese. Microfoanele computerului pot fi combinate cu căști, așa cum se arată în Fig. 2-1.

Orez. 2-1. Căști cu microfon

Cum puteți alege din varietatea de microfoane care sunt cele mai potrivite pentru sistemele de recunoaștere a vorbirii?

În principiu, poți experimenta cu orice microfon pe care îl ai, atâta timp cât acesta poate fi conectat la adaptorul audio al computerului tău. Cu toate acestea, dezvoltatorii de sisteme de recunoaștere a vorbirii recomandă achiziționarea unui microfon care, în timpul funcționării, va fi la o distanță constantă de gura vorbitorului.

Dacă distanța dintre microfon și gură nu se modifică, atunci nivelul mediu al semnalului electric care vine de la microfon nu se va modifica prea mult. Acest lucru va avea un impact pozitiv asupra performanței sistemelor moderne de recunoaștere a vorbirii.

Care este problema?

O persoană este capabilă să recunoască cu succes vorbirea, al cărei volum variază într-o gamă foarte largă. Creierul uman este capabil să filtreze vorbirea liniștită din interferențe, cum ar fi zgomotul mașinilor care trec pe stradă, conversațiile din afara și muzica.

În ceea ce privește sistemele moderne de recunoaștere a vorbirii, abilitățile lor în acest domeniu lasă mult de dorit. Dacă microfonul este pe o masă, atunci când vă întoarceți capul sau vă schimbați poziția corpului, distanța dintre gură și microfon se va schimba. Acest lucru va schimba nivelul de ieșire a microfonului, ceea ce, la rândul său, va reduce fiabilitatea recunoașterii vorbirii.

Prin urmare, atunci când lucrați cu sisteme de recunoaștere a vorbirii, cele mai bune rezultate vor fi obținute dacă utilizați un microfon atașat la căști, așa cum se arată în Fig. 2-1. Când utilizați un astfel de microfon, distanța dintre gură și microfon va fi constantă.

De asemenea, vă atragem atenția asupra faptului că toate experimentele cu sisteme de recunoaștere a vorbirii sunt cel mai bine efectuate în intimitate, într-o cameră liniștită. În acest caz, influența interferenței va fi minimă. Desigur, dacă trebuie să alegeți un sistem de recunoaștere a vorbirii care poate funcționa în condiții de interferență puternică, atunci testele trebuie efectuate diferit. Cu toate acestea, din câte știu autorii cărții, imunitatea la zgomot a sistemelor de recunoaștere a vorbirii este încă foarte, foarte scăzută.

Microfonul transformă undele sonore în vibrații pentru noi. curent electric. Aceste fluctuații pot fi văzute pe ecranul osciloscopului, dar nu vă grăbiți la magazin să achiziționați acest dispozitiv scump. Putem efectua toate studiile oscilografice folosind un computer obișnuit echipat cu un adaptor de sunet, de exemplu, un adaptor Sound Blaster. Mai târziu vă vom spune cum să faceți acest lucru.

În fig. 2-2 am arătat oscilograma semnal sonor, rezultat din pronunțarea unui sunet lung a. Această formă de undă a fost obținută folosind programul GoldWave, despre care vom vorbi mai târziu în acest capitol al cărții, precum și folosind un adaptor audio Sound Blaster și un microfon similar cu cel prezentat în Fig. 2-1.

Orez. 2-2. Oscilogramă semnal audio

Programul GoldWave vă permite să întindeți oscilograma de-a lungul axei timpului, ceea ce vă permite să vedeți cele mai mici detalii. În fig. 2-3 am arătat un fragment întins din oscilograma sus-menționată a sunetului a.

Orez. 2-3. Fragment de oscilogramă a unui semnal audio

Vă rugăm să rețineți că mărimea semnalului de intrare care vine de la microfon se modifică periodic și ia atât valori pozitive, cât și negative.

Dacă în semnalul de intrare ar exista o singură frecvență (adică dacă sunetul a fost „curat”), forma de undă primită de la microfon ar fi o undă sinusoidală. Cu toate acestea, așa cum am spus deja, spectrul sunetelor vorbirii umane constă dintr-un set de frecvențe, drept urmare forma oscilogramei semnalului de vorbire este departe de a fi sinusoidală.

Vom numi un semnal a cărui magnitudine se modifică continuu în timp semnal analogic. Acesta este exact semnalul care vine de la microfon. Spre deosebire de un semnal analog, un semnal digital este un set de valori numerice care se modifică discret în timp.

Pentru ca un computer să proceseze un semnal sonor, acesta trebuie convertit din formă analogică în formă digitală, adică prezentat ca un set de valori numerice. Acest proces se numește digitizare a semnalului analogic.

Digitalizarea unui semnal audio (și a oricărui semnal analogic) se realizează folosind un dispozitiv special numit convertor analog-digital ADC (Convertor analog-digital, ADC). Acest dispozitiv este situat pe placa adaptorului de sunet și este un microcircuit cu aspect obișnuit.

Cum funcționează un convertor analog-digital?

Măsoară periodic nivelul semnalului de intrare și emite o valoare numerică a rezultatului măsurării. Acest proces este ilustrat în Fig. 2-4. Aici, dreptunghiurile gri indică valorile semnalului de intrare măsurate la un interval de timp constant. Un set de astfel de valori este o reprezentare digitalizată a semnalului analogic de intrare.

Orez. 2-4. Măsurători ale amplitudinii semnalului în funcție de timp

În fig. 2-5 am arătat conectarea unui convertor analog-digital la un microfon. În acest caz, un semnal analogic este furnizat la intrarea x 1 și un semnal digital este eliminat de la ieșirile u 1 -u n.

Orez. 2-5. Convertor analog-digital

Convertoarele analog-digitale sunt caracterizate de doi parametri importanți - frecvența de conversie și numărul de niveluri de cuantizare ale semnalului de intrare. Alegerea corectă a acestor parametri este esențială pentru a obține o reprezentare adecvată în formă digitală semnal analogic.

Cât de des trebuie să măsurați amplitudinea semnalului analog de intrare, astfel încât informațiile despre modificările semnalului analog de intrare să nu se piardă ca urmare a digitizării?

S-ar părea că răspunsul este simplu - semnalul de intrare trebuie măsurat cât mai des posibil. Într-adevăr, cu cât un convertor analog-digital efectuează mai des astfel de măsurători, cu atât mai bine va putea urmări cele mai mici modificări ale amplitudinii semnalului analogic de intrare.

Cu toate acestea, măsurătorile excesiv de frecvente pot duce la o creștere nejustificată a fluxului de date digitale și la o risipă de resurse informatice la procesarea semnalului.

Din fericire, alegere corectă frecvențele de conversie (frecvențele de eșantionare) sunt destul de simplu de făcut. Pentru a face acest lucru, este suficient să ne referim la teorema lui Kotelnikov, cunoscut specialiştilorîn domeniul prelucrării digitale a semnalului. Teorema afirmă că frecvența de conversie trebuie să fie de două ori mai mare decât frecvența maximă a spectrului semnalului convertit. Prin urmare, pentru a digitiza fără a pierde calitatea unui semnal audio a cărui frecvență se află în intervalul 16-20.000 Hz, trebuie să selectați o frecvență de conversie nu mai mică de 40.000 Hz.

Rețineți, totuși, că în echipamentele audio profesionale frecvența de conversie este selectată de câteva ori mai mare decât valoarea specificată. Acest lucru se face pentru a realiza foarte calitate superioară sunet digitalizat. Această calitate nu este relevantă pentru sistemele de recunoaștere a vorbirii, așa că nu vă vom concentra atenția asupra acestei alegeri.

Ce frecvență de conversie este necesară pentru a digitiza sunetul vorbirii umane?

Deoarece sunetele vorbirii umane se află în intervalul de frecvență de 300-4000 Hz, frecvența minimă de conversie necesară este de 8000 Hz. Cu toate acestea, mulți programe de calculator Recunoașterea vorbirii folosește o frecvență de conversie standard de 44.000 Hz pentru adaptoarele audio convenționale. Pe de o parte, o astfel de frecvență de conversie nu duce la o creștere excesivă a fluxului de date digitale și, pe de altă parte, asigură digitizarea vorbirii cu o calitate suficientă.

Înapoi la școală, am fost învățați că la orice măsurători apar erori, care nu pot fi eliminate complet. Astfel de erori apar din cauza rezoluției limitate instrumente de măsurare, precum și datorită faptului că procesul de măsurare în sine poate introduce unele modificări în valoarea măsurată.

Un convertor analog-digital reprezintă semnalul analogic de intrare ca un flux de numere de capacitate limitată. Adaptoarele audio convenționale conțin blocuri ADC de 16 biți capabile să reprezinte amplitudinea semnalului de intrare ca 216 = 65536 de valori diferite. Dispozitive ADC în echipamente audio clasa inalta poate fi de 20 de biți, oferind o precizie mai mare în reprezentarea amplitudinii semnalului audio.

Au fost create sisteme și programe moderne de recunoaștere a vorbirii pentru computerele obișnuite echipate cu adaptoare de sunet obișnuite. Prin urmare, pentru a efectua experimente cu recunoașterea vorbirii, nu trebuie să achiziționați un adaptor audio profesional. Un adaptor precum Sound Blaster este destul de potrivit pentru digitizarea vorbirii în scopul recunoașterii sale ulterioare.

Odată cu semnalul util, în microfon intră de obicei diverse zgomote - zgomot de pe stradă, zgomot de vânt, conversații străine etc. Zgomotul are un impact negativ asupra performanței sistemelor de recunoaștere a vorbirii, așa că trebuie tratat. Am menționat deja una dintre modalități - sistemele de recunoaștere a vorbirii de astăzi sunt cel mai bine folosite într-o cameră liniștită, singur cu computerul.

Cu toate acestea, nu este întotdeauna posibil să se creeze condiții ideale, așa că este necesar să se folosească metode speciale pentru a scăpa de interferențe. Pentru a reduce nivelul de zgomot, se folosesc trucuri speciale la proiectarea microfoanelor și a filtrelor speciale care elimină frecvențele din spectrul semnalului analogic care nu poartă informații utile. În plus, este utilizată o tehnică precum compresia intervalului dinamic al nivelurilor semnalului de intrare.

Să vorbim despre toate acestea în ordine.

Filtru de frecventa este un dispozitiv care convertește spectrul de frecvență al unui semnal analogic. În acest caz, în timpul procesului de conversie, vibrațiile anumitor frecvențe sunt eliberate (sau absorbite).

Vă puteți imagina acest dispozitiv ca un fel de cutie neagră cu o intrare și o ieșire. În raport cu situația noastră, la intrarea filtrului de frecvență va fi conectat un microfon, iar la ieșire va fi conectat un convertor analog-digital.

Există diferite filtre de frecvență:

· filtre trece jos;

filtre de trecere înaltă;

· filtre trece-bandă de transmisie;

· filtre band-stop.

Filtre Low Pass(filtru trece-jos) elimină din spectrul semnalului de intrare toate frecvențele ale căror valori sunt sub o anumită frecvență de prag, în funcție de setarea filtrului.

Deoarece semnalele audio se află în intervalul 16-20.000 Hz, toate frecvențele mai mici de 16 Hz pot fi întrerupte fără a degrada calitatea sunetului. Pentru recunoașterea vorbirii, intervalul de frecvență de 300-4000 Hz este important, astfel încât frecvențele sub 300 Hz pot fi tăiate. În acest caz, toate interferențele al căror spectru de frecvență este sub 300 Hz vor fi tăiate din semnalul de intrare și nu vor interfera cu procesul de recunoaștere a vorbirii.

De asemenea, filtre trece-înalte(filtru trece-înalt) decupează din spectrul semnalului de intrare toate frecvențele peste o anumită frecvență de prag.

Oamenii nu pot auzi sunete cu o frecvență de 20.000 Hz și mai mare, astfel încât acestea pot fi îndepărtate din spectru fără o deteriorare vizibilă a calității sunetului. În ceea ce privește recunoașterea vorbirii, aici puteți tăia toate frecvențele de peste 4000 Hz, ceea ce va duce la o reducere semnificativă a nivelului de interferență de înaltă frecvență.

Filtru trece banda(filtru trece-bandă) poate fi gândit ca o combinație între un filtru trece-jos și un filtru trece-înalt. Un astfel de filtru întârzie toate frecvențele sub așa-numitul frecvență de trecere mai mică, și, de asemenea, mai sus frecvența de trecere superioară.

Astfel, un filtru de bandă de trecere este convenabil pentru un sistem de recunoaștere a vorbirii, care întârzie toate frecvențele, cu excepția frecvențelor în intervalul 300-4000 Hz.

În ceea ce privește filtrele band-stop, acestea vă permit să tăiați toate frecvențele care se află într-un interval dat din spectrul semnalului de intrare. Un astfel de filtru este convenabil, de exemplu, pentru suprimarea interferențelor care ocupă o anumită parte continuă a spectrului de semnal.

În fig. 2-6 am arătat conectarea unui filtru trece bandă.

Orez. 2-6. Filtrarea semnalului audio înainte de digitizare

Trebuie spus că adaptoarele de sunet convenționale instalate într-un computer includ un filtru bandpass prin care trece semnalul analogic înainte de digitizare. Banda de trecere a unui astfel de filtru corespunde de obicei intervalului de semnale audio, și anume 16-20.000 Hz (la diferite adaptoare audio, valorile frecvențelor superioare și inferioare pot varia în limite mici).

Cum se obține o lățime de bandă mai îngustă de 300-4000 Hz, corespunzătoare celei mai informative părți a spectrului vorbirii umane?

Desigur, dacă aveți o înclinație pentru proiectarea echipamentelor electronice, vă puteți crea propriul filtru dintr-un cip amplificator operațional, rezistențe și condensatori. Cam asta au făcut primii creatori ai sistemelor de recunoaștere a vorbirii.

Cu toate acestea sisteme industriale Sistemele de recunoaștere a vorbirii trebuie să fie funcționale pe hardware-ul computerului standard, așa că ruta de realizare a unui filtru de trecere de bandă special nu este potrivită aici.

În schimb, în sisteme moderne procesarea vorbirii folosește așa-numita filtre digitale de frecvență, implementat în software. Acest lucru a devenit posibil după CPU Computerul a devenit destul de puternic.

Un filtru de frecvență digital, implementat în software, convertește un semnal digital de intrare într-un semnal digital de ieșire. În timpul procesului de conversie, programul prelucrează în mod special fluxul de valori numerice ale amplitudinii semnalului provenit de la convertorul analog-digital. Rezultatul transformării va fi și un flux de numere, dar acest flux va corespunde unui semnal deja filtrat.

În timp ce vorbim despre convertorul analog-digital, am remarcat o caracteristică atât de importantă precum numărul de niveluri de cuantizare. Dacă în adaptorul de sunet este instalat un convertor analog-digital pe 16 biți, atunci după digitizare nivelurile semnalului audio pot fi reprezentate ca 216 = 65536 de valori diferite.

Dacă există puține niveluri de cuantizare, atunci așa-numitele zgomot de cuantizare. Pentru a reduce acest zgomot, sistemele de digitizare audio de înaltă calitate ar trebui să utilizeze convertoare analog-digitale cu numărul maxim de niveluri de cuantizare disponibile.

Cu toate acestea, există o altă tehnică de reducere a impactului zgomotului de cuantizare asupra calității semnalului audio, care este utilizată în sistemele de înregistrare audio digitală. Când se utilizează această tehnică, semnalul este trecut printr-un amplificator neliniar înainte de digitizare, accentuând semnalele cu amplitudine scăzută a semnalului. Un astfel de dispozitiv îmbunătățește semnale slabe mai puternic decât puternic.

Acest lucru este ilustrat de graficul amplitudinii semnalului de ieșire față de amplitudinea semnalului de intrare prezentat în Fig. 2-7.

Orez. 2-7. Amplificare neliniară înainte de digitizare

În pasul de conversie a sunetului digitizat înapoi în analog (vom analiza acest pas mai târziu în acest capitol), semnalul analogic este trecut din nou printr-un amplificator neliniar înainte de a fi transmis către difuzoare. De această dată, se folosește un amplificator diferit, care accentuează semnalele de amplitudine mare și are o caracteristică de transfer (dependența amplitudinii semnalului de ieșire de amplitudinea semnalului de intrare) inversă celei utilizate în timpul digitizării.

Cum îi pot ajuta toate acestea pe creatorii sistemelor de recunoaștere a vorbirii?

O persoană, după cum se știe, recunoaște destul de bine vorbirea rostită în șoaptă liniștită sau cu o voce destul de tare. Putem spune că gama dinamică a nivelurilor de zgomot ale vorbirii recunoscute cu succes pentru o persoană este destul de largă.

Azi sisteme informatice recunoașterea vorbirii, din păcate, nu se poate lăuda încă cu acest lucru. Cu toate acestea, pentru a extinde ușor intervalul dinamic specificat, înainte de digitizare, puteți trece semnalul de la microfon printr-un amplificator neliniar, a cărui caracteristică de transfer este prezentată în Fig. 2-7. Acest lucru va reduce nivelul de zgomot de cuantizare la digitalizarea semnalelor slabe.

Dezvoltatorii sistemelor de recunoaștere a vorbirii, din nou, sunt forțați să se concentreze în primul rând pe adaptoarele de sunet produse comercial. Ele nu asigură conversia semnalului neliniar descrisă mai sus.

Cu toate acestea, este posibil să se creeze echivalentul software al unui amplificator neliniar care convertește semnalul digitizat înainte de a-l transmite modulului de recunoaștere a vorbirii. Deși un astfel de amplificator software nu va putea reduce zgomotul de cuantizare, el poate fi folosit pentru a sublinia acele nivele de semnal care transportă cele mai multe informații de vorbire. De exemplu, puteți reduce amplitudinea semnalelor slabe, eliminând astfel semnalul de zgomot.

Nivelul sunetului este același pe toată durata compoziției, există mai multe pauze.

Îngustarea intervalului dinamic

Îngustarea intervalului dinamic, sau mai simplu spus comprimare, este necesar pentru diverse scopuri, dintre care cele mai comune sunt:

1) Obținerea unui singur nivel de volum în întreaga compoziție (sau partea instrumentului).

2) Obținerea unui nivel uniform de volum pentru melodii de-a lungul albumului/difuziunii radio.

2) Inteligibilitate crescută, în principal la comprimarea unei anumite părți (voce, tobă).

Cum are loc îngustarea intervalului dinamic?

Compresorul analizează nivelul sunetului la intrare comparându-l cu o valoare de prag specificată de utilizator.

Dacă nivelul semnalului este sub valoarea Prag– apoi compresorul continuă să analizeze sunetul fără a-l schimba. Dacă nivelul sunetului depășește valoarea Prag, atunci compresorul își începe acțiunea. Deoarece rolul compresorului este de a restrânge intervalul dinamic, este logic să presupunem că limitează cele mai mari și mai mici valori ale amplitudinii (nivelul semnalului). În prima etapă, cele mai mari valori sunt limitate, care sunt reduse cu o anumită forță, care se numește raport(Atitudine). Să ne uităm la un exemplu:

Curbele verzi afișează nivelul sunetului, cu cât amplitudinea oscilațiilor lor de pe axa X, cu atât este mai mare nivelul semnalului.

Linia galbenă este pragul (Pragul) pentru ca compresorul să funcționeze. Făcând valoarea pragului mai mare, utilizatorul o îndepărtează de axa X. Prin micșorarea valorii pragului, utilizatorul o aduce mai aproape de axa Y este clar că cu cât valoarea pragului este mai des funcționează și invers, cu cât este mai mare, cu atât mai rar. Dacă valoarea Ratio este foarte mare, atunci după ce nivelul semnalului de prag este atins, toate semnalele ulterioare vor fi suprimate de compresor până la tăcere. Dacă valoarea raportului este foarte mică, atunci nu se va întâmpla nimic. Alegerea valorilor de prag și raport va fi discutată mai târziu. Acum ar trebui să ne punem următoarea întrebare: Ce rost are să suprimam toate sunetele ulterioare? Într-adevăr, nu are rost în asta, trebuie doar să scăpăm de valorile de amplitudine (vârfurile) care depășesc valoarea Prag (marcate cu roșu pe grafic). Pentru a rezolva această problemă există un parametru Eliberare(Atenuare), care stabilește durata compresiei.

Exemplul arată că prima și a doua depășire a pragului de prag durează mai puțin decât a treia depășire a pragului de prag. Deci, dacă parametrul Release este setat la primele două vârfuri, atunci la procesarea celui de-al treilea, poate rămâne o parte neprocesată (deoarece depășirea pragului Threshold durează mai mult). Dacă parametrul Release este setat la al treilea vârf, atunci când se procesează primul și al doilea vârf, în spatele lor se formează o scădere nedorită a nivelului semnalului.

Același lucru este valabil și pentru parametrul Ratio. Dacă parametrul Ratio este ajustat la primele două vârfuri, atunci al treilea nu va fi suprimat suficient. Dacă parametrul Ratio este configurat să proceseze al treilea vârf, atunci procesarea primelor două vârfuri va fi prea excesivă.

Aceste probleme pot fi rezolvate în două moduri:

1) Setarea parametrului de atac (Attack) - o soluție parțială.

2) Compresie dinamică - o soluție completă.

Parametru Oîncă (atac) are scopul de a seta timpul după care compresorul va începe să funcționeze după depășirea pragului de prag. Dacă parametrul este aproape de zero ( egal cu zeroîn cazul compresiei paralele, vezi acc. articol) – atunci compresorul va începe să suprime semnalul imediat și va funcționa pentru perioada de timp specificată de parametrul Release. Dacă viteza de atac este mare, atunci compresorul își va începe acțiunea după ce a trecut o anumită perioadă de timp (acest lucru este necesar pentru a da claritate). În cazul nostru, putem ajusta parametrii pragului (Threshold), atenuării (Release) și ai nivelului de compresie (Ratio) pentru a procesa primele două vârfuri și setați valoarea Attack aproape de zero. Apoi compresorul va suprima primele două vârfuri, iar la procesarea celui de-al treilea, îl va suprima până la depășirea pragului (Threshold). Cu toate acestea, acest lucru nu garantează o procesare a sunetului de înaltă calitate și este aproape de limitare (o tăietură brută a tuturor valorilor de amplitudine, în acest caz compresorul se numește limitator).

Să ne uităm la rezultatul procesării sunetului cu un compresor:

Vârfurile au dispărut, observ că setările de procesare au fost destul de blânde și am suprimat doar cele mai proeminente valori de amplitudine. În practică, intervalul dinamic se restrânge mult mai mult, iar această tendință nu face decât să progreseze. În mintea multor compozitori, ei fac muzica mai tare, dar în practică o privesc complet de dinamică pentru acei ascultători care ar putea să o asculte acasă și nu la radio.

Trebuie doar să luăm în considerare ultimul parametru de compresie, acesta Câştig(Câştig). Gain este conceput pentru a crește amplitudinea întregii compoziții și, de fapt, este echivalent cu un alt instrument de editare de sunet - normalizați. Să ne uităm la rezultatul final:

În cazul nostru, compresia a fost justificată și a îmbunătățit calitatea sunetului, deoarece vârful proeminent este mai probabil un accident decât un rezultat intenționat. În plus, este clar că muzica este ritmică, prin urmare are o gamă dinamică îngustă. În cazurile în care valorile mari ale amplitudinii sunt intenționate, compresia poate fi o greșeală.

Compresie dinamică

Diferența dintre compresia dinamică și compresia nedinamică este că, cu prima, nivelul de suprimare a semnalului (Ratio) depinde de nivelul semnalului de intrare. Compresoarele dinamice se găsesc în toate programe moderne, parametrii Ratio și Prag sunt controlați folosind o fereastră (fiecare parametru are propria sa axă):

Nu există un singur standard pentru afișarea unui grafic undeva de-a lungul axei Y, nivelul semnalului de intrare este afișat, undeva, dimpotrivă, nivelul semnalului după comprimare. Undeva punctul (0,0) este în colțul din dreapta sus, undeva în stânga jos. În orice caz, când deplasați cursorul mouse-ului peste acest câmp, se modifică valorile numerelor care corespund parametrilor Ratio și Prag. Aceste. Setați nivelul de compresie pentru fiecare valoare de prag, permițând setări de compresie foarte flexibile.

Lanț lateral

Un compresor cu lanț lateral analizează semnalul unui canal, iar atunci când nivelul sunetului depășește un prag (prag), aplică compresie pe alt canal. Side chaining are avantajele sale de a lucra cu instrumente care sunt situate în aceeași regiune de frecvență (combinația bas-kick este utilizată în mod activ), dar uneori sunt folosite și instrumente situate în regiuni de frecvență diferite, ceea ce duce la un efect interesant de lanț lateral.

Partea a doua – Etapele de compresie

Există trei etape de compresie:

1) Prima etapă este compresia sunetelor individuale (singleshoots).

Timbrul oricărui instrument are următoarele caracteristici: Attack, Hold, Decay, Delay, Sustain, Release.

Etapa de comprimare a sunetelor individuale este împărțită în două părți:

1.1) Compresia sunetelor individuale ale instrumentelor ritmice

Adesea, componentele unui beat necesită compresie separată pentru a le oferi claritate. Mulți oameni procesează toba separat de alte instrumente ritmice, atât în ​​etapa de comprimare a sunetelor individuale, cât și în etapa de comprimare a părților individuale. Acest lucru se datorează faptului că este situat în regiunea de frecvență joasă, unde, pe lângă aceasta, de obicei este prezent doar basul. Claritatea unei tobe înseamnă prezența unui clic caracteristic (toba are un timp de atac și reținere foarte scurt). Dacă nu există niciun clic, atunci trebuie să îl procesați cu un compresor, setând pragul la zero și timpul de atac de la 10 la 50 ms. Deplasarea (Realese) a compresorului trebuie să se termine înainte de următoarea lovire a tobei. Ultima problemă poate fi rezolvată folosind formula: 60.000 / BPM, unde BPM este tempo-ul compoziției. Deci, de exemplu) 60.000/137=437,96 (timp în milisecunde până la un nou ritm negativ al unei compoziții cu 4 dimensiuni).

Toate cele de mai sus se aplică altor instrumente ritmice cu un timp de atac scurt - acestea ar trebui să aibă un clic accentuat care să nu fie suprimat de compresor în nicio etapă a nivelurilor de compresie.

1.2) Compresiesunete individualeinstrumente armonice

Spre deosebire de instrumentele ritmice, părțile instrumentelor armonice sunt rareori compuse din sunete individuale. Cu toate acestea, acest lucru nu înseamnă că nu ar trebui procesate la nivelul de compresie a sunetului. Dacă utilizați o probă cu o parte înregistrată, atunci acesta este al doilea nivel de compresie. La acest nivel de compresie se aplică doar instrumentele armonice sintetizate. Acestea pot fi mostre, sintetizatoare care utilizează diverse metode sinteza sunetului (modelare fizică, FM, aditivă, subtractivă etc.). După cum probabil ați ghicit deja, vorbim despre programarea setărilor sintetizatorului. Da! Aceasta este și compresie! Aproape toate sintetizatoarele au un parametru de anvelopă programabil (ADSR), care înseamnă anvelopă. Folosind plicul, setați timpul de Attack, Decay, Sustain și Release. Și dacă îmi spui că aceasta nu este compresia fiecărui sunet individual - ești dușmanul meu pe viață!

2) Etapa a doua – Comprimarea pieselor individuale.

Prin compresia părților individuale mă refer la restrângerea gamei dinamice a unui număr de sunete individuale combinate. Această etapă include și înregistrări ale părților, inclusiv ale vocii, care necesită procesare de compresie pentru a-i oferi claritate și inteligibilitate. Când procesați piese prin compresie, trebuie să țineți cont de faptul că, atunci când adăugați sunete individuale, pot apărea vârfuri nedorite, de care trebuie să scăpați în această etapă, deoarece dacă acest lucru nu se face acum, imaginea se poate înrăutăți în stadiul de amestecând întreaga compoziție. În etapa de comprimare a pieselor individuale, este necesar să se țină cont de compresia etapei de procesare a sunetelor individuale. Dacă ați obținut claritatea tobei, atunci o reprocesare incorectă în a doua etapă poate strica totul. Nu este necesar să procesați toate piesele cu un compresor, la fel cum nu este necesar să procesați toate sunetele individuale. Vă sfătuiesc să instalați, pentru orice eventualitate, un analizor de amplitudine pentru a determina prezența efectelor secundare nedorite ale combinării sunetelor individuale. Pe lângă compresie, în această etapă este necesar să se asigure că piesele se află, dacă este posibil, în diferite game de frecvență, astfel încât cuantizarea să poată fi efectuată. De asemenea, este util să ne amintim că sunetul are o caracteristică precum mascarea (psihoacustica):

1) Un sunet mai silențios este mascat de unul mai puternic care vine în fața lui.

2) Un sunet mai silențios la o frecvență joasă este mascat de un sunet mai puternic la o frecvență înaltă.

Deci, de exemplu, dacă aveți o parte de sintetizator, atunci adesea notele încep să se joace înainte ca notele anterioare să se termine de sunat. Uneori, acest lucru este necesar (crearea armoniei, stilului de joc, polifonie), dar uneori nu este deloc - le puteți tăia sfârșitul (Delay - Release) dacă este audibil în modul solo, dar nu este audibil în modul de redare a tuturor părților . Același lucru este valabil și pentru efecte, cum ar fi reverb - nu ar trebui să dureze până când sursa de sunet pornește din nou. Prin tăierea și îndepărtarea semnalului inutil, faceți sunetul mai curat, iar acest lucru poate fi considerat și compresie - pentru că eliminați undele inutile.

3) A treia etapă – Comprimarea compoziției.

Când comprimați o compoziție întreagă, trebuie să țineți cont de faptul că toate părțile sunt o combinație de multe sunete individuale. Prin urmare, atunci când le combinăm și comprimarea ulterioară, trebuie să ne asigurăm că compresia finală nu strica ceea ce am realizat în primele două etape. De asemenea, trebuie să separați compozițiile în care o gamă largă sau îngustă este importantă. la comprimarea compozițiilor cu o gamă dinamică largă, este suficient să instalați un compresor care va zdrobi vârfurile pe termen scurt care s-au format ca urmare a adunării pieselor. Când comprimați o compoziție în care este important un interval dinamic îngust, totul este mult mai complicat. Aici compresoarele au fost numite recent maximizatori. Maximizer este un plugin care combină un compresor, un limitator, un egalizator grafic, un enhyzer și alte instrumente de transformare a sunetului. În același timp, trebuie să aibă instrumente de analiză sunet. Maximizarea, prelucrarea finală cu un compresor, este în mare măsură necesară pentru a combate greșelile făcute în etapele anterioare. Erori - nu atât la compresie (cu toate acestea, dacă faci în ultima etapă ceea ce ai fi putut face în prima etapă, aceasta este deja o greșeală), ci în selecția inițială a mostrelor și instrumentelor bune care nu ar interfera cu fiecare altele (vorbim de intervale de frecvență) . Acesta este motivul pentru care răspunsul în frecvență este corectat. Se întâmplă adesea ca, cu o compresie puternică pe master, este necesar să se schimbe parametrii de compresie și amestecare în stadiile anterioare, deoarece cu o îngustare puternică a intervalului dinamic, ies sunete liniștite care au fost mascate anterior și sunetul componentelor individuale. ale compoziției se modifică.

În aceste părți, în mod deliberat, nu am vorbit despre parametrii specifici de compresie. Am considerat că este necesar să scriu despre faptul că la compresie este necesar să se acorde atenție tuturor sunetelor și tuturor părților în toate etapele creării unei compoziții. Doar așa vei obține până la urmă un rezultat armonios nu numai din punctul de vedere al teoriei muzicale, ci și din punctul de vedere al ingineriei sunetului.

Tabelul de mai jos oferă sfaturi practice pentru prelucrarea loturilor individuale. Cu toate acestea, în compresie, numerele și presetările pot sugera doar zona dorită în care să căutați. Setările ideale de compresie depind de fiecare caz în parte. Parametrii Gain și Threshold presupun un nivel de sunet normal (utilizarea logică a întregului interval).

Partea a treia - Parametrii de compresie

Informații scurte:

Prag – determină nivelul sonor al semnalului de intrare, la atingerea căruia compresorul începe să funcționeze.

Atacul – determină timpul după care compresorul va începe să funcționeze.

Nivel (raport) – determină gradul de reducere a valorilor de amplitudine (față de valoarea inițială a amplitudinii).

Eliberare – definește timpul după care compresorul va înceta să funcționeze.

Câștig – determină nivelul de creștere a semnalului de intrare după procesarea de către un compresor.

Tabel de compresie:

Instrument Prag Atac raport Eliberare Câştig Descriere
Voce 0 dB 1-2 ms

2-5 mS

10 ms

0,1 ms

0,1 ms

mai puțin de 4:1

2,5: 1

4:1 – 12:1

2:1 -8:1

150 ms

50-100 mS

150 ms

150 ms

0,5s

Compresia în timpul înregistrării ar trebui să fie minimă; necesită o prelucrare obligatorie în etapa de amestecare pentru a oferi claritate și inteligibilitate.
Instrumente de suflat 1 – 5 ms 6:1 – 15:1 0,3s
Baril 10 până la 50 ms

10-100 mS

4:1 și mai sus

10:1

50-100 ms

1 mS

Cu cât este mai mic Thrshold și cu cât este mai mare raportul și cu cât este mai lung atacul, cu atât este mai pronunțat clicul de la începutul tobei.
Sintetizatoare Depinde de tipul de undă (plicuri ADSR).
Capcană: 10-40 mS

1-5 ms

5:1

5:1 – 10:1

50 mS

0,2s

Hi-Hat 20 mS 10:1 1 mS
Microfoane deasupra capului 2-5 mS 5:1 1-50 mS
Tobe 5 ms 5:1 – 8:1 10 ms
Chitara bas 100-200 mS

4ms până la 10ms

5:1 1 mS

10 ms

Corzi 0-40 mS 3:1 500 mS
Sintetizator. bas 4 ms – 10 ms 4:1 10 ms Depinde de plicuri.
Percuţie 0-20 mS 10:1 50 mS
Chitară acustică, pian 10-30 mS

5 – 10 ms

4:1

5:1 -10:1

50-100 mS

0,5s

Electro-nitara 2 – 5 ms 8:1 0,5s
Compresie finală 0,1 ms

0,1 ms

2:1

de la 2:1 la 3:1

50 ms

0,1 ms

Ieșire 0 dB Timpul de atac depinde de scop - dacă trebuie să eliminați vârfurile sau să faceți pista mai netedă.
Limitator după compresia finală 0 mS 10:1 10-50 mS Ieșire 0 dB Dacă aveți nevoie de o gamă dinamică îngustă și o „tăiere” grosieră de valuri.

Informațiile au fost preluate din diverse surse la care se face referire de resurse populare de pe Internet. Diferența dintre parametrii de compresie este explicată de preferințele de sunet diferite și de lucrul cu materiale diferite.

, Playere media

Discurile, în special cele mai vechi care au fost înregistrate și produse înainte de 1982, erau mult mai puțin probabil să fie amestecate pentru a face înregistrarea mai tare. Ele reproduc muzică naturală cu o gamă dinamică naturală care se păstrează pe înregistrare și se pierde în majoritatea formatelor digitale standard sau de înaltă definiție.

Există, desigur, excepții de la acest lucru – ascultați albumul recent al lui Steven Wilson de la MA Recordings sau Reference Recordings și veți auzi cât de bun poate fi sunetul digital. Dar acest lucru este rar; majoritatea înregistrărilor audio moderne sunt puternice și comprimate.

În ultima vreme Compresia muzicii a primit multe critici, dar sunt dispus să pariez că aproape toate înregistrările tale preferate sunt comprimate. Unele dintre ele sunt mai puține, altele sunt mai multe, dar totuși comprimate. Compresia din gama dinamică este un țap ispășitor pentru muzica care sună prost, dar muzica foarte comprimată nu este nimic nou: ascultați albumele Motown din anii '60. Același lucru se poate spune despre lucrările clasice ale lui Led Zeppelin sau despre albumele mai tinere ale lui Wilco și Radiohead. Compresia în intervalul dinamic reduce relația naturală dintre cele mai puternice și cele mai blânde sunete dintr-o înregistrare, astfel încât o șoaptă poate fi la fel de puternică ca un țipăt. Este destul de greu să găsești muzică pop din ultimii 50 de ani care să nu fi fost comprimată.

Am avut recent o discuție plăcută cu fondatorul și editorul revistei Tape Op, Larry Crane, despre aspectele bune, rele și urâte ale compresiei. Larry Crane a lucrat cu trupe și artiști precum Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi și Richmond Fontaine. De asemenea, conduce studioul de înregistrări Jackpot! în Portland, Oregon, care a fost casa The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him și mulți, mulți alții.

Ca exemplu de cântece surprinzător de nenaturale, dar totuși grozave, citez albumul lui Spoon din 2014, They Want My Soul. Crane râde și spune că o ascultă în mașină pentru că sună grozav acolo. Ceea ce ne aduce la un alt răspuns la întrebarea de ce muzica este comprimată: deoarece compresia și „claritatea” suplimentară fac mai ușor de auzit în locurile zgomotoase.

Larry Crane la serviciu. Fotografie de Jason Quigley

Când oamenii spun că le place sunetul unei înregistrări audio, înțeleg că le place muzica, de parcă sunetul și muzica ar fi termeni inseparabili. Dar pentru mine, diferențiez aceste concepte. Din perspectiva unui audiofil, sunetul poate fi dur și brut, dar asta nu va conta pentru majoritatea ascultătorilor.

Mulți se grăbesc să-i acuze pe inginerii de mastering că folosesc excesiv compresia, dar compresia este aplicată direct în timpul înregistrării, în timpul mixării și abia apoi în timpul masterizării. Dacă nu ați fost personal prezent la fiecare dintre aceste etape, nu veți putea spune cum au sunat instrumentele și părțile vocale chiar la începutul procesului.

Crane era pe un val: „Dacă un muzician vrea să sune intenționat nebun și distorsionat precum înregistrările Guided by Voices, atunci nu este nimic în neregulă în asta – dorința depășește întotdeauna calitatea sunetului.” Vocea interpretului este aproape întotdeauna comprimată și același lucru se întâmplă cu bas, tobe, chitare și sintetizatoare. Cu compresie, volumul vocii este menținut la nivelul dorit pe tot parcursul cântecului sau este ușor crescut față de fundalul altor sunete.

Compresia făcută corect poate face ca tobele să sune mai vioi sau mai ciudat în mod intenționat. Pentru a face muzica să sune grozav, trebuie să fiți capabil să utilizați instrumentele necesare. Acesta este motivul pentru care durează ani de zile pentru a-ți da seama cum să folosești compresia fără a exagera. Dacă inginerul de mixare a comprimat prea mult partea de chitară, inginerul de masterat nu va mai putea restabili complet frecvențele lipsă.

Dacă muzicienii ar fi vrut să asculți muzică care nu a trecut prin etapele de mixare și masterizare, ar fi lansat-o pe rafturile magazinelor direct din studio. Crane spune că oamenii care creează, editează, mixează și stăpânesc muzică înregistrată nu sunt acolo pentru a le sta în calea muzicienilor - i-au ajutat pe artiști încă de la început, de mai bine de o sută de ani.

Acești oameni fac parte din procesul de creație care are ca rezultat opere de artă uimitoare. Crane adaugă: „Nu vrei o versiune a „Dark Side of the Moon” care să nu fi fost amestecată și stăpânită”. Pink Floyd a lansat melodia așa cum au vrut ei să o audă.

Compresie dinamică(Dynamic range compression, DRC) - îngustarea (sau extinderea în cazul unui expander) a intervalului dinamic al fonogramei. Interval dinamic, este diferența dintre cel mai silențios și cel mai puternic sunet. Uneori, cel mai silențios sunet dintr-o coloană sonoră va fi puțin mai puternic decât nivelul de zgomot, iar uneori puțin mai silențios decât cel mai tare. Dispozitivele hardware și programele care efectuează compresie dinamică se numesc compresoare, distingând între ele patru grupe principale: compresoare în sine, limitatoare, expansoare și porți.

Compresor analog cu tub DBX 566

Compresie în jos și în sus

Downcompresie(Compresia în jos) reduce volumul unui sunet atunci când acesta începe să depășească un anumit prag, lăsând sunetele mai silentioase neschimbate. O versiune extremă a compresiei în jos este limitator. Creșteți compresia(Comprimarea în sus), dimpotrivă, crește volumul sunetului dacă acesta este sub valoarea de prag, fără a afecta mai mult sunete puternice. În același timp, ambele tipuri de compresie îngustează intervalul dinamic al semnalului audio.

Downcompresie

Creșteți compresia

Expander și Poartă

Dacă un compresor reduce intervalul dinamic, un expandor îl mărește. Când nivelul semnalului crește peste nivelul pragului, expander-ul îl crește și mai mult, crescând astfel diferența dintre sunetele puternice și cele slabe. Dispozitive similare folosit adesea la înregistrarea unui set de tobe pentru a separa sunetele unei tobe de alta.

Un tip de expandator care nu este folosit pentru a amplifica sunetele puternice, ci pentru a le amortiza sunete liniştite, care nu depășește nivelul de prag (de exemplu, zgomot de fond) este apelat Poarta de zgomot. Într-un astfel de dispozitiv, de îndată ce nivelul sunetului devine mai mic decât pragul, semnalul încetează să mai treacă. De obicei, o poartă este folosită pentru a suprima zgomotul în timpul pauzelor. La unele modele, puteți face ca sunetul, când atinge un nivel de prag, să nu se oprească brusc, ci să se estompeze treptat. În acest caz, rata de dezintegrare este setată de controlul Decay.

Gate, ca și alte tipuri de compresoare, poate fi dependent de frecventa(adică tratați anumite benzi de frecvență diferit) și poate funcționa în lanț lateral(vezi mai jos).

Principiul de funcționare a compresorului

Semnalul care intră în compresor este împărțit în două copii. O copie este trimisă la un amplificator unde câștigul este controlat semnal extern, a doua copie - generează acest semnal. Acesta intră într-un dispozitiv numit side-chain, unde se măsoară semnalul și, pe baza acestor date, se creează un plic care descrie modificarea volumului acestuia.
Așa sunt proiectate majoritatea compresoarelor moderne, acesta este așa-numitul tip feed-forward. La dispozitivele mai vechi (tip feedback), nivelul semnalului este măsurat după amplificator.

Există diverse tehnologii analogice de amplificare cu câștig variabil, fiecare cu propriile sale avantaje și dezavantaje: tub, optică cu fotorezistoare și tranzistor. Când lucrezi cu sunet digital(într-un editor de sunet sau DAW) poate folosi propriii algoritmi matematici sau emula funcționarea tehnologiilor analogice.

Principalii parametri ai compresoarelor

Prag

Un compresor reduce nivelul unui semnal audio dacă amplitudinea acestuia depășește o anumită valoare de prag (prag). De obicei este specificat în decibeli, cu un prag mai mic (de ex. -60 dB) ceea ce înseamnă că va fi procesat mai mult audio decât un prag mai mare (de exemplu -5 dB).

raport

Valoarea reducerii nivelului este determinată de parametrul raport: raport 4:1 înseamnă că, dacă nivelul de intrare este cu 4 dB peste prag, nivelul de ieșire va fi cu 1 dB peste prag.
De exemplu:
Prag = −10 dB
Intrare = -6 dB (4 dB peste prag)
Ieșire = -9 dB (1 dB peste prag)

Este important să rețineți că suprimarea nivelului de semnal continuă o perioadă de timp după ce scade sub nivelul pragului, iar acest timp este determinat de valoarea parametrului eliberare.

Compresia cu un raport maxim de ∞:1 se numește limitare. Aceasta înseamnă că orice semnal peste nivelul pragului este atenuat la nivelul pragului (cu excepția unei perioade scurte după o creștere bruscă a volumului de intrare). Consultați „Limitator” de mai jos pentru mai multe detalii.

Exemple de diferite valori ale raportului

Atacare și eliberare

Un compresor oferă un anumit control asupra cât de repede răspunde la modificările dinamicii semnalului. Parametrul Attack determină timpul necesar compresorului pentru a reduce câștigul la un nivel determinat de parametrul Ratio. Release determină timpul în care compresorul, dimpotrivă, crește câștigul sau revine la normal dacă nivelul semnalului de intrare scade sub valoarea pragului.

Fazele de atac și eliberare

Acești parametri indică timpul (de obicei în milisecunde) necesar pentru a modifica câștigul cu o anumită cantitate de decibeli, de obicei 10 dB. De exemplu, în acest caz, dacă Attack este setat la 1 ms, va dura 1 ms pentru a reduce câștigul cu 10 dB și 2 ms pentru a reduce câștigul cu 20 dB.

Pe multe compresoare, parametrii Attack și Release pot fi ajustați, dar la unele sunt prestabiliți și nu pot fi ajustați. Uneori sunt desemnate ca „automate” sau „dependente de program”, adică. se modifică în funcție de semnalul de intrare.

Genunchi

Un alt parametru al compresorului: genunchi dur/moale. Acesta determină dacă începutul compresiei va fi brusc (dur) sau gradual (moale). Genunchiul moale reduce vizibilitatea tranziției de la semnalul uscat la semnalul comprimat, în special la valori mari ale raportului și creșteri bruște de volum.

Compresie genunchi dur și genunchi moale

Vârf și RMS

Compresorul poate răspunde la valori de vârf (maxim pe termen scurt) sau la nivelul mediu al semnalului de intrare. Utilizarea valorilor de vârf poate duce la fluctuații bruște ale gradului de compresie și chiar la distorsiuni. Prin urmare, compresoarele aplică o funcție medie (de obicei RMS) semnalului de intrare atunci când îl compară cu o valoare de prag. Acest lucru oferă o compresie mai confortabilă, mai aproape de percepția umană a zgomotului.

RMS este un parametru care reflectă volumul mediu al unei coloane sonore. Din punct de vedere matematic, RMS (Root Mean Square) este valoarea rădăcină pătrată medie a amplitudinii unui anumit număr de eșantioane:

Legătura stereo

Un compresor în modul de legătură stereo aplică același câștig la ambele canale stereo. Acest lucru evită schimbările stereo care pot rezulta din procesarea individuală a canalelor stânga și dreapta. Această deplasare are loc dacă, de exemplu, un element zgomotos este decentrat.

Câștig de machiaj

Deoarece compresorul reduce nivelul general al semnalului, de obicei adaugă o opțiune fixă ​​de câștig de ieșire pentru a atinge nivelul optim.

Privește înainte

Funcția de anticipare este concepută pentru a rezolva problemele asociate atât cu valori prea mari, cât și prea scăzute de atac și eliberare. Un timp de atac prea lung nu ne permite să interceptăm efectiv tranzitorii, iar un timp de atac prea scurt poate să nu fie confortabil pentru ascultător. Când utilizați funcția de anticipare, semnalul principal este întârziat în raport cu semnalul de control, acest lucru vă permite să începeți compresia în avans, chiar înainte ca semnalul să atingă valoarea de prag.
Singurul dezavantaj al acestei metode este întârzierea semnalului, care în unele cazuri este nedorită.

Utilizarea compresiei dinamice

Compresia este folosită peste tot, nu numai în coloanele sonore muzicale, ci și oriunde este necesară creșterea volumului general fără creșterea nivelurilor de vârf, acolo unde se utilizează echipamente ieftine de reproducere a sunetului sau un canal de transmisie limitat (sisteme de adresare și comunicații, radio amator etc.) .) .

Compresia este utilizată atunci când redați muzică de fundal (în magazine, restaurante etc.), unde orice modificări vizibile ale volumului sunt nedorite.

Dar cel mai important domeniu de aplicare a compresiei dinamice este producția și difuzarea muzicii. Compresia este folosită pentru a da sunetului „densitate” și „drive”, la cea mai buna combinatie instrumente între ele și mai ales atunci când procesează vocea.

Vocele din muzica rock și pop sunt adesea comprimate pentru a le face să iasă în evidență față de acompaniament și să adauge claritate. Un tip special de compresor reglat doar la anumite frecvențe - un de-esser - este folosit pentru a suprima fonemele sibilante.

În părțile instrumentale, compresia este utilizată și pentru efecte care nu sunt direct legate de volum, de exemplu, sunetele de tobe care se deteriorează rapid pot fi făcute mai durabile.

Muzica electronică de dans (EDM) utilizează adesea înlănțuirea laterală (vezi mai jos) - de exemplu, linia de bas poate fi condusă de o tobă de picior sau similar pentru a preveni ciocnirea basului și a tobelor și pentru a crea o pulsație dinamică.

Compresia este utilizată pe scară largă în difuzare (radio, televiziune, transmisie pe internet) pentru a crește volumul perceput, reducând în același timp intervalul dinamic al sursei audio (de obicei, CD). Majoritatea țărilor au restricții legale cu privire la volumul maxim instantaneu care poate fi difuzat. De obicei, aceste limitări sunt implementate de compresoare hardware permanente din lanțul de aer. În plus, creșterea volumului perceput îmbunătățește „calitatea” sunetului din perspectiva majorității ascultătorilor.

Vezi de asemenea Războiul zgomotului.

Creșterea constantă a volumului aceleiași piese remasterizate pentru CD din 1983 până în 2000.

Înlănțuire laterală

Un alt comutator al compresorului frecvent întâlnit este „lanțul lateral”. În acest mod, compresia sunetului are loc nu în funcție de propriul nivel, ci în funcție de nivelul semnalului care intră în conector, care este de obicei numit lanț lateral.

Există mai multe utilizări pentru aceasta. De exemplu, vocalistul are un cioc și toate „s”-urile ies în evidență din imaginea de ansamblu. Îi treci vocea printr-un compresor și introduci același sunet în conectorul lanțului lateral, dar a trecut printr-un egalizator. Cu un egalizator, tăiați toate frecvențele, cu excepția celor folosite de vocalist atunci când pronunțați litera „s”. De obicei, în jur de 5 kHz, dar poate varia de la 3 kHz la 8 kHz. Dacă apoi puneți compresorul în modul de lanț lateral, vocea va fi comprimată în acele momente în care se pronunță litera „s”. Acest lucru a dus la un dispozitiv cunoscut sub numele de de-esser. Acest mod de lucru se numește „dependent de frecvență”.

O altă utilizare a acestei funcții se numește „ducker”. De exemplu, la un post de radio, muzica trece printr-un compresor, iar cuvintele DJ-ului trec printr-un lanț lateral. Când DJ-ul începe să converseze, volumul muzicii scade automat. Acest efect poate fi folosit cu succes și în înregistrare, de exemplu, pentru a reduce volumul părților de la tastatură în timp ce cântați.

Limitarea zidului de cărămidă

Compresorul și limitatorul funcționează aproximativ la fel, putem spune că limitatorul este un compresor cu un raport mare (de la 10:1) și, de obicei, un timp de atac scăzut.

Există un concept de limitare a zidului de cărămidă - limitare cu un raport foarte mare (20:1 și mai sus) și un atac foarte rapid. În mod ideal, nu permite semnalului să depășească deloc nivelul pragului. Rezultatul va fi neplăcut pentru ureche, dar acest lucru va preveni deteriorarea echipamentelor de reproducere a sunetului sau excesul lățime de bandă canal. Mulți producători integrează limitatoare în dispozitivele lor tocmai în acest scop.

Clipper vs. Limitator, tăiere moale și tare

© 2014 site

Sau latitudinea fotografică materialul fotografic este raportul dintre valorile maxime și minime ale expunerii care pot fi surprinse corect în fotografie. Când se aplică fotografiei digitale, intervalul dinamic este de fapt echivalent cu raportul dintre valorile maxime și minime posibile ale semnalului electric util generat de fotosenzor în timpul expunerii.

Intervalul dinamic este măsurat în intervale de expunere (). Fiecare pas corespunde dublării cantității de lumină. Deci, de exemplu, dacă o anumită cameră are o gamă dinamică de 8 EV, aceasta înseamnă că valoarea maximă posibilă a semnalului util al matricei sale este legată de minimul ca 2 8: 1, ceea ce înseamnă că camera este capabil să captureze obiecte care diferă în luminozitate într-un cadru de cel mult 256 de ori. Mai precis, poate capta obiecte cu orice luminozitate, dar obiectele a căror luminozitate depășește valoarea maximă admisă vor apărea în imagine alb orbitor, iar obiectele a căror luminozitate este sub valoarea minimă vor apărea negru. Detaliile și textura vor fi vizibile numai pe acele obiecte a căror luminozitate se încadrează în intervalul dinamic al camerei.

Pentru a descrie relația dintre luminozitatea celor mai luminoase și a celor mai întunecate obiecte fotografiate, este adesea folosit termenul nu complet corect „gamă dinamică a scenei”. Ar fi mai corect să vorbim despre domeniul de luminozitate sau nivelul de contrast, deoarece intervalul dinamic este de obicei o caracteristică a dispozitivului de măsurare (în acest caz, matricea unei camere digitale).

Din păcate, gama de luminozitate a multor scene frumoase pe care le întâlnim în viața reală poate depăși semnificativ intervalul dinamic al unei camere digitale. În astfel de cazuri, fotograful este forțat să decidă care obiecte trebuie prelucrate în detaliu și care pot fi lăsate în afara intervalului dinamic, fără a compromite intenția creativă. Pentru a profita la maximum de intervalul dinamic al camerei dvs., este posibil să aveți nevoie uneori nu atât de o înțelegere aprofundată a modului în care funcționează fotosenzorul, cât mai degrabă de un simț artistic dezvoltat.

Factori care limitează intervalul dinamic

Limita inferioară a intervalului dinamic este stabilită de nivelul de autozgomot al fotosenzorului. Chiar și o matrice neluminată generează un semnal electric de fundal numit zgomot întunecat. Interferența apar și atunci când sarcina este transferată la un convertor analog-digital, iar ADC-ul însuși introduce o anumită eroare în semnalul digitalizat - așa-numita. zgomot de eșantionare.

Dacă faceți o fotografie în întuneric complet sau cu capacul lentilei pus, camera va înregistra doar acest zgomot fără sens. Dacă o cantitate minimă de lumină este lăsată să ajungă la senzor, fotodiodele vor începe să se acumuleze sarcina electrica. Mărimea sarcinii și, prin urmare, intensitatea semnalului util, va fi proporțională cu numărul de fotoni capturați. Pentru ca orice detalii semnificative să apară în imagine, este necesar ca nivelul semnalului util să depășească nivelul zgomotului de fundal.

Astfel, limita inferioară a intervalului dinamic sau, cu alte cuvinte, pragul de sensibilitate al senzorului poate fi definit formal ca nivelul semnalului de ieșire la care raportul semnal-zgomot este mai mare decât unitatea.

Limita superioară a intervalului dinamic este determinată de capacitatea unei fotodiode individuale. Dacă în timpul expunerii orice fotodiodă acumulează o sarcină electrică de valoarea sa maximă, atunci pixelul imaginii corespunzător fotodiodei supraîncărcate va deveni complet alb, iar iradierea ulterioară nu va afecta în niciun fel luminozitatea acestuia. Acest fenomen se numește tăiere. Cu cât este mai mare capacitatea de suprasarcină a unei fotodiode, cu atât este mai mare semnalul de ieșire pe care îl poate produce înainte de a ajunge la saturație.

Pentru o mai mare claritate, să ne întoarcem la curba caracteristică, care este un grafic al semnalului de ieșire în funcție de expunere. Axa orizontală reprezintă logaritmul binar al radiației primite de senzor, iar axa verticală reprezintă logaritmul binar al mărimii semnalului electric generat de senzor ca răspuns la această radiație. Desenul meu este în mare parte convențional și servește pur scop ilustrativ. Curba caracteristică a unui fotosenzor real are o formă ceva mai complexă, iar nivelul de zgomot este rareori atât de ridicat.

Graficul arată clar două puncte de cotitură critice: în primul dintre ele, nivelul semnalului util traversează pragul de zgomot, iar în al doilea, fotodiodele ajung la saturație. Valorile de expunere care se află între aceste două puncte alcătuiesc intervalul dinamic. În acest exemplu abstract, este egal, așa cum este ușor de văzut, cu 5 EV, i.e. Aparatul foto poate gestiona cinci dublări ale expunerii, ceea ce este echivalent cu o diferență de 32 de ori (2 5 = 32) de luminozitate.

Zonele de expunere care alcătuiesc intervalul dinamic sunt inegale. Zonele superioare au un raport semnal-zgomot mai mare și, prin urmare, par mai curate și mai detaliate decât cele inferioare. Drept urmare, limita superioară a intervalului dinamic este foarte semnificativă și vizibilă - clippingul întrerupe lumina la cea mai mică supraexpunere, în timp ce limita inferioară este înecată în zgomot în mod discret, iar tranziția la negru nu este nici pe departe la fel de ascuțită ca la alb.

Dependența liniară a semnalului de expunere, precum și creșterea bruscă la un platou, sunt caracteristici unice ale procesului fotografic digital. Pentru comparație, aruncați o privire la curba caracteristică a filmului fotografic tradițional.

Forma curbei și în special unghiul de înclinare depind puternic de tipul de film și de procedura de dezvoltare a acestuia, dar diferența principală, izbitoare dintre graficul filmului și cel digital rămâne neschimbată - natura neliniară a dependenței de densitatea optică a filmului asupra valorii expunerii.

Limita inferioară a latitudinii fotografice a filmului negativ este determinată de densitatea vălului, iar limita superioară este determinată de densitatea optică maximă realizabilă a stratului fotografic; pentru filmele reversibile este invers. Atât în ​​umbre, cât și în lumini, se observă curbe netede în curba caracteristică, indicând o scădere a contrastului la apropierea limitelor intervalului dinamic, deoarece panta curbei este proporțională cu contrastul imaginii. Astfel, zonele de expunere situate în partea de mijloc a graficului au contrast maxim, în timp ce în lumini și umbre contrastul este redus. În practică, diferența dintre film și o matrice digitală este vizibilă în special în evidențieri: în cazul în care într-o imagine digitală, evidențierile sunt arse prin tăiere, pe film detaliile sunt încă vizibile, deși cu contrast scăzut, și trecerea la albul pur arată neted și natural.

În sensitometrie se folosesc chiar și doi termeni independenți: de fapt latitudinea fotografică, limitat de o porțiune relativ liniară a curbei caracteristice și latitudine fotografică utilă, care, pe lângă secțiunea liniară, include și baza și umărul diagramei.

Este de remarcat faptul că atunci când se prelucrează fotografii digitale, de regulă, li se aplică o curbă în formă de S mai mult sau mai puțin pronunțată, crescând contrastul în tonuri medii cu prețul reducerii acestuia în umbre și lumini, ceea ce conferă imaginii digitale un aspect mai mare. aspect natural și plăcut ochiului.

Adâncime de biți

Spre deosebire de matricea unei camere digitale, viziunea umană este caracterizată de, să spunem, o viziune logaritmică a lumii. Dublările succesive ale cantității de lumină sunt percepute de noi ca modificări egale ale luminozității. Numerele luminoase pot fi chiar comparate cu octavele muzicale, deoarece modificările duble ale frecvenței sunetului sunt percepute de ureche ca un singur interval muzical. Alte simțuri funcționează pe acest principiu. Neliniaritatea percepției extinde foarte mult gama de sensibilitate umană la stimuli de intensitate diferită.

Când convertiți un fișier RAW (nu contează - folosind camera sau într-un convertor RAW) care conține date liniare, așa-numitele. curba gamma, care este concepută pentru a crește neliniar luminozitatea unei imagini digitale, aducând-o în conformitate cu caracteristicile vederii umane.

Cu conversia liniară, imaginea este prea întunecată.

După corecția gama, luminozitatea revine la normal.

Curba gamma întinde tonurile întunecate și le comprimă pe cele deschise, făcând distribuția gradațiilor mai uniformă. Rezultatul este o imagine cu aspect natural, dar zgomotul și artefactele de eșantionare din umbră devin inevitabil mai vizibile, ceea ce este doar exacerbat de numărul mic de niveluri de luminozitate din zonele inferioare.

Distribuția liniară a gradațiilor de luminozitate.
Distribuție uniformă după aplicarea curbei gamma.

ISO și interval dinamic

În ciuda faptului că fotografia digitală folosește același concept de fotosensibilitate a materialului fotografic ca și în fotografia de film, trebuie înțeles că acest lucru se întâmplă numai datorită tradiției, deoarece abordările privind schimbarea fotosensibilității în fotografia digitală și filmul sunt fundamental diferite.

Creșterea sensibilității ISO în fotografia tradițională înseamnă înlocuirea unui film cu altul cu granulație mai grosieră, de exemplu. Există o schimbare obiectivă a proprietăților materialului fotografic în sine. Într-o cameră digitală, sensibilitatea la lumină a senzorului este codificată. caracteristici fiziceși nu poate fi schimbat în sensul literal. Când crește ISO, camera nu modifică sensibilitatea reală a senzorului, ci doar amplifică semnalul electric generat de senzor ca răspuns la iradiere și ajustează algoritmul de digitizare pentru acest semnal în consecință.

O consecință importantă a acestui fapt este că intervalul dinamic efectiv scade proporțional cu creșterea ISO, deoarece odată cu semnalul util crește și zgomotul. Dacă la ISO 100 întreaga gamă de valori ale semnalului este digitalizată - de la zero până la punctul de saturație, atunci la ISO 200 este luată ca maximă doar jumătate din capacitatea fotodiodelor. La fiecare dublare a sensibilității ISO, treapta superioară a intervalului dinamic este tăiată, iar treptele rămași sunt trase la locul său. Acesta este motivul pentru care utilizarea valorilor ISO foarte ridicate nu are sens practic. Cu același succes, puteți lumina fotografia într-un convertor RAW și puteți obține un nivel de zgomot comparabil. Diferența dintre creșterea ISO și luminozitatea artificială a imaginii este că la creșterea ISO, semnalul este amplificat înainte de a intra în ADC, ceea ce înseamnă că zgomotul de cuantizare nu este amplificat, spre deosebire de zgomotul propriu al senzorului, în timp ce într-un convertor RAW este supuse amplificării, inclusiv erori ADC. În plus, reducerea intervalului de eșantionare înseamnă o eșantionare mai precisă a valorilor rămase ale semnalului de intrare.

Apropo, scăderea ISO sub valoarea de bază (de exemplu, la ISO 50), disponibilă pe unele dispozitive, nu extinde deloc intervalul dinamic, ci pur și simplu atenuează semnalul la jumătate, ceea ce echivalează cu întunecarea imaginii în convertorul RAW. Această funcție poate fi considerată chiar dăunătoare, deoarece utilizarea unei valori ISO subminimale provoacă camera să mărească expunerea, ceea ce, în timp ce pragul de saturație al senzorului rămâne neschimbat, crește riscul de tăiere în zonele evidențiate.

Interval dinamic adevărat

Există o serie de programe precum (DxO Analyzer, Imatest, RawDigger etc.) care vă permit să măsurați intervalul dinamic al unei camere digitale acasă. În principiu, acest lucru nu este foarte necesar, deoarece datele pentru majoritatea camerelor pot fi găsite gratuit pe Internet, de exemplu, pe site-ul web DxOMark.com.

Ar trebui să credem rezultatele unor astfel de teste? Destul. Cu singura avertizare că toate aceste teste determină intervalul dinamic efectiv sau, ca să spunem așa, tehnic, i.e. relația dintre nivelul de saturație și nivelul de zgomot al matricei. Pentru un fotograf, cel mai important lucru este intervalul dinamic util, adică. numărul de zone de expunere care vă permit cu adevărat să captați câteva informații utile.

După cum vă amintiți, pragul intervalului dinamic este stabilit de nivelul de zgomot al fotosenzorului. Problema este că, în practică, zonele inferioare, care sunt deja incluse din punct de vedere tehnic în intervalul dinamic, conțin încă prea mult zgomot pentru a fi utilizate în mod util. Aici depind foarte mult de dezgustul individual - fiecare determină singur nivelul de zgomot acceptabil.

Părerea mea subiectivă este că detaliile din umbră încep să arate mai mult sau mai puțin decente atunci când raportul semnal-zgomot este de cel puțin opt. Pe această bază, definesc intervalul dinamic util ca interval dinamic tehnic minus aproximativ trei opriri.

De exemplu, dacă o cameră DSLR, conform testelor de încredere, are o gamă dinamică de 13 EV, ceea ce este foarte bun pentru standardele actuale, atunci intervalul său dinamic util va fi de aproximativ 10 EV, ceea ce, în general, este și destul de bun. Desigur, vorbim de fotografiere în RAW, cu ISO minim și adâncime maximă de biți. Când fotografiați JPEG, intervalul dinamic depinde în mare măsură de setările de contrast, dar în medie ar trebui să renunțați la încă două sau trei opriri.

Pentru comparație: filmele de inversare a culorilor au o latitudine fotografică utilă de 5-6 opriri; filmele negative alb-negru dau 9-10 opriri la proceduri standard manifestare și imprimare, și cu anumite manipulări - până la 16-18 pași.

Pentru a rezuma cele de mai sus, să încercăm să formulăm câteva reguli simple, care vă va ajuta să obțineți performanță maximă din senzorul camerei dvs.:

  • Gama dinamică a unei camere digitale este pe deplin accesibilă numai când fotografiați în RAW.
  • Intervalul dinamic scade pe măsură ce sensibilitatea la lumină crește, așa că evitați setările ISO ridicate, dacă nu este absolut necesar.
  • Folosirea unei adâncimi de biți mai mari pentru fișierele RAW nu crește intervalul dinamic real, dar îmbunătățește separarea tonală în umbre datorită nivelurilor mai mari de luminozitate.
  • Expunerea la dreapta. Zonele superioare de expunere conțin întotdeauna maximul informatii utile cu un minim de zgomot și ar trebui să fie utilizat cel mai eficient. În același timp, nu uitați de pericolul tăierii - pixelii care au ajuns la saturație sunt absolut inutili.

Și cel mai important: nu vă faceți griji prea mult cu privire la intervalul dinamic al camerei dvs. Gama sa dinamică este bună. Abilitatea ta de a vedea lumina și de a gestiona corect expunerea este mult mai importantă. Un fotograf bun nu se va plânge de lipsa latitudinii fotografice, ci va încerca să aștepte o iluminare mai confortabilă, sau să schimbe unghiul sau să folosească blițul, într-un cuvânt, va acționa în conformitate cu circumstanțele. Vă spun mai multe: unele scene beneficiază doar de faptul că nu se încadrează în intervalul dinamic al camerei. Adesea, o abundență inutilă de detalii trebuie pur și simplu ascunsă într-o siluetă neagră semi-abstractă, ceea ce face fotografia atât mai laconică, cât și mai bogată.

Contrastul ridicat nu este întotdeauna un lucru rău – trebuie doar să știi cum să lucrezi cu el. Învață să exploatezi neajunsurile echipamentului, precum și avantajele acestuia și vei fi surprins cât de mult se vor extinde posibilitățile tale creative.

Vă mulțumim pentru atenție!

Vasily A.

Post scriptum

Dacă articolul ați găsit util și informativ, vă rugăm să susțineți proiectul contribuind la dezvoltarea lui. Dacă nu ți-a plăcut articolul, dar ai gânduri despre cum să-l îmbunătățești, critica ta va fi acceptată cu nu mai puțină recunoștință.

Vă rugăm să rețineți că acest articol este supus dreptului de autor. Retipărirea și citarea sunt permise cu condiția să existe un link valid către sursă, iar textul folosit nu trebuie să fie distorsionat sau modificat în niciun fel.