Szczegółowa NORMALIZACJA dzwieku

2006-05-21 22:11:30 UTC

Post by jh
Potrzebujesz kompresora, czyli narzędzia, które zmniejszy dynamikę. Samo
audio możesz obrobić w darmowym Audacity (polski).

opisz to dokładniej np krok po kroku. Ponieważ jest to dość często
spotykany
problem, na pewno wielu z nas będzie zainteresowanych. Przydałoby się też
opisać usuwanie (zmniejszanie) pogłosu, echa w plenerze i pomieszczeniach

http://audacity.sourceforge.net/

Nie będę się wymądrzał o pro-audio, bo tego pełno w sieci :) No i ci od
pro-audio niech się słówek nie czepiają, bo ma być prosto. Krótko:

Kompresor wbrew niektórym potocznym sformułowaniom nie zwiększa, a zmniejsza
dynamikę. A dynamika, to nie potoczny 'kop" nagrania, a z grubsza róznica
między tym, co najcichsze a tym, co najgłośniejsze w materiale. Im większa
dynamika to z jednej strony lepiej. Ale dla strony nagrywającej - czyli dla
urządzenia. Bo to oznacza, że poradzi sobie bez szumów czy zniekształceń
przy odpowiednio niskich i wysokich poziomach dźwięku. Jestem totalnym
lamerem w wideo, ale z tego co widzę, to większość amatorskich kamer nagrywa
dźwięk 12 lub 16 bitowy. W teorii 16 bitów to 96 dB dynamiki, a 12 bitów to
około 72 dB. W teorii, ponieważ w praktyce nie istnieją układy, które nie
będą wprowadzać zniekształceń, szumu toru audio, szumu urządzenia itd. W
praktyce sprowadza się to dużo zaniżonych osiągów w stosunku do
teoretycznych i im niższej klasy urządzenie, tym gorzej - co raczej nie
dziwi. No i odliczając te "straty", dźwięk 12 bitowy to w praktyce mniej
więcej 8-9 bitów. A to daje dynamikę na poziomie nie większym niż 50-kilka
dB. Czyli mniej więcej tyle, ile średniej klasy kaseciaki z lat 80. Przy
dźwięku 16 bitowym tych "użytecznych" bitów będzie odpowiednio mnie - w
granicach 70-kilku dB. W lepszym sprzęcie pewnie nie przekroczy 80-kilku.
Stąd w wielu urządzeniach wbudowane są automaty (Auto Gain Control: AGC lub
podobnie nazwane), które mają za zadanie co nieco przygotować materiał audio
przed zapisem tak, żeby na tych 12 bitach było cokolwiek słychać. Owa
dynamika ma się tak: chcemy nagrać delikatne bzyczenie komara w rogu
pomieszczenia, a jednocześnie głośne szczekanie pieska obok kamery. No i ta
rozpiętość może okazać się zbyt duża dla urządzenia nagrywającego - weszłyby
niemiłosierne szumy albo dźwięk byłby totalnie zniekształcony przez owego
szczekacza, bo ta rozpiętość może wynieść np. 70 dB. No i wtedy z pomocą
przychodzi wspomniane AGC, czyli coś, co sugerowałem w poprzednim poście -
kompresja. AGC musi zmniejszyć tę różnicę na tyle, żeby "zmieściła" się we
wspomnianych 12 bitach. Jeżeli teraz mamy nagranie audio, w którym nadal
jest duża dynamika, co skutkuje tym, że chwilami niewiele słychać, żeby za
chwilę trzebabyło ściszyć TV, to trzeba zatrudnić program, który odpowiednio
zredukuje tę dynamikę. Technicznie wygląda to tak, że algorytm przyciszy
wszystko, co przekroczy pewien, dopuszczalny poziom. Ale cichszych dźwięków
od danego poziomu nie ruszy. Owe przyciszanie nie polega na zmniejszeniu
poziomu o zadaną wartość, a odbywa się proprocjonalnie - w zależności od
różnicy od tego dopuszczalnego poziomu. Inaczej: poziom dźwięku przekracza
zadany poziom i jego bieżącą wartość minus ten poziom są proporcjalnie
zmniejszane. Finał jest taki, że to co było cicho zostaje cicho, to co było
bardzo głośno - jest "tylko" głośno, zatem można "podjechać' z całą
głośnością w górę bez obawy zniekształcenia dźwięku - bo te najgłośniejsze
punkty zostały wyciszone. Oczywiście, żeby wszystko działało w miarę płynnie
należy algorytmowi dać co nieco czasu na "zareagowanie" na przekroczenie
poziomu głośności i na "niereagowanie" po spadku poziomu. Technicznie różne
"wtyczki" (plugins) czy programy posługują się przyjętymi angielskimi
określeniami na wymienione parametr: Treshold - to ten magiczny punkt,
powyżej którego dźwięk będzie kompresowany, przy czym to najgłośniej to zero
(0dBFS), a najciszej zależne od rozdzielczości bitowej (dla 16 bitów
to -96dB), czas po którym kompresor zacznie zmieniać poziom sygnały po
przekroczeniu Treshold to Attack, w jakiej proporcji dźwięk będzie
przyciszany to Ratio, powrót kompresora po spadku sygnału poniżej progu
Treshold to Release (czasem okreslany Decay); no i o ile całą głośność można
podnieść do góry po procesie kompresji - żeby skompensować zmniejszenie
dynamiki, a zarazem podnieść głośność nagrania to Make-Up Gain (czasem po
prostu Gain lub Output level). Nie ma reguły, jak należy ustawić kompresor -
zależy od materiału. Niezbędny jest jakikolwiek miernik sygnału - najlepiej
w programu, którym robi się kompresję, żeby uniknąć niezgodności w
oznaczeniach/skali miernika. Te komputerowe są raczej
skonstruowane/narysowane podobnie, więc do nich się odniosę. Proponuję tak:
odtwarzam nagranie przyglądając się wskazaniom miernika i notuję średnią
wartość poziomu - czyli taką, jaka najczęściej pojawiała się w nagraniu.
Treshold ustawiam nieco powyżej tego poziomu (3-4 dB), Attack - jeżeli jest
tylko słowo to w miarę najkrócej - 2-5ms, dla złożonego materiału nieco
dłużej, Ratio - dla słowa w okolicach 2.5:1, Release na około 70-80ms dla
słowa i ok. 130 lub więcej dla złożonych materiałów; Make-Up gain na
wartości wynikającą z Treshold i Ratio. Np. jeżeli treshold mam -20dB a
Ratio 2:1, to w teorii oznacza to, że jeżeli pojawiłby się dźwięk o poziomie
0dB (max) to kompresor przyciszyłby go zgodnie z Ratio do -10dB (różnica:
0dB-20dB dzielone przez dwa), ale oczywiście zależne jest to od tego, jak
szybko kompresor zareaguje (Attack), więc ów gain bezpieczniej jest ustawić
niżej, na np. 7 dB. Trzeba przesłuchać nagranie z tym kompresorem i
sprawdzić, czy sygnał nie jest clippowany - czyli nie chce przekroczyć
0dBFS, bo wtedy powstają trzaski, które są praktycznie nie do usunięcia.

W Audacity trzeba wczytać dźwięk i - jeżeli kompresja ma być dla całości -
zaznaczyć wszystko (tradycyjnie Crl-A), z menu efekty wybrać Kompresor i
poeksperymentować, czyli pokręcić gałkami, a raczej suwakami tak, jak
napisałem wyżej. "Normalize to 0dB after compressing) oznacza, że zamiast
gałki Make-Up Gain mamy automat, który sam "wyciągnie" nagranie z głośnością
do zera (max).

Minusy kompresora: cała operacja zwiększa głośność, "przybliżając" nie tylko
użyteczny dźwięk niskich fragmentów, ale również szumy. Można się zdziwić,
ile brudu rejestruje kamera. Do delikatnego schowania szumów stosuje się
ekspander - czyli odwrotnosć kompresora. Ekspander poniżej zadanego progu
zmniejsza poziom (ale nie wycisza zupełnie - to robi bramka szumów), więc
użycie ekspandera przed kompresorem pozwoli najpierw nieco pozbyć się
szumów, a potem podnieść w górę użyteczny sygnał. Pewnym odpowiednikiem tej
operacji w Audacity jest efekt o nazwie Leveller - wystarczy wskazać, jak ma
kompresować i gdzie są szumy (ponizej jakiego poziomu). Dla "zaawansowanych"
jest efekt o nazwie SC4 :)

Stuki, puki, silnik itd. można nieco wyeliminować odcinając niskie
częstotliwości. W menu efekty jest pozycja Filtr FT i korekcja graficzna. Tu
już na ucho - można nieco zdjąć "dołu", czyli wszystkiego poniżej 100-110
Herzów, a nieco uwypuklić "środek" - czyli okolice 2-4 kHz, żeby uzyskać
większą wyrazistość mowy. Jeżeli to muzyka to raczej nie bardzo, ale dla
słowa poniżej tej częstotliwości jest więcej brudów niż użytecznego sygnału.
Można spróbować efektem o nazwie High Pass Filter, który odetnie tylko dół.

Usuwanie pogłosu to nie taka prosta sprawa. Do tego istnieją specjalistyczne
narzędzia kosztujące majątek. Poza tym to temat na pracę naukową ;) Polecam
odciąć dół, jak napisałem wyżej, użyć ekspandera i kompresora. Może pomóc o
tyle, że w przerwach między słowami pogłos co nieco się schowa.

Uff... A miało być krótko :) Mam nadzieję, że wkupię się co nieco grupie i
doradzicie mi z kamerą :D

Pozdrawiam,
Jacek

P.S. Sorry za literówki i "polszczyznę", ale nie mam siły czytać tego :D