Praca z dźwiękiem w filmie - absolutne minimum
Długo nie wiedziałem, jak zabrać się za wytłumaczenie różnych "dźwiękowych" pojęć w taki sposób, aby osoby nieznające się na muzyce i obróbce dźwięku mogły zrozumieć podstawy oraz sposób działania niektórych narzędzi.
Oczywiście najłatwiej wytłumaczyć takie zagadnienia siedząc z osobą, której się to tłumaczy, prezentując różne testy na głośnikach. Można pokazać, co na co i jak wpływa, od czego zależy, gdzie doszukiwać się różnic. Przekazanie tego w prostym tekście wydawało mi się niemożliwe, wymyśliłem jednak na to sposób. Może nie idealny, ale za to – jak sądzę dość dobry i prosty. Postanowiłem porównać pracę z dźwiękiem, do pracy z obrazem. Myślę, że to będzie na tyle zrozumiałe, że mimo dużych uproszczeń pomoże wielu osobom i pozwoli rozpocząć przygodę z obróbką dźwięku.
Czym jest dźwięk?
Dźwięk, to wrażenie słuchowe jakie odczuwamy, gdy dociera do nas fala akustyczna. Fala to zaburzenie ciśnienia i gęstości powietrza (możemy to przyrównać fali od kamienia wrzuconego do jeziora). Nasze zmysły odbierają te pędzące, rozedrgane cząstki jako dźwięk.
Dźwięk może mieć różne natężenie. W tym momencie możemy zrobić pierwsze porównanie. Natężenie dla dźwięku jest tym, czym luminacja (jasność) dla obrazu. Mikrofon ma określoną czułość na dźwięk, dokładnie tak samo, jak taśma (przetwornik) na jasność. Tak, jak podczas nagrywania wideo, przy zbyt jasnej ekspozycji, pewne obszary przepalone nie będą możliwe do odtworzenia, tak przy audio zbyt duża czułość spowoduje błędy praktycznie nie do naprawy lub w - najlepszym wypadku - do ogromnej utraty jakości.
Na szczęście podobnie jak parametry naświetlania, można regulować parametry nagrywania audio. W przypadku dźwięku, ustawiamy czułość wejścia/mikrofonu (ang. input gain) w taki sposób, aby w najgłośniejszych momentach wskaźnik wysterowania nie wykrył wartości granicznej (0dB). Zapamiętaj - pilnuj, by wskaźnik ZAWSZE był poniżej zera! Wszystko, co wykroczy ponad zero decybeli, będzie przesterowane, niemożliwe do odzyskania bez straty na jakości.
Jest tutaj jedna dość istotna różnica. "Przepalenia" w filmie czasami mogą pozostać zupełnie niezauważone, nie wpływając znacząco na odbiór filmu. Przy dźwięku, przesterowanie powoduje trzask lub charczenie głośników, co niestety nie nadaje się do słuchania (oczywiście z wyjątkiem zamierzonych przesterów – np. rockowa gitara – distortion/overdrive/fuzz).
Jak to wygląda w większości filmików?
Przyjmijmy, że w naszym filmie mamy: głos z kamery (naturalne tło), narracje (dźwięk zza kadru, tak zwany "off") oraz podkład muzyczny.
Problem zazwyczaj polega na tym, że:
- muzyka jest za głośna i zagłusza całość – już po chwili oglądanie takiego filmu staje się męczące;
- nie słychać głosu narratora, mimo, że jest ustawiony dość głośno;
- głos z kamery psuje całokształt, ale jako że jest dość istotny, nie możemy go wyciszyć.
Zacznijmy od narracji
Do nagrania narracji dobrze jest użyć mikrofon pojemnościowy. Ma dużą dynamikę (czyli porównując do obrazu - może zarejestrować dużą ilość odcieni koloru) oraz czułość.
Jeśli poziom dźwięku jest niski -załóżmy, że wskaźnik wysterowania nie osiąga większej wartości jak -5dB (czyt. "minus pięć decybeli) pierwszą rzeczą, jaką robimy jest normalizacja, która ma za zadanie zwiększenie głośności całej ścieżki do momentu, kiedy najgłośniejszy fragment uzyska poziom maksymalny 0dB – czyli na granicy przesteru. Normalizacja działa analogicznie, jak autogain w przypadku korekcji obrazu.
Zazwyczaj jednak to nie wystarczy, ponieważ normalizacja działa liniowo – czyli na zasadzie proporcji. Jeśli najgłośniejszy fragment osiąga przykładowo połowę skali, wszystko zostanie pogłośnione razy dwa – czyli tak, aby najgłośniejszy fragment osiągnął maksimum na skali – 0dB).
ETAP 1
Dobrze jest na wstępie zastosować equalizer. Mikrofon nagrywa w swoim pełnym paśmie, a głos ludzki ma dużo mniejszy przedział. Spójrzmy na poniższy wykres.
Głos ludzki mieści się w paśmie: 100Hz÷8kHz, dla zwykłej mowy nawet można przyjąć 500Hz÷2kHz (czerwony przedział na wykresie).
Początkowo usuniemy trochę basów (niskie tony – niskie pasmo), które zazwyczaj niosą za sobą różne dudnienia itd. (lewa zielona strona na wykresie). W zasadzie głos niewiele straci, jak obetniemy pasmo poniżej 80-100Hz (orientacyjnie). Jednak trzeba znaleźć odpowiedni przedział, indywidualnie dla każdego głosu.
Sprawdźmy teraz, czy nagranie nie posiada zbyt dużo szumów. Znajdują się w górnym paśmie – więc możemy je również usunąć obcinając "górę" (wysokie tony – wysokie częstotliwości, prawa zielona strona na wykresie). Oczywiście też dobieramy odpowiedni parametr na słuch, najlepiej wybierając taką granicę, gdzie szumy przestają być drażniące, ale głos jeszcze nie traci na jakości (na barwie).
Aby przebić się przez podkłady muzyczne, które są zmasterowane pod radio, trzeba będzie się jeszcze pobawić.
ETAP 2
Trzeba spłaszczyć dynamikę (zmniejszyć różnice, między głośnymi oraz cichymi fragmentami). Do tego celu używamy kompresor (ang. compressor), który kompresuje (zacieśnia) różnice dynamiczne, w ustalonym zakresie, czyli ma za zadanie zbliżyć do siebie głośnościowo fragmenty ciche oraz głośne – tak, aby różnica między nimi była mniejsza. Musimy zatem ustawić stopień wzmocnienia (aby cichy fragment wzmocnić), oraz granicę działania (aby elementy głośniejsze nie były dodatkowo wzmacniane – przez co nie przesterowywały się…).
Istnieją różne kompresory. Prostsze (gdzie tylko mamy te dwa parametry), bardziej skomplikowane, – w których możemy kontrolować wykres przebiegu charakterystyki działania. Najlepszy kompresor to taki, gdy później nie będzie później słychać, że był zastosowany (nie słychać momentu przełączania).
Generalnie kompresor moglibyśmy porównać do zmiany parametru gamma przy filmach, lub użycia krzywych koloru (ang. Color Curves) dla wszystkich kolorów.
Po wszystkich tych operacjach głos może brzmieć "sucho", sterylnie. Można w takim wypadku nałożyć delikatny pogłos (reverb). Należy jednak z nim uważać, aby nie uzyskać efektu „lektora w studni”. Najlepiej dodawać do momentu, aż zacznie być wyraźnie słyszalny. Reverb w naszym przypadku ma za zadanie tylko podkolorować głos, nadać mu głębi a nie stworzyć pogłos z auli czy katedry.
Podkład muzyczny.
ETAP 3.
Używając zwykłego utworu muzycznego, przede wszystkim należy go ściszyć. Utwory produkowane do radia, lub na płytę CD przechodzą przez proces masteringu. Po tym zabiegu dynamika jest zwykle bardzo spłaszczona, prawie „jakby przejechał po niej walec”. Pracuje się nad tym godzinami, aby w efekcie otrzymać dobrze brzmiący, oraz możliwy do usłyszenia niemal w każdych warunkach (samochód, komórka, tanie radyjko, wieża stereo) każdy drobny element utworu. Szepty i dzwoneczki są słyszalne na tle dynamicznej perkusji i ostrych gitar.
Dobry mastering można by porównać do HDR (wszystko jest ładnie kontrastujące, bez względu, czy mówimy o cieniach, czy o jasnościach – każdy fragment jest wyraźny).
Ważne jest, aby ściszać fragmenty, gdzie mamy narrację lektora, lub tekst mówiony na filmie z kamery. Tylko w ten sposób głos będzie słyszalny. Ściszenia podkładu najlepiej jak nie będą zbyt gwałtowne – aby nie zwracały na siebie uwagi. Taki zabieg to tzw. "audio duck for voice overs".
Dźwięk z kamery
Zabieg podobny do tego, co robiliśmy z narracją – w końcu to też jest surowy dźwięk prosto z mikrofonu, bez żadnej (prawie żadnej) kompresji (zapis do MP3, lub AC3 jest kompresją, więc dynamika będzie wstępnie utracona stratnie przy takim zapisie).
Mając już wszystko razem, wystarczy jeszcze dobrać odpowiednie proporcje.
Ważne jest, aby nie zatracić dynamiki. Nie zawsze GŁOŚNO będzie znaczyło DOBRZE. Czasami lepiej ustawić trochę ciszej tworząc nastrój i w pewnym momencie mieć z czego podgłośnić, zwiększając dynamikę filmu, niż walnąć od samego początku… i nie mieć z czego wyciągnąć.
Ludzkie ucho się męczy przy dużym natężeniu dźwięku, przez co przestaje odbierać różnice (odruch obronny naszego organizmu). Może właśnie dlatego trailery filmowe, bardzo krótkie ze swojej natury tak epatują dźwiękiem, a w filmach jest zupełnie inaczej.
Podsumowanie
W sumie powinienem zacząć od tego, że bez dobrego odsłuchu lepiej nie grzebać w dźwięku. To tak, jakby przeprowadzać korekcję kolorystyczną na tanim, nieskalibrowanym monitorze.
W zabawie z dźwiękiem automatycznie działa jedynie normalizacja. Wszystko pozostałe wymaga odsłuchu na tyle wiarygodnego i uniwersalnego, aby realnie oddawał to, co robimy. Nie mówię, że od razu trzeba kupić specjalistyczne głośniki, tzw. studyjne monitory odsłuchowe, za kilka tysięcy, choć tak by było pewnie najłatwiej (a pamiętajmy, że samo pomieszczenie też powinno być dostosowane do pracy z dźwiękiem).
Z drugiej zaś strony sam sprzęt nie zagwarantuje nam sukcesu, jak zresztą we wszystkim. Bywa tak, że jedna osoba na gorszym sprzęcie uzyska o niebo lepsze efekty od drugiej – z dużo lepszym sprzętem.
Jaka jest recepta? Dobre ucho, ciągłe pogłębianie wiedzy no i oczywiście praktyka. Po latach pracy na jakimś sprzęcie, jesteśmy do niego przyzwyczajeni, znamy też jego "zwyczaje". Pomimo wielu mankamentów, jakich ten sprzęt posiada, wiemy, jak uzyskać najlepszy efekt.
Problem zaczyna się w momencie, gdy nasz sprzęt faktycznie nie gra jak należy. Każde urządzenie ma swoją charakterystykę. Pewnych częstotliwości nie gra (tzn. gra, ale stosunkowo cicho – przez co zanikają), a pewne przebija, powodując dodatkowo dudnienie (taka już wada głośników). Monitory odsłuchowe są konstruowane w taki sposób, aby ich charakterystyka była możliwie najbliższa ideałowi.
Duży wpływ ma również pomieszczenie oraz to, co się w nim znajduje. Tkaniny/materiały/dywany będą wytłumiały dźwięk – przez co będzie tracił wysokie tony. Puste przestrzenie oraz twarde materiały znowu spowodują powstanie pogłosu, a nawet echa. Jeżeli poważnie myślimy nad profesjonalną edycją audio, przygotowanie pomieszczenia może okazać się większym wyzwaniem, niż zakup sprzętu i oprogramowania. Cóż więc robić?
Najtańszym i chyba w miarę dobrym monitorem odsłuchowym mogą być słuchawki dobrej klasy. Nie są pozbawione jednak wad. Największą jest to, że ucho jest zamknięte i się poci – przez co dodatkowo męczy. Można temu częściowo zaradzić, stosują tzw. słuchawki otwarte.
Kolejną jest to, że słuch poddawany ciągłej fali dźwiękowej również się męczy, więc słuchając zbyt głośno po pół godzinie nie będziemy już w stanie rzetelnie oceniać dźwięku. Przy ustawionej niskiej głośności dla odmiany możemy nie usłyszeć wielu rzeczy. Mogą nam przeszkadzać dźwięki z zewnątrz – więc znowu lepsze słuchawki tłumiące dźwięk z zewnątrz – ale tutaj znów problem z oddychaniem ucha… koło się zamyka ;)
Na koniec: – nie ma idealnej recepty na mastering – zarówno w muzyce radiowej jak i filmie.
Podobne rezultaty można osiągnąć zupełnie różnymi narzędziami. Najważniejsze jest jednak dobre – wypoczęte oraz obiektywne ucho. Słuchać, czy wszystko jest dobrze słyszalne, i czy nie „przedobrzyliśmy” z niektórymi efektami. Wszystko ma być słyszalne, ale nie nachalne – chyba, że właśnie taki efekt chcemy osiągnąć.
Na koniec zapraszam do zapoznania się krótką prezentacją, ilustrującą niektóre czynności opisane w tym poradniku. W przykładzie użyłem programu Sony Vegas Pro, jednak większość programów do obróbki wideo i audio oferuje identyczne lub bardzo podobne narzędzia. Po kolei zobaczymy i usłyszymy:
- wyodrębnienie tekstu/narracji – equalizer (np. 150Hz – 5kHz)
- zmiana dynamiki (wzmocnienie) tekstu/narracji – compressor (np. 2:1)
- dopasowanie poziomów – ściszenie podkładu (podkład -4dB)
- dostosowanie krzywej volume do tekstu mówionego (tam, gdzie jest tekst, przyciszamy muzykę o kolejne np. -6dB).
- limiter (lub compressor) na sumie – aby uniknąć przesterowań.
Zachęcam wszystkich do własnych eksperymentów z dźwiękiem!
Mateusz Szarnicki
Od Redakcji: Autor jest aktywnym forumowiczem polskiego forum Sony Vegas (gdzie występuję pod nickiem mateuszszar), muzykiem i freelancerem. Zapraszam do odwiedzenia jego profilu na Facebooku i oczywiście współpracy.