Spannend finde ich, wie die Originalversion trotz nur 1-2 dB mehr Peak auf 6 dB mehr Loudness kommt. Da der gute Philip kaum seine Stimme auf biologischem Wege komprimiert haben dürfte, muß also im Signalweg Kompression gewesen sein. Ich weiß nicht, an welcher Stelle. Gerade bei reinen Amateuraufnahmen (und so wirkt es definitiv), sind vorhandene und bewußt genutzte Hardware-Dynamikbearbeitungen wohl faktisch ausgeschlossen und Software-Plugins wird man kaum einsetzen, weil man nicht weiß, daß es so etwas gibt und daß man "dichter" machen kann. Wo also ist das passiert? Oder rennt hier jemand fortlaufend in den Limiter eines Diktiergerätes / PCM-Recorders - oder eher in die AGC und Bandsättigung eines Kassetten-Diktiergerätes?
Hallo an alle Mitlesenden,
Zunächst folgende Info, es geht hier weiterhin um die Problematik "Aussteuerung von Audio nach Loudness, konkret EBU R128", und kann man damit die katastrophalen Loudnessschwankungen derzeitiger Hörfunkprogramme, auch ohne Zwangsprozessing in der Summe, in den Griff bekommen?
Die beiden von Radiowaves verlinkten youtube Videos bieten dazu interessantes Praxismaterial. Bei den folgenden Erläuterungen werde ich die Originalvariante mit O und die von Radiowaves erstellte mit N bezeichnen, wie von Tonband schon vorgelebt.
Als erstes muss ich die Loudnessmessungen korrigieren, interessant wäre, wie sie zustande kamen.
Also ich habe beide Filme nacheinander über denselben Hardwareweg, mit identischen Einstellungen (Achtung der youtube Player hat einen Volumenregler!) angehört und dabei mit einem R128 Messinstrument gemessen.
Zur Pegelanpassung habe ich die Sprache der N Fassung auf durchschnittlich -23 LUFS also 0 LU gelegt. Dazu habe ich die ersten 3 Minuten gemessen und das Gaining entsprechend angepasst. Somit hat diese Quelle an meinem Sendepult also eine durchschnittliche Loudness von 0 LU, ist also nach R128 normalisiert. Da wir es hier mit einem in sich gleichmäßigen Signal (weil gleichmäßig gesprochen, also nicht zu dynamisch) zu tun haben, bildet dies eine gute Referenz, weil es im konkreten Fall auch die eigentliche Information liefert.
Derart ausgespielt ergeben sich folgende Messwerte.
Für N:
I Messung über alles 0,4 LU
Loudnessrange. 8.2 LU
Truepeaks. -4,0 dBFS
Für O:
I Messung über alles 3,9 LU
Loudnessrange. 8,1 LU
Truepeaks. -3,0 dBFS
Also der Originalfilm ist lediglich um 3,5 LU bzw dB lauter als die N Fassung und liegt insofern durchaus im sogenannten Toleranzbereich (in aufwendigen Versuchen unter anderem von Dolby ermittelt) der den Hörer noch nicht zum Nachregeln bewegt. Das entspricht auch meinem Eindruck, denn wenn ich zwischen den Anfängen der Videos wechsele, dann empfinde ich keinen übermäßigen Loudnesssprung in der Sprache. Die nahezu gleiche Loudnessrange lässt auch keine Dynamikbeeinflussung vermuten, ein Schutzbegrenzer bei der Sprachaufnahmen der O Fassung wurde sicher angefahren.
Auffällig und erstaunlich ist umso mehr, dass für mich trotzdem N direkter, deutlicher (lauter???) wirkt als O, was der höheren Qualität der Sprachaufnahmen zu zu schreiben ist.
Sprachaufnahme und deren Qualität:
Wie N zustande kam wissen wir, bei O würde ich auf Handheldrecorder oder sogar Kameramikro (mit dem auch die Filmsequenzen entstanden) tippen, am Anfang hört man "verdächtige" Griffgeräusche.
In jedem Fall sitzt der Sprecher einen halben bis knappen Meter entfernt und nicht in der Haupteinsprechrichtung des Mikrofons. Dadurch hören wir ziemlich viel Raumanteil und leider häufig störende Umgebungsgeräusche, die übrigens die höchsten Peaks liefern und deutlich limitiert werden.
Die Stimme an sich klingt in beiden Fällen relativ ähnlich, insofern kann man den negativen Einfluss der Störsignale eigentlich gut einschätzen. Das jetzt bitte nicht zerpflücken, es geht nicht darum ob die Sprache wirklich genau gleich klingt, auf die Qualität der Aufnahme bin ich ja eingegangen, die ist wesentlich wichtiger.
Man kann in beiden Aufnahmen das Gesagte durchgehend hören und verstehen. Die Sprache der N Fassung könnte man problemlos leicht komprimieren, um dieses Signal in sich kompakter zu bekommen (das ist die alte Autoradiodebatte), bei der O Fassung wäre das zwar ebenso wünschenswert jedoch schwieriger, weil durch die Verdichtung die Störgeräusche (Hall und Geräusche) mehr in den Vordergrund geraten würden.
Man könnte jetzt sicher ewig darüber philosophieren, was man jetzt an EQ, Dynamics, Deessern, Denoisern, Transientendesignern..... auspacken könnte, mache ich aber nicht. Ich nehme die Sprache so wie sie ist, sie bietet für die folgenden Betrachtungen die Basis.
Loudnessverlauf innerhalb der beiden Videos:
Und damit kommen wir zum Loudnessverlauf und der Durchhörbarkeit der beiden Videos und entdecken ggf Parallelen zum Radio? Hierfür ist der Sprecher unsere Studiomoderation und die Film O Töne entsprechen Musiken, Werbung oder Jingles. Eine gute Stelle ist eine knappe Minute ungefähr ab 15:00, bitte beide Varianten ohne Anpassung der Abhörlautstärke durchhören.
N Fassung:
Welches Prozessing Radiowaves benutzt hat, das hat er uns ja freundlicherweise gesagt. Er hat versucht die schlechte technische Qualität zu verbessern, was bei den gnadenlos in den Limiter gefahrenen Signalen kaum möglich ist, und die O die Töne nach Gehör/Gefühl um einen konstanten Wert im Pegel abgesenkt, um sie gehörrichtig an sein Refernzsignal Sprache anzupassen. Das hauptsächliche Prozessing bestand also in einer simplen Pegelabsenkung!
Und jetzt verrate ich mal, was die Loudnessmeter dazu sagen. Wir wissen ja, dass die Sprache auf durchschnittlich 0 LU ausgesteuert/normalisiert ist. Wenn ich nun die beiden Videoschnipsel messe (so wie sie jetzt gepegelt sind), dann haben auch sie eine durchschnittliche Loudness von ziemlich genau 0 LU, sind also auf denselben Loudnesslevel normalisiert.
O Fassung
Auf die technische Qualität der O Töne muss man nicht eingehen, die ist schlecht, Fakt. Viel wichtiger ist, dass der erste 8 und der zweite Schnipsel 6,5 LU lauter ist, als die sie umgebende Sprache. Sie sind also nicht gleich laut wie die Sprache und das hört man! Ebenso wie im Radio, wenn Töne unterschiedlicher Loudness aufeinander treffen.
Unabhängig davon, ob man hier und da mittels gezieltem Prozessing an dem einen oder anderen Ton noch hätte etwas verfeinern können, haben wir es in der N Fassung also mit einem nach Loudness ausgesteuerten Signal zu tun, so wie es nach R128 Kriterien gedacht ist. Und das obwohl gar nicht gemessen, sondern lediglich gehört wurde. Ein Wunder!?
Da ich schon wieder so viel geschrieben habe lasse ich es mal bei dieser Erkenntnis und danke Radiowaves für das Beispiel, weil es umfangreiche Basis für alle hier im Thread wichtigen Fragen und Thesen liefert, auch für die, was wohl durch das SWR Info Prozessing daraus gemacht würde.
Beste Grüße, Björn