Danke, das ist extrem interessant!
Voraussetzen muss ich freilich, dass der S/PDIF-Eingang des Macbook Pro bitgenau und samplesynchron arbeitet. Ist dem definitiv so, weißt Du dazu etwas? Mein Mac-nutzender Multiinstrumentalist, Musiker und Musikproduzent sitzt weit weg in Portugal und ich bin mir recht sicher, dass er nicht spontan antworten könnte und eine Restunsicherheit bei seiner Antwort bliebe.
Das AAC aus dem Transportstrom habe ich unter Windows 7 mit VLC in 16 Bit PCM decodiert. VLC tut das genauso gut wie der im Windows-Bereich einst beliebte Winamp und wie XMediaRecode, das auf FFmpeg aufsetzt. Die 3 unterscheiden sich im Decoding von LC-AAC nur in einer Differenz, die eine Art "Prasseln" (spontanes Schalten von Bits) im Bereich unter ca. -80 dBFS darstellt, das ohne Audiopegel auch noch geringer wird. Das ist unhörbar, das sind möglicherweise Rundungseffekte einer Float-Integer-Umrechnung oder irgendein Dither / Noiseshaping. Das ist letztlich alles gleichwertig und auch subjektiv gleichwertig zum Decoding der Bemondis-Geräte (Vistron-Kabelradios, diverse HDTV-Sat- und Kabelreceiver der letzten 10 Jahre, die unter WISI, Pollin, Smart, Megasat, Schwaiger etc. verkauft wurden).
Mit diesem VLC-Decoding habe ich verglichen. Dazu habe ich die S/PDIF-Aufnahme des VU+-Decodings um 5,69 dB verstärkt, denn das via S/PDIF aufgenommene Signal ist 5,69 dB niedriger gepegelt als das Audio im Transportstrom. Sollte das nicht vom MacBook Pro und seinem S/PDIF nebst Datenpfad kommen, muss es von der VU+ kommen.
Für den Fall, dass es von der VU+ kommt: da wäre dann interessant, ob das immer konstant 5,69 dB zu wenig ist oder ob das möglicherweise durch eine Pegel- und Kompressionssteuerung via DRC-Daten im AAC-Datenstrom oder im DVB-Datengerüst variabel ist, so wie das von anderen Receivern berichtet wird (wilde spontane Lautstärkeänderungen mehrmals pro Stunde) und möglicherweise auf eine Fehlinterpretation des via Ancillary Data im AAC transportierten RDS zurückgeht.
Konstant ginge ja noch (vor allem, weils absenkt und nicht erhöht, was bei hoch gepegelten Programmen ja zu Clipping führen könnte), variabel wäre Desaster.
Ich habe das aus Zeit- und Erschöpfungsgründen jetzt nicht komplett durchgetestet, sondern mir nur die ersten 2 Minuten der S/PDIF-Aufnahme angeschaut. Die haben jedenfalls konstant 5,69 dB zu wenig Pegel.
Kommt das von der VU+, arbeitet sie genau genommen schonmal nicht exakt. Ists eine konstante Absenkung, verschenkt man aber nur Wandlerauflösung und hat keine echten klanglichen Verluste.
Knackser:
Da sind ständig derbe Knackser drin im Interview. Aber die sind auch im Transportstrom und sind offenbar schon ins AAC eincodiert, denn sie haben die gleiche Tiefpass-Filterung wie das restliche Audio. Sie stehen also im Sonogramm nicht "oben raus", sondern sind bei ca. 15,5 kHz beschnitten.
-> Das wurde schon so gesendet, das kam von vor dem Encoder.
Knackser, die nur im Decoding der VU+ auftreten, konnte ich weder hören (im Vergleich zur jeweils gleichen Stelle im VLC-Decoding) noch sehen (beim Vergleich der Sonogramme).
Aber da ist doch etwas.
Ich wollte schauen, ob ich das VU+-Decoding und das VLC-Decoding aus dem Transportstrom samplegenau syncen kann. Also zu Beginn auf das Sample genau (1/48000 Sekunde) aneinander ausrichten und beide Decodings dann voneinander subtrahieren.
Das geht auch, wenn man das File vom S/PDIF um 5,69 dB anhebt. Die Differenz zwischen dem so vorbereiteten Audio und dem Decoding des VLC ist minimalst, liegt bei um -80 dBFS und ist nur gering stärker als der Unterschied zwischen den 3 genannten Software-Decodern und den Bemondis-Receivern.
-> Der LC-AAC-Decoder der VU+ ist zumindest über kurze Strecken betrachtet sehr gut. Klanglich ändert sich da nichts gegenüber dem Soll. Bei Fraunhofer-encodierten Files und Streams ist das glaube ich anders, da knistert die VU+ wie eine Schallplatte. Das hatte der hr anfangs, offenbar nutzten die also den Fraunhofer-Encoder und sind nun auf was anderes gewechselt.
Aber nach etwa 20 Sekunden hört man in der Differenz plötzlich richtig laut Audio und es klingt wie aus einem Abflussrohr.
Diesen Effekt kenne ich von den Bemondis-Receivern bei BR, NDR und Radio Bremen.
Da wird ein Stück Audio zusätzlich eingesetzt (bei Bemondis immer 144 Samples entsprechend 3 Millisekunden), weil das Live-Decoding vom Transponder zu schnell ist und irgendwann der Puffer leer läuft. Mit 3 Millisekunden "Pause" je Minute (grob ca. 50 - 70 Sekunden zwischen den Knacks) stellen die Bemondis-Geräte den Anschluss an die Echtzeit wieder her. Sie spielen also vereinfacht gesagt die Minute in 59,997 Sekunden aus und pausieren dann 0,003 Sekunden lang. An dieser Stelle hört man häufig den Knack und kann ihn auch im Sonogramm sehen - ein Peak, der deutlich über die Tiefpassgrenze von ca. 15,5 kHz hinaus bis >20 kHz hoch geht.
Nicht so die VU+. Auch sie spielt offenbar zu schnell und setzt bei Bayern 1 zum Ausgleich hin und wieder ein Stück Audio ein oder "stretcht" das vorhandene Audio. Aber man hört das nicht! Ich habe mehrfach an den Stellen solcher Brüche in der Synchronisation versucht, einen Störeffekt zu hören - keine Chance. Das wirkt wie "übergeblendet". Wie die VU+ das genau macht, weiß ich nicht, aber sie macht das sehr clever!
Es ist natürlich genau betrachtet nicht in Ordnung.
Hier mal eine solche Stelle - Übergang vom Bereich mit noch De-Sync zwischen VLC-Decoding aus dem Transportstrom und VU+-Live-Decoding in den Bereich, innerhalb dessen ich beide Aufnahmen samplegenau gesynct habe und dann wieder raus in den nächsten De-Sync-Bereich. Im De-Sync hören wir die Differenz zweier um etwa 2 Millisekunden verschobener nahezu identischer Audiofiles - das gibt den "Abflussrohr-Sound" durch Kammfiltereffekte:
Anhang anzeigen Differenz VU+-Decoding mit 5,69 dB Gain minus TS-Decoding VLC an Sync-Stelle.mp3
Man hört, wie das regelrecht aus- und eingeblendet wird. In den Blenden kann man auch Phasing hören, das Stretchen erfolgt über einen kurzen zeitlichen Abschnitt. Bei den Bemondis-Geräten ists das wie mit dem Schalter hart umgeschaltet - Knack. Die VU+ blendet das um! Ganz am Ende blendet es schon das nächste mal, da läuft der nächste Regelvorgang.
Hier eine andere Form der Darstellung des gleichen Ausschnittes. Statt der Differenz beider im mittleren Bereich gesyncten Audiofiles haben wir hier im linken Kanal den linken Kanal der VU+ und im rechten Kanal den linken Kanal des VLC-Decodings aus dem Transportstrom. Das würde, wenns komplett synchron ist, 2 mal (nahezu) das gleiche sein - beide male der linke Kanal, nur aus unterschiedlichen Decodern (VU+ und VLC). Also mono - alles mittig zu hören. Es wird aber ein Audio daraus, das vorne und hinten räumlich klingt, weil es Zeitversatz gibt. Nur in der Mitte ist es (nahezu) kanalidentisches Mono. Wer ein Stereosichtgerät hat, möge sich das darauf mal anschauen:
Anhang anzeigen Links VU+ linker Kanal - Rechts TS-Decoding VLC linker Kanal - Phasenbeziehung.mp3
Die ersten Stellen mit einer solchen Zeitkorrektur bzw. mit konstanter, ungestörter Wiedergabe (Zeitbasis ist die S/PDIF-Aufnahme von Anfang an) und die Zahl der Samples, die da eingefügt werden:
0:00 - 0:25
97 Samples
0:26 - 0:54
97 Samples
0:55 - 1:20
97 Samples
1:21 - 1:42
97 Samples
1:43 - 2:07
Ich werde hier noch verrückt. Es sind immer 97 Samples, die ich da nach einer solchen Stelle als Versatz finde. Bei den Bemondis-Geräten sind es 144 Samples, hier ebenso präzise halt 97 Samples. Das muss in beiden Fällen eine äußerst reproduzierbare Puffer-Regelung sein.
Die Bemondis-Geräte machen das am Stück, also 144 Samples rein - fertig. Die VU+ baut diesen Versatz offenbar langsam auf.
Hier mal so eine Stelle im Vergleich Transportstrom-Decoding mit VLC gegen Live-Decoding mit VU+ als Sonogramm:
(Transportstrom / VLC-Decoding)
(Live-Decoding VU+ via S/PDIF)
Die Zeiten darunter sind nicht identisch, die bitte ignorieren, das kommt von der Verschiebung der beiden Files im Editor zwecks Synchronisation. Aber man sieht, dass wir hier einen Ausschnitt von etwa 0,8 Sekunden betrachten.
Lade beide Grafiken mal herunter und schalte in einem Viewer immer zwischen beiden hin und her. Da siehst Du im linken Drittel identische Strukturen - das ist am Ende des etwa 20 Sekunden vorher durch mich gesyncten Bereichs. Das läuft stabil synchron bis hierhin. Dann kommt ein Übergangsbereich, etwa das mittlere Drittel, in dem stretcht sich die S/PDIF-Aufnahme immer weiter. Im rechten Drittel ist die S/PDIF-Variante dann im Vergleich zum gleichen Zeitpunkt in der TS-Variante in die "Zukunft" verschoben, also nach rechts. Da muss der Playcursor erst noch drüber laufen. Die S/PDIF-Variante hinkt also hier dem mit VLC decodierten Audio hinterher, holt aber in ca. 20-30 Sekunden wieder auf und dann kommt die nächste "Zwangsbremsung", das nächste Stretchen des noch vorhandenen Audios, bis wieder genug im Puffer ist.
Das kann man herrlich sehen beim Umschalten zwischen beiden Sonogrammen.
Und man sieht noch etwas: schaue Dir mal bei dunklem Zimmer und hell eingestelltem Bildschirm (oder manipuliere die Gradationskurve) die Sonogramme beider Varianten im Vergleich knapp oberhalb der Kante des Tiefpasses von ca. 15,5 kHz an. Da beginnt im Sonogramm der S/PDIF-Aufnahme bei deren Zeitskala etwa um 26:05 (das sind Sekunden:Frames mit 75 fps) ein Ripple, der ab etwa 26:46 super gut zu sehen ist und Komponenten bis hoch zu über 20 kHz enthält. Das ganze endet dann bei ca. 26:44.
Ich habe das mal fabrlich markiert:
(Transportstrom / VLC-Decoding)
(Live-Decoding VU+ via S/PDIF)
Mache ich den Grenzwert für die Falschfarbendarstellung sensitiver, kommen die Spitzen im Decoding der VU+ im rechten Drittel noch viel höher (man sieht das bei hellem Bildschirm auch so ganz gut). Im VLC-Decoding saut es mir dann dafür den kompletten Bereich oberhalb des Tiefpasses (15,5 kHz) komplett zu - da ist mehr Rauschen drin als im VU+-Decoding. Die Decoder arbeiten halt "unhörbar", aber sehr wohl messbar unterschiedlich, es könnte in einem Fall ein Noiseshaping im Spiel sein.
Aber man sieht: der gelbe Ripple gehört da nicht hin. Die VU+ stretcht dort mit unhörbaren "Mikrorucklern" die Zeit, weil sie vorher ca. 20-30 Sekunden lang etwas zu schnell decodiert und ausgespielt hat.
Liefe da kein Programm, sondern ein Sinus-Pegelton, würde man im Sonogramm gewiss deutliche Störungen alle 20-30 Sekunden sehen, also Abweichungen von der waagerechten Linie, die eine einzelne Frequenz kennzeichnet.
So eine Fehlsteuerung mit radikalerer Regelung könnte sogar zum "Leiern" oder "Jaulen" führen. Auch so etwas wurde mir schon vorgeführt - auch da gab es diesen Riplle oberhalb des Übertragungsbereichs. Komischerweise war das bei hr1, das eigentlich nicht mit diesen Problemen behaftet ist.
Die VU+ leiert eigentlich auch - nur unhörbar dezent. Damit ist sie offenbar genauso von der Fehlsteuerung betroffen wie die Bemondis-Geräte, sie geht damit nur anders um. Eigentlich sollten die Decoder ja isochron decodieren, also auch VLC-Decoding aus dem Transportstrom gegen Receiver-Live-Decoding über beliebig lange Zeiten auf das Sample synchron bleiben.
Die Bemondis-Geräte können das - gerade vorgestern nochmal getestet mit MDR Kultur über 80 Minuten und im Dezember mit hr2 und SWR 2 über je 90 Minuten. Die laufen ohne einen Ruckler durch. Da wird offenbar keine zeitliche Fehlsteuerung durch den von der ARD gesendeten Datenstrom verursacht.
Das wäre auch hier mal interessant. Kannst Du das gleiche bitte nochmal mit einem Programm von WDR, SWR oder MDR machen?
Egal ob Bemondis oder VU+ (oder die anderen knackenden oder auch elegant tricksenden Geräte): die Quelle für diese Effekte liegt sehr wahrscheinlich bei der ARD und muss auch von der ARD behoben werden. Ziel ist isochrone Wiedergabe ohne zeitliche Tricksereien. Das hat beim Hörfunktransponder auch 16 Jahre lang funktioniert.
So, den anderen Text (auch Thema AAC-Murks), an dem ich seit heute Vormittag saß, bekomme ich jetzt nicht mehr fertig. Ich bin platt.