Der AAC-Codec ist mehrstufig aufgebaut. Grundlage ist der LC-Codec (LC wie "low complexity"). Der bearbeitet das komplette Audiosignal breitbandig - als von den niedrigsten bis zu den höchsten Frequenzen - und unterzieht es der Datenreduktion. Das funktioniert super bei Bitraten oberhalb 100 kbps und mit dem Fraunhofer-Coder (lag den letzten Versionen des Winamp bei) kann man in 96 kbps LC-AAC eine Audioqualität erreichen, die in etwa der von 192 kbps MP2 entspricht, also dem uralt-DAB-Standard aus der "Gründerzeit" oder dem Standard der UKW-Zuführung von DKultur.
Vor dem eigentlichen Codec kann z.B. ein Tiefpass sitzen, der die Höhenwiedergabe auf ein der Bitrate angepasstes Maß sinnvoll begrenzt, also z.B. bei 96 kbps lieber bei 15 kHz Schluß macht und 15 - 20 kHz draußen lässt, statt dort unnötig Bitrate zu investieren, die man besser für die saubere Codierung des Bereichs unterhalb 15 kHz einsetzen sollte. Damit hat man "UKW-Frequenzgang", den aber mit nur wenig Artefakten.
Geht man mit der Bitrate immer weiter runter, wird es irgendwann eng, die Bitrate reicht nicht mehr aus, daß der Coder einen noch als sauber erkennbaren Output produziert. man könnte nun noch weiter die Höhen beschneiden, aber dann wird es spürbar dumpf und das wird genau wie Artefakte von vielen Menschen als Qualitätsmangel erkannt.
Hier setzt der erste "Nachbrenner" von AAC an: die Spektralbandreplikation (SBR). Man schneidet die Höhen gleich radikal weg, bevor man das Audiosignal in den LC-AAC-Coder gibt. Zum Beispiel bei 11,5 kHz oder 10 kHz oder 8 kHz. Je niedriger die zugestandene Bitrate, umso tiefer schneidet man weg. Das klingt nun definitiv dumpf, aber der LC-Codec-Kern muß sich nur noch um dieses geringere Frequenzspektrum kümmern und kann das auch bei der geringen Bitrate mit ausreichender Präzision. Weil die Höhen nun z.B. bei 11,5 kHz oder 10 kHz abgeschnitten werden, braucht man auch nicht mehr die vollen 48 kHz Abtastrate (Frequenzgang theoretisch bis knapp 24 kHz möglich), sondern halbiert die Abtastrate. Da kommt also erst der Tiefpaß und schneidet die Höhen weg, danach kommt eine Abtastratenwandlung auf 24 kHz (bei 48 kHz Systemtakt) bzw. 16 kHz (bei 32 kHz Systemtakt, eher selten, aber es gab DAB-Programme mit nur 32 kHz Abtastrate). Danach folgt der nun auf halber Abtastrate laufende LC-Coder.
Und was ist mit den Höhen? Die kann man einigermaßen (aber nicht wirkllich gut) auf Empfängerseite durch "Hochtransponieren" des übertragenen Grund- und Mitteltonbereiches mittels mathematischer Methoden simulieren. Das nennt man Spektralbandreplikation, es basiert auf der Erkenntnis, daß die Höhen einen Zusammenhang zum grund- und Mitteltonbereich haben. Zusätzlich schickt man noch vom Coder aus eine Art "Steuersignal" mit, mit dessen Hilfe der Decoder die "Fake-Höhen" besser (originalgetreuer) hinbekommt. Die Kombination aus LC-Codec für den Grund- und Mitteltonbereich und replizierten "fake-Höhen" nennt man HE-AAC ("high efficiency").
Man erkennt HE-AAC daran, daß beim Umschalten auf ein solches Programm die Höhen anfangs oft kurz fehlen und dann nach 1/4 bis 1/2 Sekunde kommen sie dazu. Solange wird empfangen und gerechnet. Und man erkennt HE-AAC daran, daß es diesen "schabenden", "schmirgelnden" Klang gibt.
Hier Radio BeO (Schweiz) während ihres DAB-Versuches. Das waren 64 kbps HE-AAC brutto, zuerst mal nur der LC-Codec-Kern:
... und hier mit den "Fake"-Höhen aus der Spektralbandreplikation:
Alles ab 9 kHz ist Fake!
Vermutlich (einen Nachweis habe ich nicht) kommt der besonders üble HE-AAC-Klang immer dann, wenn ein (UKW-)Multibandprocessing vorgeschaltet ist. Die sich ständig dynamisch ändernden spektralen Anteile im Grund- und Mitteltonbereich (durch Mehrband-Kompression und dynamischen EQ) machen es offenbar schwer, halbwegs sauber den Hochtonbereich zu faken.
HE-AAC war für DAB unter 96 kbps gedacht, aber damals hatte man auch nur ca. 1 kbps für Slideshow in Planung. Heute gibt es teils Slideshow mit 8 kbpy und mehr, entsprechend weniger bleibt für Audio. Deshalb und wegen des LC-Bugs mancher Empfänger ist HE-AAC heute auch bei 112 kbps (DKultur) und 120 kbps (Saarland) zu finden.
Die nächste "Eskalationsstufe" bei noch niedrigerer Bitrate ist dann der Trickbetrug mit den Stereokanälen, "Parametric Stereo" genannt. Das ist dann die Kombination LC-AAC + SBR + PS.