Vielleicht wurde das Audiomaterial verlängert (Time-Stretching) und klingt dadurch unnatürlich.
Nö, sowas klingt ganz anders.
Ich kenne mich ja ein bisschen mit dem Thema aus, zum Einen, da ich tagtäglich mit künstlichen Stimmen (Sprachausgaben) arbeite, zum Anderen aber auch, da ich durch einen Freund schon sehr früh angefangen habe, mich mit KI in diesem Bereich zu beschäftigen. Und ja, dies klingt mir sehr deutlich nach KI-generierten Stimmen.
Man hört zunächst recht deutlich, dass die Stimmen teils nicht so recht zu wissen scheinen, was sie da vorlesen, daher ist die Betonung oft nicht richtig. Klar, denn zu einer richtigen Betonung gehört ein korrektes Textverständnis.
Weiter fällt etwas sehr interessantes im Zusammenhang mit Nebensätzen auf, nämlich, dass diese kaum durch eine Pause von ihren Hauptsätzen abgesetzt sind. Dazu kann ich sagen, dass die herkömmlichen Sprachausgaben lange Zeit eher das umgekehrte Problem hatten. Sie betonten die Kommata sehr stark, man hörte sie deutlich heraus. Nebenbei bemerkt half mir das übrigens sogar, denn auf diese Weise wurde ich sehr dafür sensibilisiert, wo ein Komma hingehört und wo nicht. Bei den neuen KI-Stimmen versucht man offenbar, diese Eigenschaft zu kompensieren, schießt dabei aber über das Ziel hinaus. Das ist auch nicht nur hier so, sondern konnte ich nun schon häufiger beobachten.
Auch sehr auffällig sind die Zahlwörter. Kein Mensch würde wohl in einem Fließtext "Acht-und-acht-zich" sagen, wohl eher "achtunnachzich". Es gibt im Übrigen Sprachausgaben, die genau das bereits berücksichtigten, lange bevor die große KI-Welle übers Land schwappte. Apples Siri ist hier ein gutes Beispiel.
Auch markant: Der Sprecher spricht teils sehr unterschiedlich schnell. Hier weiß ich nicht, ob das tatsächlich so sein kann, aber eine mögliche Erklärung wäre für mich, dass man der KI den Befehl gab, der Text müsse als Voiceover in soundsofielen Sekunden gesprochen sein. Da ist die Erhöhung, respektive die Verringerung des Tempos freilich die einfachste, aber auch auffälligste Möglichkeit.
Und noch etwas ist markant. Wer sich mit künstlichen Stimmen beschäftigt, wird schnell feststellen, wie schwer es ist, ihnen eine fremde Sprache beizubringen. Die Aussprache der Englischen Begriffe in der Reportage ist denn auch eher schlecht, da die KI eben auf Deutsch trainiert ist.
Ich würde übrigens behaupten, dass diese Sprachmodelle wahrscheinlich nicht auf realen Stimmen basieren. Solche, die das tun, gibt es nämlich inzwischen auch. Ich habe das Experiment auch schon gemacht und mithilfe der Seite ElevenLabs einen KI-TORZ. erschaffen. Dazu benötigte ich nur ein paar Minuten Ausgangsmaterial, in meinem Fall eine Moderation für eine Satiresendung, aus dem dann ein Voiceklon erstellt wurde. Das Ergebnis war besser als ich vermutet hatte. Der Text, den ich der KI gab, klang recht flüssig und die Stimme tatsächlich nach mir. Selbst kleinere sprachliche Eigenheiten, die ich habe, ließen sich wiederfinden, wenn man genau darauf achtete. Das Problem war allerdings die Betonung. Egal, was ich las, die KI behielt den munter plaudernden, teils leicht süffisanten Tonfall der Originalaufnahmen quasi permanent bei, das dann aber auch durchaus recht authentisch. Hier lässt sich ein solches, konsequent durchgezogenes Betonungsmuster eher nicht ausmachen. Vielleicht wäre es hier tatsächlich aber sogar von Vorteil gewesen, hätte man versucht, eine real existierende Stimme zu klonen. Wäre das Ausgangsmaterial beispielsweise eine andere Reportage gewesen, etwa diese hier vom selben Autor:
Das riesige Yukon Territory im Nordwesten Kanadas weckt Sehnsucht: Vor 100 Jahren wegen des Goldes, heute wegen seiner grandioser Landschaften. Wer auf den rauen Straßen wie dem legendären Alaska-Highway unterwegs ist, gerät in unberührte Natur und wunderbare Abenteuer.
www.deutschlandfunk.de
, hätte man vielleicht eher einen reportagentypischen Erzählton hingekriegt.
Insgesamt ist das aber ein sehr interessanter Fund. Ich sagte neulich noch zu jemandem, dass KI-generierte Stimmen wohl am ehesten im dokumentarischen Bereich eingesetzt werden könnten. Die Texte sind hier hörbar aufgeschrieben und nicht improvisiert, es gibt keine Interaktion und die Anmutung ist in der Regel sachlich und bleibt konstant. Dieser Beitrag zeigt mir aber, dass es bis zu dem Punkt, an dem KI hier eine tatsächliche Alternative sein kann, auch in diesem Bereich wohl noch etwas dauert. Und bis sich Moderatoren ernsthaft Sorgen machen müssen, von der KI wegrationalisiert zu werden, weil diese gelernt hat, spontan zu klingen (nein, das ist mehr als einen vorgefertigten Text in entsprechender Betonung vorzulesen) und selbstständig die passende Gemütslage zu erkennen und umzusetzen, dürfte es dann nochmal eine Weile dauern.
Ach, und übrigens: Was ist denn in der Sendung mit dem Beitrag über die Kaschuben passiert?