Künstliche Stimmen als Ersatz für reale Mitarbeiter

Mannis Fan · 14. Dezember 2023

Wenn man heutzutage vom Finanzamt oder einer sonstigen Behörde/Organisation die rechtsfähigen Geschäftsabwicklungen mit dem Hinweis erhält "Diese Mail wurde automatisch generiert - nicht antworten", so ist das eine inzwischen allseits akzeptierte KI im Schriftverkehr. Jetzt bekommt sie eben auch noch eine Stimme.

black2white · 14. Dezember 2023

Man könnte natürlich die Stimme von Bob Stewart klonen, aber nicht seine Seele. Sein unverkennbarer Humor. Mag sein das es Leute gibt die seinen Klon gut dirigieren können, aber er ist es ja nicht.
Wer dagegen bestimmt ganz schnell beim klonen, mit ganz viel Enthusiasmus dabei ist, das ist Barbara Schöneberger. Die macht doch alles was hip und angesagt ist mit.

thorr · 01. Januar 2024

Sorry für den Doppelpost. Hier passt es aber, glaube ich, besser hin:

Was ist denn das für ein Beitrag ab 32'58"? Der Moderator sagt keine Autorin an und die Stimme klingt meiner Meinung nach SEHR künstlich.

Sonntagsspaziergang vom 31.12.23

share.deutschlandradio.de

Cartplayer · 01. Januar 2024

Vielleicht wurde das Audiomaterial verlängert (Time-Stretching) und klingt dadurch unnatürlich.

OnkelOtto · 02. Januar 2024

thorr schrieb:
Sorry für den Doppelpost. Hier passt es aber, glaube ich, besser hin:

Was ist denn das für ein Beitrag ab 32'58"? Der Moderator sagt keine Autorin an und die Stimme klingt meiner Meinung nach SEHR künstlich.

Sonntagsspaziergang vom 31.12.23

share.deutschlandradio.de

Schließe mich der Beobachtung an. Dieses mechanistische Abfeiern von Silben-Aneinanderreihungen bei beiden Sprechern hat nichts Natürliches. Also: (sehr schlechtes) Text-to-speech. Klingt wie die Stationsansage zur Konstablerwache in der Frankfurter U5.

TORZ. · 02. Januar 2024

Cartplayer schrieb:
Vielleicht wurde das Audiomaterial verlängert (Time-Stretching) und klingt dadurch unnatürlich.

Nö, sowas klingt ganz anders.
Ich kenne mich ja ein bisschen mit dem Thema aus, zum Einen, da ich tagtäglich mit künstlichen Stimmen (Sprachausgaben) arbeite, zum Anderen aber auch, da ich durch einen Freund schon sehr früh angefangen habe, mich mit KI in diesem Bereich zu beschäftigen. Und ja, dies klingt mir sehr deutlich nach KI-generierten Stimmen.
Man hört zunächst recht deutlich, dass die Stimmen teils nicht so recht zu wissen scheinen, was sie da vorlesen, daher ist die Betonung oft nicht richtig. Klar, denn zu einer richtigen Betonung gehört ein korrektes Textverständnis.
Weiter fällt etwas sehr interessantes im Zusammenhang mit Nebensätzen auf, nämlich, dass diese kaum durch eine Pause von ihren Hauptsätzen abgesetzt sind. Dazu kann ich sagen, dass die herkömmlichen Sprachausgaben lange Zeit eher das umgekehrte Problem hatten. Sie betonten die Kommata sehr stark, man hörte sie deutlich heraus. Nebenbei bemerkt half mir das übrigens sogar, denn auf diese Weise wurde ich sehr dafür sensibilisiert, wo ein Komma hingehört und wo nicht. Bei den neuen KI-Stimmen versucht man offenbar, diese Eigenschaft zu kompensieren, schießt dabei aber über das Ziel hinaus. Das ist auch nicht nur hier so, sondern konnte ich nun schon häufiger beobachten.
Auch sehr auffällig sind die Zahlwörter. Kein Mensch würde wohl in einem Fließtext "Acht-und-acht-zich" sagen, wohl eher "achtunnachzich". Es gibt im Übrigen Sprachausgaben, die genau das bereits berücksichtigten, lange bevor die große KI-Welle übers Land schwappte. Apples Siri ist hier ein gutes Beispiel.
Auch markant: Der Sprecher spricht teils sehr unterschiedlich schnell. Hier weiß ich nicht, ob das tatsächlich so sein kann, aber eine mögliche Erklärung wäre für mich, dass man der KI den Befehl gab, der Text müsse als Voiceover in soundsofielen Sekunden gesprochen sein. Da ist die Erhöhung, respektive die Verringerung des Tempos freilich die einfachste, aber auch auffälligste Möglichkeit.
Und noch etwas ist markant. Wer sich mit künstlichen Stimmen beschäftigt, wird schnell feststellen, wie schwer es ist, ihnen eine fremde Sprache beizubringen. Die Aussprache der Englischen Begriffe in der Reportage ist denn auch eher schlecht, da die KI eben auf Deutsch trainiert ist.
Ich würde übrigens behaupten, dass diese Sprachmodelle wahrscheinlich nicht auf realen Stimmen basieren. Solche, die das tun, gibt es nämlich inzwischen auch. Ich habe das Experiment auch schon gemacht und mithilfe der Seite ElevenLabs einen KI-TORZ. erschaffen. Dazu benötigte ich nur ein paar Minuten Ausgangsmaterial, in meinem Fall eine Moderation für eine Satiresendung, aus dem dann ein Voiceklon erstellt wurde. Das Ergebnis war besser als ich vermutet hatte. Der Text, den ich der KI gab, klang recht flüssig und die Stimme tatsächlich nach mir. Selbst kleinere sprachliche Eigenheiten, die ich habe, ließen sich wiederfinden, wenn man genau darauf achtete. Das Problem war allerdings die Betonung. Egal, was ich las, die KI behielt den munter plaudernden, teils leicht süffisanten Tonfall der Originalaufnahmen quasi permanent bei, das dann aber auch durchaus recht authentisch. Hier lässt sich ein solches, konsequent durchgezogenes Betonungsmuster eher nicht ausmachen. Vielleicht wäre es hier tatsächlich aber sogar von Vorteil gewesen, hätte man versucht, eine real existierende Stimme zu klonen. Wäre das Ausgangsmaterial beispielsweise eine andere Reportage gewesen, etwa diese hier vom selben Autor:

Alaska - Yukon Territory - das Land des Goldes

Das riesige Yukon Territory im Nordwesten Kanadas weckt Sehnsucht: Vor 100 Jahren wegen des Goldes, heute wegen seiner grandioser Landschaften. Wer auf den rauen Straßen wie dem legendären Alaska-Highway unterwegs ist, gerät in unberührte Natur und wunderbare Abenteuer.

www.deutschlandfunk.de

, hätte man vielleicht eher einen reportagentypischen Erzählton hingekriegt.
Insgesamt ist das aber ein sehr interessanter Fund. Ich sagte neulich noch zu jemandem, dass KI-generierte Stimmen wohl am ehesten im dokumentarischen Bereich eingesetzt werden könnten. Die Texte sind hier hörbar aufgeschrieben und nicht improvisiert, es gibt keine Interaktion und die Anmutung ist in der Regel sachlich und bleibt konstant. Dieser Beitrag zeigt mir aber, dass es bis zu dem Punkt, an dem KI hier eine tatsächliche Alternative sein kann, auch in diesem Bereich wohl noch etwas dauert. Und bis sich Moderatoren ernsthaft Sorgen machen müssen, von der KI wegrationalisiert zu werden, weil diese gelernt hat, spontan zu klingen (nein, das ist mehr als einen vorgefertigten Text in entsprechender Betonung vorzulesen) und selbstständig die passende Gemütslage zu erkennen und umzusetzen, dürfte es dann nochmal eine Weile dauern.
Ach, und übrigens: Was ist denn in der Sendung mit dem Beitrag über die Kaschuben passiert?

TORZ. · 02. Januar 2024

Treffer, versenkt! Ich hatte den Beitrag vorhin an eine Gruppe von KI-interessierten Kumpels weitergeleitet und die Analyse kam schneller als ich dachte. Hört Euch mal das erste Voiceover in dem Beitrag an und vergleicht es mit der männlichen Stimme von Amazon Alexa. Diese wird hier vorgestellt:

Die Stimmen dürften also aus diesem Pool stammen:

Text-zu-Sprache-Software – Amazon Polly – Amazon Web Services

Amazon Polly verwandelt Text in realistische Sprachausgabe, sodass Sie sprechende Anwendungen und ganz neue Kategorien sprachaktivierter Anwendungen entwickeln können.

aws.amazon.com

An sich ist das schon ein Ding, dass das so still und heimlich gemacht wurde. Ich meine, es ist ja kein Problem, sondern im Gegenteil sehr interessant, wenn man ein solches Experiment mal durchführt und entsprechend begleitet und aufbereitet, etwa in einer Wissenschaftssendung. Aber das einfach mal so zu machen und kein Wort darüber zu verlieren, halte ich nicht für richtig. So viel Transparenz sollte man seinen Hörern an sich schon schuldig sein, gerade wo das Thema KI aktuell ja in aller Munde ist.

thorr · 03. Januar 2024

TORZ. schrieb:
Man hört zunächst recht deutlich, dass die Stimmen teils nicht so recht zu wissen scheinen, was sie da vorlesen, daher ist die Betonung oft nicht richtig.

Exakt, die Betonungsbögen sind total unnatürlich. Zum Ende der Sätze fällt die Betonung meist ab; auch wenn das Überraschungsmoment genau dort steckt.

TORZ. schrieb:
Auch markant: Der Sprecher spricht teils sehr unterschiedlich schnell. Hier weiß ich nicht, ob das tatsächlich so sein kann, aber eine mögliche Erklärung wäre für mich, dass man der KI den Befehl gab, der Text müsse als Voiceover in soundsofielen Sekunden gesprochen sein.

Das unterschiedliche Sprechtempo der männlichen Stimme ist mir auch aufgefallen. Das hat mich erst glauben lassen, die männliche Stimme sei natürlich. Aber dies ist natürlich eine mögliche Erklärung.

TORZ. schrieb:
Und noch etwas ist markant. Wer sich mit künstlichen Stimmen beschäftigt, wird schnell feststellen, wie schwer es ist, ihnen eine fremde Sprache beizubringen. Die Aussprache der Englischen Begriffe in der Reportage ist denn auch eher schlecht, da die KI eben auf Deutsch trainiert ist.

Die Aussprache der englischen Begriffe ist für einen Betrag über ein englischsprachiges Land zum Teil wirklich absurd schlecht. Anchorage ist "Änkoräätsch", fish guide ist "Fischgöid" und der Stairway Ice Fall wird zu denglisch "Schtärweh Eisfall". Ich hatte wegen der Aussprache teils Probleme, die korrekten Wörter zu googeln.

Normalerweise verlangsamt man bei Eigennamen und Fachbegriffen das Sprechtempo und legt auf diese die Betonung. Das ist hier nicht der Fall.

TORZ. schrieb:
Ach, und übrigens: Was ist denn in der Sendung mit dem Beitrag über die Kaschuben passiert?

Tja, hier in Köln würde man sagen: Der es fott! Ob das wohl auch so über den Sender ging?

thorr · 06. Januar 2024

thorr schrieb:
Ob das wohl auch so über den Sender ging?

Dann müsste allerdings der Silence Detector angesprungen sein...

TORZ. schrieb:
Die Stimmen dürften also aus diesem Pool stammen:

Meinst du? Hätte ich jetzt nicht sofort erkannt. Aber du wirst da ein besseres Gehör haben.

BroadcastMirror · 06. Januar 2024

Die Frage ist doch, wieso ausgerechnet der Deutschlandfunk es für nötig hält, solche schlechten Text-to-Speech Engines als Voice-Over für Beiträge zu benutzen. Ist das ein sehr verfrühter Aprilscherz, oder hat man bereits das Personal zusammengespart? Oder ging es in der Sendung thematisch um KI? Hab ich was verpasst/überlesen?

Ohne diesen Kontext wirkt es einfach nur absurd und befremdlich. Vor allem weil man die Legacy TTS ala Alexa, Siri, etc. sofort raushört, moderne trainierte TTS klingt komplett anders.
Wenn damit die Comedy bei MDR JUMP gesprochen würde, hätte das ja noch irgendwo Mehrwert.

thorr · 06. Januar 2024

Ich weiß ja nicht, wie die Produktion solcher Beiträge beim Dlf genau abläuft. Normalerweise aber werden sie ja von Sprechern des Dlf-Sprecherensembles eingesprochen. Was auch in dem anderen, von @TORZ. verlinkten Beitrag desselben Autors der Fall sein dürfte.

Was mir aber schon einmal vor etwa einem Jahr aufgefallen ist: Ich hörte damals regelmäßig den Trailer vor "Sport aktuell" am Abend. Auch die Sprecher dieser Trailer klangen damals mehr als einmal sehr künstlich. Wenn nun ganze Beiträge offensichtlich künstlich gesprochen werden, dann halte ich es auch nicht für ausgeschlossen, dass das für die Trailer damals tatsächlich ebenfalls der Fall war.

Maschi · 06. Januar 2024

Hab es jetzt auch mal nachgehört, schrecklich, dass sowas beim "Qualitätsprogramm Nummer 1" so gesendet wurde.

thorr · 06. Januar 2024

BroadcastMirror schrieb:
Oder ging es in der Sendung thematisch um KI?

Nein, gar nicht. Es ging um eine Tour mit dem Camper quer durch Alaska. Schon nach den ersten Worten war ich von der sprachlichen Anmutung befremdet. Wirklich krass fand ich dann aber "Änkorätsch" und "Fischgöid" (fish guide).

Die männliche Stimme bekommt die Aussprache – so mein Eindruck – deutlich besser hin. Warum hat man trotzdem ausgerechnet die weibliche Stimme als Haupterzähler genommen?

Maschi · 06. Januar 2024

"Rothlacks" ist auch "kurios".

thorr · 06. Januar 2024

Stimmt. Den Rotlachs hatte ich beim ersten Hören aus dem Grund auch gar nicht als solchen identifiziert. Da leidet wirklich die Verständlichkeit.

Sonst aber ist der Beitrag ja einwandfrei produziert und auch sehr interessant. Man hat wirklich "nur" beim Sprecher gespart.

Ich weiß ja nicht, was für eine Stimme der Autor hat – schlimmer als das kann's aber ja wohl nicht sein.

thorr · 06. Januar 2024

BroadcastMirror schrieb:
Ohne diesen Kontext wirkt es einfach nur absurd und befremdlich. Vor allem weil man die Legacy TTS ala Alexa, Siri, etc. sofort raushört, moderne trainierte TTS klingt komplett anders.

Genau. Ich denke, dass KI-Modelle die englischen Begriffe nicht so radebrechend sprächen. Oder wie siehst du das, @TORZ.?

TORZ. · 06. Januar 2024

thorr schrieb:
Dann müsste allerdings der Silence Detector angesprungen sein...

Ich denke, dann wäre das doch auch sicher thematisiert worden und der Moderator hätte die Situation nach einigen Sekunden erläutert, um den Beitrag dann gegebenenfalls am Ende der Sendung nachzureichen. Aber gut, ich hätte ja auch gedacht, dass der DLF Experimente mit künstlichen Stimmen wenn, dann für die Hörer als solche gekennzeichnet ausstrahlt.

BroadcastMirror schrieb:
ging es in der Sendung thematisch um KI? Hab ich was verpasst/überlesen?

Ohne diesen Kontext wirkt es einfach nur absurd und befremdlich.

Genau das schrieb ich ja auch schon. Wäre das Ganze im Rahmen einer Sendung zum Thema KI oder künstliche Stimmen im Allgemeinen gelaufen, wäre das ja durchaus mal ein sehr interessantes Experiment gewesen. Man hätte die Hörer mitnehmen und ihnen erklären können, wie man ein Voicemodel erstellt, man hätte sogar die falschen Aussprachen thematisieren und anhand dieser erklären können, wie man diese behebt oder zumindest verringert. Denn da hätte es Möglichkeiten gegeben. Aus dem Fish Guide hätte man nur den "Fischgeid" machen müssen, aus Tayer wäre "Täjler" geworden und so weiter. Sowas ist für mich Alltag. Es gibt haufenweise Sprachausgabenfehler. Manche sind lustig und es hat sich an meiner Schule zu einer Art Sport entwickeln, sie zu sammeln. Andere sind aber einfach nur nervig und daher müssen wir den Sprachausgaben oftmals die richtigen Aussprachen beibringen. Entsprechende Aussprachewörterbücher sind in vielen Sprachausgaben auch angelegt, manches ist dort schon von Haus aus eingetragen, anderes muss erst manuell dort eingegeben werden.
Auf diese Weise hätte man das Endergebnis also wohl nicht perfekt, aber doch zumindest besser machen können, hat man aber eben nicht. Und so bleibt in Verbindung damit, dass es eben in der Tat klassische Sprachausgaben und keine KI-basierten Anwendungen im eigentlichen Sinne waren, der Eindruck eines richtig lieblos zusammengeschusterten Beitrags zurück.

thorr schrieb:
Genau. Ich denke, dass KI-Modelle die englischen Begriffe nicht so radebrechend sprächen. Oder wie siehst du das, @TORZ.?

Nun, sobald mehr als eine Sprache in einem Fließtext vorkommt, wird es immer etwas schwierig. Da passieren die dollsten Sachen, etwa, dass die Stimme mitten im Text plötzlich anfängt, mit Akzent zu sprechen, dass Zahlen in einem Deutschen Textumfeld plötzlich Englisch ausgesprochen werden (hier hilft dann nur, die Zahl als Wort auszuschreiben) und so weiter. Generell denke ich aber auch nicht, dass ein KI-Modell hier so imense Schwierigkeiten hätte.

Mannis Fan · 06. Januar 2024

Es war halt kalt in Alaska. Da verzerrt sich jede Stimme.

OnkelOtto · 07. Januar 2024

Mal davon abgesehen, dass es einem ernstzunehmenden Sender wie dem DLF gut anstehen würde, bei seinen Beiträgen auf Präsentationsqualität zu achten (auch beim DLF mittlerweile meist ein frommer Wunsch), habe ich folgende fiese Vermutung:
Bei dem Stück, das hier in der Diskussion steht, handelt es sich um eine (Auftrags-)Autorenproduktion, auf deren Entstehen der DLF selbst keinen unmittelbaren Einfluss nahm. Der Autor war vielleicht heiser oder aus anderen Gründen nicht in der Lage, das Teil selbst einzusprechen. Da durchzuckte es ihn und er sagte sich:
Mooooment mal, da gibt es doch kleine technische Helferlein, die das für mich übernehmen. So ließ er sprechen und baute am heimischen Rechner sein Stückerl zusammen, in der Hoffnung, dass der abnehmende Redakteur es nicht bemerken würde. So geschah es, dem Redakteur war es eh egal ("Klingt doch gut..."), bis dann einige impertinente Elemente in den hiesigen Foren dummerweise mit der Lupe lauschten...
Traurig nur, dass nun auch im Kölner Laden der Geist aus der Flasche ist.

AR!Organizer · 07. Januar 2024

TORZ. schrieb:
Treffer, versenkt! Ich hatte den Beitrag vorhin an eine Gruppe von KI-interessierten Kumpels weitergeleitet und die Analyse kam schneller als ich dachte. Hört Euch mal das erste Voiceover in dem Beitrag an und vergleicht es mit der männlichen Stimme von Amazon Alexa. Diese wird hier vorgestellt:

Die Stimmen dürften also aus diesem Pool stammen:

Text-zu-Sprache-Software – Amazon Polly – Amazon Web Services

Amazon Polly verwandelt Text in realistische Sprachausgabe, sodass Sie sprechende Anwendungen und ganz neue Kategorien sprachaktivierter Anwendungen entwickeln können.

aws.amazon.com

An sich ist das schon ein Ding, dass das so still und heimlich gemacht wurde. Ich meine, es ist ja kein Problem, sondern im Gegenteil sehr interessant, wenn man ein solches Experiment mal durchführt und entsprechend begleitet und aufbereitet, etwa in einer Wissenschaftssendung. Aber das einfach mal so zu machen und kein Wort darüber zu verlieren, halte ich nicht für richtig. So viel Transparenz sollte man seinen Hörern an sich schon schuldig sein, gerade wo das Thema KI aktuell ja in aller Munde ist.

deswegen mal nachfragen beim Kollegen Redakteur. Der Autor schein jedenfalls in Alaska zu sitzen.

rasu.kw · 09. Januar 2024

Hat denn mal jemand beim DLF nachgefragt? Eine Antwort wäre ja spannend.

Cringe04 · 10. Januar 2024

Passt nicht ganz in diesen Thread, trotzdem interessant:

KI-Spezial - Künstliche Intelligenz in Medien und Politik

Themen: Von ChatGPT zur Superintelligenz; KI und Copyright: Wer hat's erfunden?; Deep Fake - KI in der Bundespolitik; Medienschelte: Tschäd Dschi was?; Netzdenker-Ausblick: KI im Jahr 2024; Moderation: Anja Backhaus und Jörg Schieb

www.ardaudiothek.de

AR!Organizer · 11. Januar 2024

der Beitrag ist rein zufällig nicht mehr online...

thorr · 11. Januar 2024

Tatsächlich!

rasu.kw schrieb:
Hat denn mal jemand beim DLF nachgefragt? Eine Antwort wäre ja spannend.

Das werde ich mal machen.

Maschi · 11. Januar 2024

Typisch, einfach den "umstrittenen" Beitrag rauszunehmen war wohl komplizierter als die ganze Sendung (nur die Kaschubei ist noch dringeblieben).

Künstliche Stimmen als Ersatz für reale Mitarbeiter

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Gelöschter Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Neu auf RADIOSZENE