• Diese Kategorie ist für Diskussionen rund um die Programminhalte der Sender gedacht. Über Frequenzen und Empfang kann sich unter "DX / Radioempfang" ausgetauscht werden.

Künstliche Stimmen als Ersatz für reale Mitarbeiter

Bitte prüft auf Fehler:

Die Deutschlandfunk-Nachrichten von 19.00 Uhr - etwas gekürzt - mit einer KI-Stimme von Google vertont. Wenn einige Absätze durcheinandergeraten sein sollten bitte ich das zu entschuldigen, ich bin auf Achse und fummle auf meinem Tablet rum - ist ja nur 'ne Demo. Den Prompt liefere ich nach.


Als Skript diente der Online-Text auf der Seite des DLF:

 
Zuletzt bearbeitet:
Selbe Stimme, anderer Prompt, neuer Sound:

"Bitte trage den Text im Stil eines engagierten Journalisten in mittlerer Sprechgeschwindigkeit vor"


Quelle: Deutschlandfunk, als Manuskript veröffentlicht auf tagesschau.de

 
Zuletzt bearbeitet:
Wetten dass bei Voiceovers amerikanischer Dokusoaps mittlerweile mit KI gearbeitet wird?

Unter Server-Vollast treten hin und wieder kleine Artefakte auf, wie in diesem Hörbeispiel bei "englischsprachige Fassung". Premium-Pläne im gehobenen Preissegment garantieren angeblich priorisierte Zugänge, die das ausschließen.

Manche Fehler wirken auch gewollt oder wie menschliche Aussprache-Unschärfen. Ein Nutzer behauptete, eine Temperature von 0,6 schließe Pseudo-Versprecher aus, führe aber zu langweiligen Standardlesungen.

 
Zuletzt bearbeitet:
Zu Post 526, DLF-Nachrichten mit KI-Stimme:

Wenn der virtuelle Herr "echt" wäre und sich um eine Mikrofonprobe beworben hätte, würde ich ihm sagen:

"Die Anlangen sind durchaus vorhanden. Gute Phonetik, tragfähige Stimme. Sie treffen zumindest die Anmutung Klassische Hörfunknachrichten.
Aber: Den Inhalt des Textes haben Sie nicht durchdrungen. Sie gießen eine Art Betonungssoße über die Meldungen, treffen gelegentlich den Sinnkern, oft aber auch nicht, nach dem Motto 'Die Guten ins Töpfchen, die Schlechten ins Kröpfchen'.
Sie ermüden mich als Zuhörer durch immer gleiche Betonungsmuster, ackern durch den Textkörper wie ein Unimog, bemühen sich nicht, zumindest etwas 'Leben' in den Vortrag zu bringen. Sicher, Nachrichten brauchen im Vortrag keinen überbordenden Enthusiasmus, aber durch Raffungen und Dehnungen entsteht Lebendigkeit. Die Hinführungen zum Sinnkern eines Satzes arbeiten Sie nur ab, spielen aber nicht damit, bauen keine Spannung auf. Alles klingt noch sehr mechanisch.
Manche Betonungsbögen auf den Endsilben ziehen Sie zu sehr nach oben, was den Hörer glauben lassen könnte, dass Sie nicht textsicher sind.
Funktional ist Ihr Vortrag gewiss, mehr aber nicht.
Fazit: Beschäftigen Sie sich noch mal intensiv mit dem komplexen Thema Leselehre und kommen Sie im nächsten Jahr wieder. Der Nächste bitte..."

Arrogante Beurteilung aus der Sicht eines Sprechers aus Fleisch und Blut 😁
 
Zuletzt bearbeitet:
Da gebe ich Dir total recht @OnkelOtto .
Ich habe auch angeregt durch ein Posting hier (danke dafür!!!) mal Radio Lozärn ( https://www.radio-luzern.ch/ ), dieses Schweizer KI-Radio gehört, und da war es ganz genau so.
Irgendwie klingt es wie ein Moderator, die Anmutung stimmt. Aber es fehlt Variation und es wirkt unerklärbar seelenlos. Die Moderationen klingen nach Wikipedia-Musikfakten mit Blabla-Tagesanmutung und Veranstaltungskalenderdetails.

Was mich aber dann richtig genervt hat, war, dass sie ihren KI-Mod mit Namen versehen und quasi als Mensch nach außen vermarkten. Als Feigenblättchen wird dann mal irgendwo im Promo huschhusch erwähnt, dass alles KI ist, aber das geht schnell unter. Und zu versuchen, KI als Mensch zu verhökern finde ich einfach unlauter.



(PS: nach wie vor liebe ich übrigens Deine Id, @OnkelOtto )
 
Zuletzt bearbeitet:
unerklärbar seelenlos.
Danke, Lisa. Da sehen wir die Dinge ja ziemlich ähnlich. Vor einiger Zeit wurde dieses "unerklärbar Seelenlose" recht nachvollziehbar erklärt. In einem 3Sat-Beitrag zum Thema Stimme hieß es sinngemäß, dass es viele Sub-Elemente in der menschlichen Stimme gebe, die das Zusatzsignal "Hier spricht ein Mensch zu mir" besitzen und die wir nur unterbewusst wahrnehmen. Aber ich bin sicher: Auch dieses "Problem" wird in kürzester Zeit (leider) behoben sein.
 
Zuletzt bearbeitet:
Danke für die eingehende Beurteilung, Onkel Otto.

Natürlich kann man Nachrichten auch so lesen... 😇 Im ersten Teil maßvoll, habe ich die Euphorik ab der Ukraine-Meldung noch etwas angehoben.


Wenn dir diese Version nicht zusagt springe gleich zu dieser Datei. So hört sich die Stimme an, wenn man bei identischem Prompt die Temperature von 1 auf 0,65 herabsetzt. Frappierend, nicht?


Emotionen sind bei dieser Textsorte ja immer heikel. Es handelt sich wieder um die selbe Sprechstimme wie im obigen, von dir bewerteten Beispiel, dessen Vorlage fehlerhaft war.
 
Zuletzt bearbeitet:
Welche KI Software und welche Schritte werden z.B. Arabella oder Allgäu Hit für den automatisierten Verkehrsservice verwendet?
Konkret: Kann ich das auch als "Webstreamprogramm" umsetzen? Wie kann man das konkret umsetzen?
 
Zuletzt bearbeitet:
Zu später Stunde und nach langem Hin- und Herexperimentieren noch ein spannender Vergleich.

Bleiben wir bei dem Dialog, den ich gerade aus meinem gestrigen Beitrag erstellt habe. Bei einer Temperature von 1,0 wirkt er sachlich aber nicht langweilig. Hier nochmal zum Nachhören:


Krass wird es aber wenn man die Temperature hochschraubt. Dann werden die Vorlesestimmen immer spontaner, und je höher man geht desto überdrehter und unerwarteter agieren sie. Bei einer Temperature von 1,1 hört sich das noch recht lebendig und sympathisch an - Mini-Versprecher und kleine Nachdenkpausen wirken bei Plaudereien ja durchaus charmant:


Ab einer Temperature von 1,2 werden die Auffälligkeiten immer mehr und vor allem exaltierter, sodass ich je nach Gesprächssituation wahlweise bei 1,0 oder 1,1 bleiben würde. Bei Nachrichten und trockenen Stoffen, die sich strikt an der Vorlage orientieren, kann man bis auf 0,65 runtergehen.

Zu Post 526, DLF-Nachrichten mit KI-Stimme:

Die Anlangen sind durchaus vorhanden. Gute Phonetik, tragfähige Stimme. Sie treffen zumindest die Anmutung Klassische Hörfunknachrichten.
Aber...Sie ermüden mich als Zuhörer durch immer gleiche Betonungsmuster

Du siehst, lieber Onkel Otto, es geht eben auch ganz anders. Wir lernen jeden Tag erstaunlich viel dazu.
 
Zuletzt bearbeitet:
Dir gebührt Dank, dass Du uns diese unterschiedlichen Beispiele hier vorstellst, Ricochet. Es ist wirklich verblüffend, vor allem klingen die Dialoge noch wesentlich lebendiger als in den "Aufnahmen" der vergangenen Wochen.
Bei den Nachrichten muss ich leider bei meiner Beurteilung bleiben: Die KI muss noch viel lernen. Im zweiten Nachrichtenbeispiel klingt der "Sprecher" wie Sebastian von den Essencheckern, nicht wie ein Präsentator von Hörfunkmeldungen. Interessant, dass Sachtextpräsentation nach den Kriterien der Leselehre offenbar schwieriger hinzukriegen ist als ein moderativer Dialog.
 
Im zweiten Nachrichtenbeispiel klingt der "Sprecher" wie Sebastian von den Essencheckern, nicht wie ein Präsentator von Hörfunkmeldungen.

Diese Google-Sprachsynthese ist eine Wissenschaft für sich. Ich bin mir sicher dass man mit den richtigen Anweisungen noch viel mehr rausholen kann, manche schreiben da ja halbe Romane rein:). Auch mit speziellen Attributen, die "Sprecher" im konkreten Anforderungsfall mitbringen müssen, kann man es versuchen.

Ich bleibe dran.
 
@OnkelOtto : Vielleicht kann ich dich mit diesem Prompt mehr überzeugen:

"Bitte lies die Nachrichten freundlich, interessiert und seriös"


Die Temperature lag bei 1,0 was bedeutet, dass typisch menschliche Unschärfen bei der Lautbildung vorkommen können.

Vorlage war ein Nachrichtentext vom vergangenen Jahr
 
Zuletzt bearbeitet:
  • Like
Reaktionen: JP
So in etwa ist "Der Tag um..." von WDR Aktuell präsentiert, deshalb fällt mir zumindest bei diesem Beispiel die "Unnatürlichkeit" auf. Es klingt ziemlich echt, aber irgendetwas fehlt mir.
 
Ja, es klingt wie ein deutscher Synchronsprecher, der für einen Tom-Cruise-Film einen amerikanischen Nachrichtensprecher aus dem Off synchronisiert.😉 Die Differenzierung zwischen den einzelnen Meldungen fehlt noch völlig. Dazu müsste die KI allerdings erkennen, was sie da liest, also, welchen Inhalt die Meldung hat. Wird auch bald kommen.
 
  • Like
Reaktionen: JP
@ricochet

Nimm doch mal dieses Urteil von @OnkelOtto und füttere Deine KI damit. Gibt Ihr den Auftrag, diese Anmerkungen bitte zu berücksichtigen und noch einmal neu zu sprechen. Dann schauen wir mal, wie schnell sie lernt:

"Die Anlangen sind durchaus vorhanden. Gute Phonetik, tragfähige Stimme. Sie treffen zumindest die Anmutung Klassische Hörfunknachrichten.
Aber: Den Inhalt des Textes haben Sie nicht durchdrungen. Sie gießen eine Art Betonungssoße über die Meldungen, treffen gelegentlich den Sinnkern, oft aber auch nicht, nach dem Motto 'Die Guten ins Töpfchen, die Schlechten ins Kröpfchen'.
Sie ermüden mich als Zuhörer durch immer gleiche Betonungsmuster, ackern durch den Textkörper wie ein Unimog, bemühen sich nicht, zumindest etwas 'Leben' in den Vortrag zu bringen. Sicher, Nachrichten brauchen im Vortrag keinen überbordenden Enthusiasmus, aber durch Raffungen und Dehnungen entsteht Lebendigkeit. Die Hinführungen zum Sinnkern eines Satzes arbeiten Sie nur ab, spielen aber nicht damit, bauen keine Spannung auf. Alles klingt noch sehr mechanisch.
Manche Betonungsbögen auf den Endsilben ziehen Sie zu sehr nach oben, was den Hörer glauben lassen könnte, dass Sie nicht textsicher sind.
Funktional ist Ihr Vortrag gewiss, mehr aber nicht.
Fazit: Beschäftigen Sie sich noch mal intensiv mit dem komplexen Thema Leselehre und kommen Sie im nächsten Jahr wieder. Der Nächste bitte..."
 
Es gibt einfach immer wieder Betonungsfehler, die einem auch ohne tiefere Kenntnisse der Leselehre und Phonetik "ins Ohr stechen": "wochenlang" sollte man nicht auf der 3. Silbe "betohn", wie die KI die Grundform dieses Verbs sowie identisch buchstabierte Konjugationen ausspricht. Dieses Weglassen des "en" am Ende ist aber keine rein künstlich intelligente, sondern eher eine gesamtgesellschaftliche Entwicklung. Zumindest dort, wo der ortsübliche Dia- oder Regiolekt nichts Anderes vorgesehen hat (wie z.B. hier im Schwäbischen). Wie die US-News dagegen wohl auf Altmühlfränkisch klängen? Weiß nicht, ob ich das wirklich gehört haben muss. :-)
 
Dazu müsste die KI allerdings erkennen, was sie da liest, also, welchen Inhalt die Meldung hat. Wird auch bald kommen.

Das kann sie eigentlich schon denn das Skript wird von einem großen Sprachmodell gecheckt, das die Zusammenhänge kennt. Aber dises Wissen steht in einem Spannungsverhältnis zu dem zu befolgenden Prompt und benutzerdefinierten Einstellungen, bei realen Personen wäre das der eingeschliffene oder antrainierte Vortragsstil.

Wenn man sich reale Nachrichtensprecher anhört haben die auch ihre Macken und Stereotypen, und wenn man ehrlich ist ist die Varianz der Lautbildung bei der Google TTS groß. Jagt man den selben Text noch mal durch den Generator klingt er von der Anmutung her anders und wird auch in Nuancen anders ausgesprochen. Es handelt sich also bei jedem Erzeugnis um eine unwiederbringliche Einzelanfertigung, die in dieser Eigenart nicht wiederholt werden kann.

Wie beim Menschen.

Es klingt ziemlich echt, aber irgendetwas fehlt mir.

Hört der Mensch eine KI-Stimme, von der er weiß dass sie nicht echt ist, findet er immer ein paar Haare in der Suppe. Man will einfach nicht wahrhaben dass Computer den Menschen exakt imitieren können. Ich suche auch permanent nach Fehlern und Abweichungen vom menschlichen Vorbild.
 
Zuletzt bearbeitet:
Es gibt einfach immer wieder Betonungsfehler, die einem auch ohne tiefere Kenntnisse der Leselehre und Phonetik "ins Ohr stechen": "wochenlang" sollte man nicht auf der 3. Silbe "betohn"....

In einer neuerlichen Generierung desselben Textes spricht die Stimme "wochenlang" anders aus. Das Ergebnis ist - wie gesagt - genauso unvorhersehbar wie bei echten Menschen.

 
Zuletzt bearbeitet:
Hört der Mensch eine KI-Stimme, von der er weiß dass sie nicht echt ist, findet er immer ein paar Haare in der Suppe. Man will einfach nicht wahrhaben dass Computer den Menschen exakt imitieren können. Ich suche auch permanent nach Fehlern und Abweichungen vom menschlichen Vorbild.
In diesem Fall ist es wirklich nur exakt das Beispiel, wobei ich da auch eher sagen würde, dass mir bei der Art des Vortrages etwas fehlt, nicht, dass es direkt eine KI ist.
Bei den anderen KI-Texten wäre mir vermutlich einfach nicht mal aufgefallen, dass es eine KI ist.
 
Zuletzt bearbeitet:
Zustimmung, JP. Ich will gar nicht wissen, wie oft ich auch schon auf eine KI-Stimme hereingefallen bin. Wobei das Wort "hereingefallen" sehr wertend klingt. Nehm' ich zurück. ;) Denn wenn die Stimme mich funktional erreicht, also den Dienst leistet, eine wenig komplexe Information verlustfrei vorzutragen, dann ist die Aufgabe ja ausreichend erfüllt.

In der Analyse der Sprechleistung Hörfunknachrichten aber, die über Generationen von Menschen ausgeführt wurde und zum Glück meist immer noch wird, höre ich natürlich genauer hin. Es ist/war ja mein ureigenster Beritt.
Das klassische Nachrichtensprechen hat in diesem Zusammenhang das immanente "Problem", dass man es oberflächlich gut imitieren kann: Betonungsmuster eher flach, Nadelstreifen in den Kehlkopf, präzise Phonetik, fertig. Schon klingt es nach Nachrichten mit den Signalen Kompetenz und Glaubwürdigkeit. Und viele werden aus der Präsentation sicher auch ihren Nutzen ziehen.
An dieser Stelle könnte man sagen: "Ja, reicht doch auch aus!"

Aufgabe des Sprechers klassischer Hörfunknachrichten ist aber neben der Aussendung des oberflächlichen Signals Kompetenz, die inhaltlichen Subtext-Beziehungen innerhalb der Meldung zu erkennen und diese z.B. durch Betonungsverläufe und Schwerpunktsetzungen, Pausenlängen und differenzierte Klanganmutung hörbar zu machen. Ich gebe also dem Zuhörer im Idealfall eine zusätzliche Hilfe zum Verstehen der oft komplexen Texte - über das reine Verlesen "im Nachrichtenstil" hinaus; ein Präsentationsgerüst, das es auch unterbewusst dem Hörer erleichtert, den Inhalt einer Meldung aufzunehmen und letztlich gut zu verstehen.

Ich sage extra Idealfall. Denn im hektischen Redaktionsalltag wird es nicht immer möglich sein, jede Meldung optimal sprecherisch aufzubereiten, schon gar nicht bei Prima-Vista-Texten, die plötzlich ins Studio flattern oder auf dem Bildschirm landen.

Neugierig warte ich darauf, dass die KI die oben beschriebenen Verästelungen der Textpräsentation auch noch bewältigt und nicht nur mehr oder minder wage eine Anmutung trifft. Das tut sie allerdings schon verblüffend gut.
 
Zurück
Oben