• Diese Kategorie ist für Diskussionen rund um die Programminhalte der Sender gedacht. Über Frequenzen und Empfang kann sich unter "DX / Radioempfang" ausgetauscht werden.

Künstliche Stimmen als Ersatz für reale Mitarbeiter

So, angehört. Interessant ist, dass man wohl keinen eigenständigen Voice-Klon von Rosenthal erstellt hat, der also selbst den eingegebenen Text spricht, sondern offenbar wie eine Art Stimmenverzerrer die KI auf das gesprochene Wort von Herrn Bei der Kellen gelegt hat. Man merkt das am Duktus, der sich bei beiden sehr ähnelt. Das führt denn auch dazu, dass die Rosenthal-KI nicht wirklich überzeugend nach ihm klingt, jedenfalls, wenn man sich im Vergleich dazu alte Originalaufnahmen anhört.
 
So, angehört. Interessant ist, dass man wohl keinen eigenständigen Voice-Klon von Rosenthal erstellt hat, der also selbst den eingegebenen Text spricht, sondern offenbar wie eine Art Stimmenverzerrer die KI auf das gesprochene Wort von Herrn Bei der Kellen gelegt hat. Man merkt das am Duktus, der sich bei beiden sehr ähnelt.
Ich hatte einen ähnlichen Gedanken: bei der Kellen hört sich auch wie KI an, wenn man weiß, dass Rosenthal KI ist.

PS: Wozu brauchte man dafür ZDF digital? Halten die noch Rechte an Rosenthal? :cry: Ich sage mal spöttisch, das was man gehört hat, hätte auch ein blickiger Werkstudent/Volontär mit Youtube und den Testphasen von einschlägigen Online-KI-Tools hinbekommen.
 
Zuletzt bearbeitet:
Du meinst, man habe sowohl Rosenthal, als auch Bei der Kellen geklont? Hm, denke ich eher nicht, zwei KI-Klons haben für gewöhnlich nicht die gleiche Sprechweise. Wahrscheinlicher scheint mir da tatsächlich, dass wir hier durchgehend Herrn Bei der Kellen hörten, nur eben zeitweise mit einer ähnlichen Stimme wie Hans Rosenthal.
 
Du meinst, man habe sowohl Rosenthal, als auch Bei der Kellen geklont?
Nein, das nicht. Aber man hat gemerkt, dass der Text vom selben Autor stammte, bei der Kellen also wie mit sich selbst sprach. Wobei man natürlich zugeben muss, dass eine so bekannte und ausdrucksbreite Stimme, wie die von Hans Rosenthal, eine harte Nuss für eine glaubhafte Nachbildung ist.

Man sollte es als "Experiment" abheften, das man in dieser Art nicht wiederholen braucht.
 
Zuletzt bearbeitet:
Man hätte einen Sprecher gebraucht, der Rosenthals Sprechweise imitiert, um das Material dann der KI zu übergeben. Soweit zur Technik. Inhaltlich hat mir die Sendung sehr gefallen.
 
Man hätte einen Sprecher gebraucht, der Rosenthals Sprechweise imitiert, um das Material dann der KI zu übergeben.
Ja, oder man hätte einen Voice-Klon erstellen müssen, der in der Lage ist, geschriebenes Wort direkt in die Rosenthalsche Stimme umzusetzen. Das war tatsächlich auch das, mit dem ich eigentlich gerechnet hätte. Warum man das so nicht gemacht hat? Entweder, das war eine Bedingung seitens seiner Familie oder genau das wurde zwar probiert, funktionierte aber nicht zufriedenstellend. Das würde mich dann doch etwas wundern, denn sicher, genauso wie das Original kriegt man das wohl nicht hin, aber zumindest mehr Ähnlichkeit mit dem Original als bei der heute Morgen verwendeten Variante würde ich dabei erwarten. An Trainingsmaterial dürfte es dem DLR ja an sich nicht gemangelt haben, denke ich. Ich glaube fast, ich muss die Tage mal das Experiment machen und einen Kumpel, der in solchen Fragen sehr routiniert ist, fragen, ob er mir seinerseits mal einen Rosenthal-Klon erstellen kann, der dann eben tatsächlich auf Text-to-speech-Basis läuft.
 
Warum man das so nicht gemacht hat?
Die Idee kam ja von der oberen Etagen des Deutschlandradios. Es war mehr oder weniger gefordert Material zu beschaffen, dass Ralf Bei der Kellen herausgesucht hatte und dann an ZDF Digital geschickt hat. Auf Grundlage dieses Materials wurde dann das erzeugt, was heute zu hören war. Vermutlich gab es nicht so viel anderes Material, das geeignet war, Rosenthal lebhafter abzubilden. Kurzum KI kann schon viel, aber alles was das Menschliche ausmacht, da gibt es (Gott sei dank) noch viel, viel Luft nach oben.
 
Rosenthal hatte eine etwas euphorischere Sprechweise. Und was ebenso fehlte war der typische Berliner Akzent, der den Entertainer auszeichnete. Da hätte es schon eines Stimmparodisten oder einer etwas fortschrittlicheren KI bedurft...
 
Vermutlich gab es nicht so viel anderes Material, das geeignet war, Rosenthal lebhafter abzubilden.
Wohl kaum, immerhin stünden hier RIAS-Archiv UND ZDF-Archiv zur Verfügung.
Aber man sollte schon im (Kosten-)Auge behalten, dass es um eine kleine Sendung im DLFK-Sonntagsvormittagsprogramm ging, das rechtfertigt wohl nicht maximalen Aufwand.
 
Ja, oder man hätte einen Voice-Klon erstellen müssen, der in der Lage ist, geschriebenes Wort direkt in die Rosenthalsche Stimme umzusetzen. Das war tatsächlich auch das, mit dem ich eigentlich gerechnet hätte. Warum man das so nicht gemacht hat?

Offenbar wollte man das nicht, weil man eine Verwechslungsgefahr von Anfang an ausschließen wollte. So machte das Experiment jedenfalls keinen Sinn, da niemand ohne speziellen Hinweis jemals auf die Idee gekommen wäre, dass die zweite Stimme ein Rosenthal-Klon sein könnte.

Mit Heygen funktionieren Intonation und Akzentuierung auf TTS-Basis weitaus besser, da spricht Trump sogar Deutsch:

https://www.radioforen.de/threads/k...atz-fuer-reale-mitarbeiter.47386/post-1035294
 
Zuletzt bearbeitet:
Aber man sollte schon im (Kosten-)Auge behalten, dass es um eine kleine Sendung im DLFK-Sonntagsvormittagsprogramm ging, das rechtfertigt wohl nicht maximalen Aufwand.
Naja, ein bisschen mehr Einsatz hätte man sich aber schon erwarten können, in Anbetracht der Tatsache, dass vorher ja durchaus recht intensiv die Werbetrommel gerührt wurde.
So machte das Experiment jedenfalls keinen Sinn, da niemand ohne speziellen Hinweis jemals auf die Idee gekommen wäre, dass die zweite Stimme ein Rosenthal-Klon sein könnte.
Das stimmt. Ich traf mich vorhin mit Freunden, wir machen als Dreierklique recht viel mit KI. Ich zeigte ihnen das und sie teilten meine Vermutung, dass hier einfach Herr Bei der Kellen den Rosenthalschen Part spricht und da dann eben bloß die andere Stimme drübergelegt wird. Kommentar: "Das klingt fast genauso wie der Moderator, nur ein bisschen höher". Ja, das fasst es eigentlich ganz gut zusammen.
da spricht Trump sogar Deutsch:
Zum Schmunzeln am Rande: Er singt sogar Deutsch und das gar nicht mal so wenig authentisch, wenn man möchte:
Klar, mit dem Berlinerischen am Anfang hat er noch so seine Probleme und die Stellen mit der gröhlenden Menge bringen ihn auch noch etwas aus dem Konzept, so dass er wirklich irgendwie betrunken klingt, aber gerade in Anbetracht der Tatsache, dass dieses Stückchen nun auch schon wieder beinahe zwei Jahre auf dem Buckel hat, ist das schon beachtlich.
 

Eine hilflos wirkende Aktion, mit dem Hoffen auf die Politik. Ist Synchronisation nicht mehr Industrie als Kunstform? Die Gedanken aufgreifend könnte man auch argumentieren, dass Synchronisation genauso ein "Fake" ist wie KI-Stimmen. Beides ist eben nicht "echt".

"Lasst euch nicht nehmen, was ihr liebt: Fesselnde Filme mit Stimmen von echten Menschen mit echten Gefühlen."

Hollywood oder von mir aus die deutsche Film- und TV-Branche - Echte Gefühle wären mit das ganz letzte, was ich damit in Bezug bringen würde. Es bleibt eben forever: It´s Showbusiness.
 
Zuletzt bearbeitet:
So verständlich die Beweggründe der Synchron- und Sprechergilden auch sein mögen, sie werden doch nicht ernsthaft erwarten dass die KI-begeisterten Konsumenten auf die Barrikaden steigen um ihre ihre Jobs zu retten oder die Politik den kommerziellen Einsatz moderner Technologien verbieten oder reglementieren wird.
 
Zuletzt bearbeitet:
Das Thema KI und Film kann langfristig auch zum großen Bumerang werden. Es existiert heute bereits ein gefühltes Überangebot an Content. Sofern dieses Angebot durch den Einsatz von KI weiter anwächst und zeitgleich der Inhalt immer weiter abstumpft, müssen Produzierende vielleicht wieder mehr klassisches Handwerk wagen (oder auf die neueste Version von ChatGPT updaten).
 
Hat damit schon jemand Erfahrungen gemacht?


LEST MAL DIE FAQ (rechts oben)
 
Zuletzt bearbeitet:
Also mit sind bislang drei "semi-künstliche" Stimmen aufgefallen und zwar bei Sendern die eben aktuell was bringen wollen und niemand vor Ort ist beim Thema Verkehr

AllgäuHit: hier kommen die Meldungen auch vom PC mit Sound-Schnipseln
Radio 2Day: hier ist Alex Bertelshofer die Stimme, die auch Nachts den Verkehr bringt
SWR Stauhotline auf der 07221/9282 .. dito

Das hört sich manchmal etwas holprig an, wird aber immer besser und man hat aktuelle Infos. Das finde ich besser als gar kein Verkehrsservice.
 
Toll! Selbst das Ploppen der Schnorchel-Mikros ist perfekt nachgebildet. Die Radiozukunft kann kommen.
Bitte nicht! KI schafft Arbeitsplätze ab! Nicht nur im Radio! Dafür braucht es nur gesunden Menschenverstand! M.E. hat eine KI im Radio nichts verloren. Moderationen sollten von Menschen gemacht sein. Alles andere ist Gruselig! 🧐
 
Zurück
Oben