• Diese Kategorie ist für Diskussionen rund um die Programminhalte der Sender gedacht. Über Frequenzen und Empfang kann sich unter "DX / Radioempfang" ausgetauscht werden.

Künstliche Stimmen als Ersatz für reale Mitarbeiter

Für die Programme, die hier überwiegend diskutiert werden, also Oldie-, Pop- und Schlagerwellen, braucht man in der Tat keine Moderatoren mehr.
Non-Stop-Musik, dazwischen ein paar alberne Jingles, vom Band gelegentlich ein Pop-Histörchen oder einen Tourneehinweis, oder, wenn man besonders anspruchsvoll sein will, mal einen Film-Tipp, schon ist das Programm, das auf SWR1, HR1 usw rauf und runter läuft, fertig.

Das Programm ist mittlerweile überall so dünn, da braucht man nicht mal mehr eine KI.
 
Der Chatbot Monica hat eine sehr natürliche Vorlesestimme, die angeblich der kostenpflichtigen Stimme von Perplexity entspricht, kann aber unbegrenzt gratis genutzt werden (Monica greift in der Free-Version standardmäßig auf Perplexity zu).

Besonders charmant finde ich den nur sehr dezenten britischen Akzent, der im Hintergrund manchmal mitschwingt. Die Sprachmelodie ist nach meinem Empfinden sehr menschlich, nüchtern und sachlich. Für Podcasts fände ich sie passend, kommt sie irgendwem bekannt vor oder weiß jemand wo man sie lizenzsieren kann?


Edit: Habe gerade den Chatbot selbst gefragt:

Die angenehme Stimme des Chatbots Monica stammt aus dem Labor von OpenAI, das für die Entwicklung fortschrittlicher KI-Modelle verantwortlich ist. Monica basiert auf dem LLM gpt-4o-mini, das speziell darauf trainiert wurde, menschenähnliche Konversationen zu führen und hilfreich zu sein. Wenn du weitere Fragen hast, stehe ich gerne zur Verfügung!
 
Zuletzt bearbeitet:
Dein Post, Ricochet, bringt mich auf die Frage: Kann die KI sächsisch? Ernst gemeinter Hintergrund: Könnte eine KI einen Dialekt in all seinen Verästelungen und Melodiebewegungen reproduzieren oder imitieren? Oder würde das Instrument hier an seine Grenzen stoßen, weil eine Normierung wie in der hochdeutschen Standardlautung ja wegfällt?
 
Ja klar, wenn genug Trainingsdaten in Form verlässlicher Sprachaufnahmen vorhanden sind klappt das sehr gut. Vor der Sprachausgabe müssen bei echten Dialekten aber auch noch Übersetzungen in Lautschrift durchgeführt werden sowie Wortschatz und Grammatik angepasst werden - dafür braucht es ein gut trainiertes Sprachmodell.

Bei Schweizerdeutsch funktioniert das dank leichter Verfügbarkeit über die Medien bereits ganz hervorragend. Die Tage hatte ich das Vergnügen die Bayrisch-Variante von Eleven Labs zu testen, die klang in etwa so als ob ein Wiener Bayrisch nachäffen würde. Hierbei stand den Entwicklern wohl nicht ausreichend bzw. das falsche Trainingsmaterial zur Verfügung.
 
Zuletzt bearbeitet:
Faszinierend! Leider würden meine neugierigen Nachfragen dazu den Thread sprengen. Danke für Deine prompte Antwort, Ricochet.
 
Beim TV-Zappen kurz bei "2001 - Odyssee im Weltraum" von Stanley Kubrick hängen geblieben: 1968 uraufgeführt, wird in diesem Science-Fiction-Film ein Computer inszeniert, dem heute nach 57 (!) Jahren KI immer näher kommt. Wahrlich unglaublich, 1968 so weit zu denken und heute ebenso unglaublich zu sehen, wie weit Technik sich zu vermenschlichen in der Lage ist, es zumindest versucht.
 
Naja, auf den Kontext im Film kommt es an… Man nehme mal den Namen des Computers is dem Film und gehe bei der dortigen Herstellerbezeichnung je einen Buchstaben weiter, dann erahnt man, welche damals weit verbreitete Firma mit der Geschichte nichts zu tun haben wollte… 😉
 
Ich lese aber, dass dies ein unbeabsichtigtes Gerücht sei. Der Name HAL wurde gewählt, um eine technisch klingende, plausible Abkürzung zu erzeugen, die zur Funktion des Computers passt – Heuristic Algorithmic Logic. Stanley Kubrick und der Schriftsteller Arthur C. Clarke, die gemeinsam die Figur HAL 9000 entwickelt haben, hätten betont, dass HAL nichts mit IBM zu tun hat. IBM war sogar in gewisser Weise in die Produktion des Films involviert und hatte nichts dagegen, solange HAL nicht als Produkt von IBM dargestellt wurde.

Dennoch faszinierend, wie weit sich KI heute an die Fiktion von vor über fünfzig Jahren angenähert hat.
 
Auch für Radiosender ist es zunehmend wichtig hochwertig vertonte Videos für ihre Social-Media-Auftritte zu generieren. In ein paar Monaten wird Google eine Videoerstellungsfunktion zu Gemini hinzufügen, die zahlenden Nutzen bereits jetzt in der Workspace zur Verfügung steht.

Dabei handelt es sich um "Google Vids", einen Dienst, mit dem sich in wenigen Minuten professionell wirkende, voll animierte und grafisch aufgepeppte Videos herstellen lassen, die auf Wunsch auch mit Stock-Fotos oder hochgeladenem Material angereichert werden können.

Damit lassen sich Videos anfertigen, die qualitativ mit den Erklärfilmchen der beliebten ARD-Show "Wer weiß denn sowas?" vergleichbar sind, aber längenmäßig weit darüber hinausgehen können. Da alles per KI erstellt wird können selbst blutige Laien zu Werke schreiten, sogar beim optimalen Prompting ist das Tool behilflich, Sprechstimme und Script erstellt Vids auf Wunsch automatisch.

Theoretisch können - wie beim Bilderzeugungsdienst Napkin - auch Texte in Videos verwandelt werden. Das ist zwar eine Wundertüte, das Ergebnis fasziniert jedoch immer wieder.

 
Zuletzt bearbeitet:
Lieber Onkel Otto, liebe Radioforen-Gemeinde: Ich habe eine gute und eine schlechte Nachricht.

Die gute Nachricht: Endlich ist die Killer-Applikation da, mit der man Texte von KI-Stimmen in natürlichem Tonfall auf dem Niveau von ausgebildeten Sprechern vortragen lassen kann.

Die schlechte: Eben jene Sprecher, Synchronschauspieler und Rezitatoren wird das vermutlich weniger freuen.

Die neuen KI-Stimmen von Google mit angeschlossenem Sprachmodell können jetzt kommerziell in großem Maßstab für verhältnismäßig wenig Geld für die verschiedensten Einsatzzwecke genutzt werden.

Ich war so frei mir Gasthörers Beitrag aus diesem Diskussionsfaden "auszuleihen", in Googles Workspace zu kopieren und in der Grundeinstellung vertonen zu lassen. Man kann noch jede Menge Änderungen in der Tonalität vornehmen, Stimmen nach Belieben austauschen, mehrere Sprecher(innen) einander abwechseln lassen u.v.m. Ein andermal mehr dazu.

 
Stimme 1 hat sogar einen leichten Berlin-Brandenburgischen Drall....

Fürs Gendern bin ich verantwortlich, schließlich ist es mein obiger Beitrag, den die Stimme vorliest. Auf den Duktus kann man per Prompt Einfluss nehmen, aber so weit bin ich noch nicht.
 
Zuletzt bearbeitet:
So jetzt habe ich noch ein bisschen rumexperimentiert, geht noch viel einfacher als bei Eleven Labs.

Der Prompt lautete: "Bitte trage den Text sachlich und ruhig im Stil eines Nachrichtensprechers vor"

Als Text verwendete ich einen Beitrag aus der Online-Ausgabe der Tagesschau: "Wie Trump die NATO unter Druck setzt" von Washington-Korrespondent Ralf Borchard.

Vorgelesen wird er aber nicht von Ralf Borchard sondern von einer KI-Stimme von Google.


Da staunt der Laie und der Fachmann wundert sich.
 
Zuletzt bearbeitet:
Ja, beeindruckend - aaaaber: Als Nachrichtensprecher aus Fleisch und Blut empfinde ich ihn noch immer nicht. Er liest gut und brav vor (fein gemacht), aber er leistet sich noch Fehlbetonungen, erkennt nicht, dass der amerikanische Name bereits schon mal aufgetaucht war, bleibt im Duktus mechanisch. Dennoch: respektabel.
 
Man muss aber ehrlicherweise dazusagen dass Fehlbetonungen auch bei Menschen zuhauf passieren, von Versprechern mal ganz zu schweigen. Und bei "der eine Unsicherheitsfaktor", der mir als einziger Fauxpas auffiel, würden vermutlich auch viele menschliche Sprecher die Betonung auf den Unsicherheitsfaktor legen, was ich als gestrenger Prüfer auch noch durchgehen ließe. Die allermeisten Zuhörer dürften diesen Audio-Beitrag jedenfalls nicht mehr als synthetisch erzeugtes File identifizieren können.

Natürlich hören wir bei KI-Stimmen ganz genau hin und sind oft kritischer als bei richtigen Sprechern, bei denen wir kleinere Fehler kaum wahrnehmen. Am amerikanischen Namen bin möglicherweise ich selbst schuld weil ich den Text gekürzt habe, um einen längeren O-Ton zu umgehen (vergleiche Original-Radiobeitrag von Ralf Borchard auf tagesschau.de). Tja, und klingen nicht alle seriösen Nachrichtensprecher etwas mechanisch (beachte den Prompt)?

Ich danke dir jedenfalls sehr herzlich dass du dich mit den von mir getesteten TTS-Stimmen der Google-Cloud als Profi inhaltlich so intensiv auseinandersetzt, denn diese Technologie bietet eine Fülle an Möglichkeiten Radiosender in unmoderierten Abendstrecken inhaltlich eventuell wieder etwas aufzuwerten. Die Auswirkungen auf die Synchron- und Hörbuchbranche werden aber vermutlich dramatische Ausmaße annehmen, die diesbezüglichen Warnungen wollten wir ja lange nicht ernst nehmen.

Als nächstes werde ich ein wenig mit Akzenten experimentieren, erste Versuche haben mich bereits sehr verblüfft.

Weiß eigentlich jemand welche TTS-Systeme bei deutschen Radiosendern bereits im Einsatz sind?
 
Zuletzt bearbeitet:
Zunächst mal ein großes Dank für die ganze Forschungsarbeit. Steht sicher auch wieder ins Haus, die letzten Versuche mit KI-Vertonunug sind schon eineinhalb Jahre her und wären nicht sendbar gewesen (probiert, als Forschungsprojekt, in einer „Anstalt“ in der Hauptstadt)
Natürlich hören wir bei KI-Stimmen ganz genau hin und sind oft kritischer als bei richtigen Sprechern, bei denen wir kleinere Fehler kaum wahrnehmen.
Dem ist, zumindest, wenn die Regler unter meinen Fingern lagen, definitiv nicht so.
.Tja, und klingen nicht alle seriösen Nachrichtensprecher etwas mechanisch (beachte den Prompt)?
Klares nein. Die Guten klingen nicht „etwas mechanisch“.

Die Auswirkungen auf die Synchron- und Hörbuchbranche werden aber vermutlich dramatische Ausmaße annehmen, die diesbezüglichen Warnungen wollten wir ja lange nicht ernst nehmen.
Es gibt den Konsumentenfaktor, der KI generell kritisch gegenüber zu stehen scheint. Da können Produktionen zukünftig dann mit dem Attribut „von echten Menschen gesprochen“ punkten.

Weiß eigentlich jemand welche TTS-Systeme bei deutschen Radiosendern bereits im Einsatz sind?
Läuft/ lief nicht schon „Leslie Hodam v1.0“? 😉
 
Beim Hörbeispiel war - bedingt durch die Kürzung - ein Absatz doppelt. Ich poste derzeit viel auf dem Android-Tablet, und da ist man in Sachen Textbearbeitung, Scrolling, Tippen etc. sehr eingeschränkt.
 
Zuletzt bearbeitet:
Kleinere Probleme hat die KI noch bei zusammengesetzten Wörtern, selbst dann, wenn man der korrekten Betonung mit einem Bindestrich auf die Sprünge hilft: Aus "Radioforen-Gemeinde" wird "Radio-Forengemeinde". Schwierig sind ferner Abkürzungen wie "bzw." oder "usw."", da der Punkt scheinbar ein Satzende markiert: "und so weiter." und dann kommt lange nichts.

Manche Betonungsschwächen lassen sich durch eine KI-freundliche Formulierung des einzusprechenden Materials aber ausmerzen. Es bleibt halt die Frage, wie viel effizienter dies im Vergleich zur traditionellen Arbeitsweise mit menschlichen Sprechern dann noch ist.
 
Kleinere Probleme hat die KI noch bei zusammengesetzten Wörtern, selbst dann, wenn man der korrekten Betonung mit einem Bindestrich auf die Sprünge hilft: Aus "Radioforen-Gemeinde" wird "Radio-Forengemeinde".

Die ersten beide Google-Voice-Demos solltet ihr nicht als exemplarisch ansehen. Es waren erste Gehversuche, dabei habe ich völlig übersehen dass die Temperature auf "experimentell" eingestellt war, was ungewöhnliches Sprechverhalten verursacht und der Prompt nicht stimmte (unkoventioneller Plauderton oder so). Beides verträgt sich scheinbar nicht.

So, jetzt hab' ich's mal mit Akzenten versucht. Als Textvorlage wählte ich Auszüge aus dem Wikipedia-Artikel vom Oktoberfest und verwendet habe ich folgenden Prompt:

"Bitte lies den Text in gemütlichem Tonfall mit bayrischem Akzent"

Hört selbst was dabei rausgekommen ist:


Paulaner wurde falsch ausgesprochen, aber sonst sehr nett. Ich wollte ja eigentlich nur einen bayrischen Akzent, aber das hätte ich wohl exakt präzisieren sollen. Also versuchte ich es hiermit:

"Bitte lies den Text in gemütlichem Tonfall mit bayrischer Sprachfärbung"


Der neue Prompt ändert alles: Sogar der Brauerei-Name Paulaner wurde korrekt ausgesprochen.

Besser kenna's des beim BR aa ned.

P.S.: Wenn man nicht will dass Satzzeichen und Gliedsätze streng beachtet werden kann man das in den Prompt miteinbeziehen. Hier kann man wild drauf los experimentieren bis alles passt.
 
Zuletzt bearbeitet:
Der große Vorteil der neuen Google TTS ist dass sie völlig prompt-gesteuert ist. Man hat bis auf die "Temperature" (die man am besten gar nicht verändert) praktisch keine Einstellungsregler mehr. Alles wird durch Gemini-Sprachmodelle, die direkt miteinander kommunizieren, organisiert.

Du nimmst einfach einen Text, wählst eine der vielen vordefinierten Stimmen und schreibst einen Prompt, der alle Anweisungen bezüglich Sprechweise, Emotionalität, Tempo, Akzent, Stimmung, Eigenart oder die besondere Stimmlage enthält. Auch auffällige Atemgeräusche, Flüstern oder Räuspern können angefordert werden, wie es heißt.

Durch die völlige Freiheit bei der Promptgestaltung, die mehrere Sätze umfassen kann, ändert sich auch die Stimme ganz erheblich, sodass man eigene Marken erschaffen kann, die durch Wiederholung der Anweisungen immer wieder neu zum Leben erweckt werden.

Das Geheimnis des Erfolgs liegt hier also wie bei allen Sprachmodellen allein im Finden der perfekten "Zaubersprüche", mit denen man seine eigenen Vorstellungen verwirklichen kann. Man hat maximale Freiheiten und kann seine eigene Sprechercrew kreieren und durch experimentelles Prompting in jede gewünschte Richtung optimieren, beim Menschen würde man sagen trainieren - Talent vorausgesetzt.

Die neue Google-TTS kann aber theoretisch noch mehr: Man kan mittels Prompt verlangen dass der Text inhaltlich auf eine bestimmte Zielgruppe ausgerichtet, umformuliert oder qualitativ verbessert wird. Außerdem kann man ihn in jede der 24 unterstützten Sprachen übersetzen lassen und unter Beibehaltung der besonderen Merkmale des Sprechers/der Sprecherin in die jeweils andere Sprache übertragen. Das geht sogar in Echtzeit. So kann man mit virtuellen Assistenten diskutieren, Simultanübersetzungen durchführen, Kundendialogsysteme in höchster Qualität einrichten oder sich mit Sprachmodellen in natürlicher Sprache unterhalten.

Man kann neben Vorträgen, Lesungen, Sendungen, Voiceovers oder Podcasts auch Dialoge produzieren oder Gesprächssituationen mit mehreren Teilnehmern simulieren, wobei jede Sprechstimme ihren eigenenen Charakter-Prompt erhält (erinnert euch an die Audio-Zusammenfassung in NotebookLM, die förmlich süchtig macht und auf dieser Technologie beruht).

Mit diesem System rollt Google den Markt neu auf und schlägt die Konkurrenz aus dem Feld. Da bahnt sich gerade eine Revolution an, von der 99,9 Prozent der Menschheit noch nichts mitbekommen haben.

Technische Details und Hinweise zur API, die dann mittels Frontend per Eingabemaske von jedem Laien simpel bedient werden kann:

 
Zuletzt bearbeitet:
Zurück
Oben