Künstliche Stimmen als Ersatz für reale Mitarbeiter

Ich habe das Gefühl, viele hier haben noch überhaupt nicht begriffen, was KI für diese Branche bedeutet und in welcher Geschwindigkeit sich der Wandel vollzieht. Nicht: vollziehen wird. Vollzieht.

Unsere Politiker sagen - diese Woche gab es Sendungen zu KI in ARD und ZDF - daß KI klar reguliert werden muss. Und da haben sie recht. Wie ich bereits schrieb, ist KI ein Fall für die sogenannte Ordnungspolitik. Daher widerspreche ich Deiner apodiktischen Aussage ("vollzieht"). Der Eindruck, die KI kommt unwidersprochen und unreguliert, quasi automatisch, halte ich für falsch und auch überhaupt nicht wünschenswert.
 
Zuletzt bearbeitet:
Die Microsoft Sprachsynthese-KI "VALL-E" ist bereits voll ausgereift und wird vermutlich bald zahlenden Endkunden und Drittanbietern zur Verfügung gestellt werden. Entwickelt wurde das Programm gemeinsam mit der Partnerfirma OpenAI, die mit dem Sprachmodell GPT und der Bilderzeugungssoftware DALL-E bereits für weltweite Forore gesorgt hat.

Wie alle KI-Anwendungen hat VALL-E auch Schnittstellen zu GPT-4, sodass von einer Bedienoberfläche aus Texte nach Belieben automatisiert verbessert, zusammengefasst, umformuliert oder in eine beliebige andere Sprache übersetzt werden können. Typisch für die TTS von VALLE-E sind die geringen Trainingsanforderungen für das Klonen von Stimmen. Bereits ein Sample von wenigen Minuten reicht aus um eine Stimme perfekt nachzubilden, etwa eine(n) senderintern tätige(n) Sprecher/-in oder Moderator/-in.

Wie beim Sprachmodell kann man die Stimme per Prompt (in normalem Deutsch geschriebene/gesprochene Anweisung) oder Voreinstellung nach Belieben emphatisch, euphorisch, natürlich, nüchtern, seriös, sachlich oder sonstwie klingen lassen - die Datensätze enthalten alle Attribute und Zuschreibungen, die mit den jeweiligen Stimmlagen und Vortragsweisen assoziiert sind.

Vergesst alle Systeme, die bereits jetzt im Einsatz sind. Mit der Markteinführung in diesem oder im nächsten Jahr werden Dämme brechen, weil man natürliche von künstlichen Stimmen dann nicht mehr voneinander unterscheiden kann. Auch META soll bereits eine fertige TTS bereithalten und bis Open-Source-Anwendungen nach dem Vorbild von "Stable Diffusion" oder ""LLaMA" / "Alpaca" veröffentlicht werden ist es bestimmt auch nicht mehr weit. Wegen der selbstlernenden Systeme (Deep-Learning) ist der Entwicklungsaufwand relativ gering, zumal der Bedarf an (Audio-)Trainingsdaten gering ist.
 
Die Microsoft Sprachsynthese-KI "VALL-E" ist bereits voll ausgereift
Das behauptet nicht einmal Microsoft - Dein Posting scheint mir mehr Werbung als Nachricht! Repräsentative Tests erfolgten z. B. bislang nur auf Englisch. Über die Missbrauchsmöglichkeiten wird ausdrücklich hingewiesen - ebenso wie vor
Markteinführung in diesem oder im nächsten Jahr
auf Ergreifen von Maßnahmen, künstliche Stimmen mit einer Art "Wasserzeichen" zu versehen.
 
Zuletzt bearbeitet:
Das meinte ich ja mit ausgereift - es arbeitet so zuverlässig, dass man beim unkontrollierten Einsatz über ein allgemein zugängliches Webinterface Missbrauch befürchtet.

Wie gut auch deutsche KI-Stimmen schon heute klingen könnt ihr euch ja selbst bei HeyGen und Synthesia demonstrieren lassen. Dieselben Stimmen werden auch in neueren TTS-Systemen verwendet.


 
Über die volle Tragweite der KI-Revolution in der Kreativbranche dürften sich die meisten Akteure noch nicht ansatzweise im Klaren sein. Dass die Übersetzungsqualität großer Sprachmodelle wie GPT oder Bard (von Google konstruiertes LLM, in Europa noch nicht veröffentlicht) schon heute die der meisten in diesem Berufsfeld Tätigen übertrifft nimmt man bereits schulterzuckend hin. Gab es in diesem Bereich jahrzehntelang trotz größter Anstrengungen so gut wie keine nennenswerten Fortschritte, geht es jetzt in kürzester Zeit in atemberaubendem Tempo voran.

Der nächste radiorelevante Clou betrifft die Musikbranche. Es soll schon bald möglich sein Musikstücke per Sprachbefehl zu "halluzinieren", ähnlich wie es bei Bildern und Fotos schon längst Usus ist und Agenturen wie Designer in Aufruhr versetzt. Die KI wird dabei nach und nach mit dem Bestand der großen Plattenlabels inklusive Meta-Tags gefüttert und kann dann selbsttätig nach ähnlichem Muster Musikstücke ohne dazwischenliegende Produktionsschritte erstellen, unter denen sich dann mit Sicherheit die eine oder andere Perle findet.

Etwa nach dem Schema: "Produziere bitte einen Latinorock-Titel mit der Stimme von Kristina Bach auf Deutsch gesungen" oder ganz schlicht: "Erstelle einen Titel von Band/Orchester Sowieso nach den Vorbildern der 80er-Ära". Eine nachträgliche Bearbeitung per Texteingabe ist natürlich genauso möglich. Was bedeutet das für Tonstudios, Musiker, Sänger und Verlage? Aufgrund der rechtlichen Fallstricke dürften zunächst nur die Musikkonzerne und die Open-Source-Lizenzpiraterie von dieser Entwicklung profitieren.
 

"Ein eindrucksvolles Beispiel über die Möglichkeiten, mit Hilfe von Künstlicher Intelligenz verschiedene Zielgruppen anzusprechen, zeigte Jim Sengl an Hand eines Textes über Mozarts Requiem – einmal für Hörerinnen und Hörer von BR Klassik und einmal von bigFM – beide von KI erzeugt:"

Eindrucksvoll? Ich würde keinen der beiden Sender hören wollen, wenn sie solche Texte anbieten.
 
So, jetzt ist auch Google's Chatbot "Bard" in deutscher Sprache verfügbar. Eine KI-Vorlesestimme (der ersten Generation) ist auch mit dabei, außerdem kann Bard PDFs lesen, zusammenfassen und Fragen zum Inhalt beantworten. Wer ein Google-Konto hat kann gleich loslegen.


Kostprobe gefällig?

Ricochet:

Wie aktuell sind deine Antworten wenn man nach aktuellen Ereignissen fragt?

Bard:

Meine Antworten sind so aktuell wie möglich. Ich werde regelmäßig mit neuen Informationen aktualisiert, sodass meine Antworten immer auf dem neuesten Stand sind. Wenn du eine Frage zu einem aktuellen Ereignis hast, kannst du mir diese gerne stellen. Ich werde mein Bestes tun, um dir eine Antwort zu geben, die korrekt und auf dem neuesten Stand ist.

Ich bin ein großes Sprachmodell, das auch als Konversations-KI oder Chatbot bekannt ist, das darauf trainiert ist, informativ und umfassend zu sein. Ich bin mit einer riesigen Menge an Textdaten trainiert und bin in der Lage, als Reaktion auf eine Vielzahl von Eingabeaufforderungen und Fragen zu kommunizieren und menschenähnlichen Text zu generieren. Beispielsweise kann ich Sachthemen zusammenfassen oder Geschichten schreiben.
 
Zuletzt bearbeitet:
Anscheinend ist - in dem Fall ChatGPT - viel fehleranfälliger als gedacht. Wenn nun Saskia, Chantalle und Kevin vom "Kanal Kokolores" sich ganz auf die KI verlassen, kommt Unterirdisches dabei raus:

 
Zuletzt bearbeitet:
Bei der Bahn arbeitet man schon länger mit einmal aufgenommenen Textbausteinen, welche am Rechner zusammengebastelt werden und uns über Zugausfälle & Verspätungen informieren.

Da in den Hörfunksendern nicht nur fast identische Playlists laufen und nahezu gleiche Schnellsprecher auf fast allen Sendern uns gewaltsam bei Laune halten wollen (oder versuchen), kann man durchaus viel Geld sparen und dieses Geplapper auch noch zusammenbauen, quasi als Heimarbeit vom Homeoffice aus und kann diese Aufträge frei vergeben.

Nur so kann man mit etwas Glück geeignetere Mitarbeiter mit ggf. mehr Ideenreichtum finden zum Bruchteil deren Gage!

(Mir wurde gerade die erste GEZ-Mahnung zugestellt und Pfändung meines Konto's incl. Sachpfändung angedroht, wenn ich nicht unverzüglich das geforderte Schutzgeld anweise)!

So nicht - löst endlich den über alle Anstalten gleichgeschalteten Unsinn auf und macht Platz für neue Menschen, neue Ideen und neuen Stimmen und löscht umgehend alle gespeicherten Playlists und macht wieder Euere Arbeit, so wie früher, oder macht Platz in den heiligen Hallen!

R.
 
Radio Helgoland war der schnellste,
https://www.radioszene.de/177711/absolut-radio-ai.html
war immerhin noch schneller als big fm.

Hier ist das Ergebnis anzuhören: https://absolutradio.de/ai/player
Bislang habe ich nur zwei Moderationen von kAI gehört, Stimme und Text haben mich nicht überzeugt.
Radio Helgoland klingt aber wie Radio Auslandsdienst International mit falschen Betonungen und absolut emotionslos / empathielos vorgelesen, fast schon zynisch (bei Nachrichtenthemen).

Absolut AI macht aktuell kleine Musicbreaks. Das ist jetzt auch nix Wildes (wo viel schief gehen könnte). Hat einen Hauch von hr3, wenn die KI sagt, weshalb die nächsten drei Titel gut in den Tag passen.

Das Ganze hört sich nicht an wie der Unfall bei Radio Helgoland, sondern eher Nebenbeihörertauglich. Die Playlist sind wohl HOT- oder TOP-Hits der letzten 10 oder 20 Jahre.
 
Also ich bin schon erstaunt, wie flüssig KI inzwischen moderieren kann, da fehlt zwar noch einiges an Emotionen und Spontanität, aber es ist schon weit besser als alles "Text-to-Speech"-mäßige, was man so für Blinde und Sehbehinderte kennt.

Wie gesagt, bei der Belanglosigkeit heutiger Moderationen kann KI locker mal so 70, 80% der Mods ersetzen. Wird wohl die Zukunft sein: Einen Morning Show-Mod leistet man sich noch, den Rest macht dann Mr. and Mrs. Robot. Und schon hat man pro Monat bei einem Durchschnitts-Lokalradio rund 20.000 EURs an Personalkosten oder Honoraren eingespart. Geil und erschreckend zugleich.
 
Künstlich klingen viele Radiostimmen ja schon lange, wenn sie nun auch noch intelligent werden, wäre nichts einzuwenden.
Ich kann mir gut vorstellen, dass eine gut mit Fachwissen, Charme und einem Repertoire an Small-Talk-Themen ausgestattete und entsprechend programmierte KI mir ein unterhaltsames Radioerlebnis beschert, als es heute 90 Prozent der geklonten Moderatoren mit ihren kastrierten Musikprogrammen hinbekommen. Ich finde das keineswegs erschreckend.
 
Ich würde nur schwach werden, in ein KI-induziertes Programm rein zu hören, wenn es "Radio Luxemburg" mit den Stimmen und Sendungen von 1980 wäre. "RTL 12 Uhr mittags" mit Jochen und Hugo, mit aktueller Musik, aber den Spielen von damals, das könnte ich mir sehr gut vorstellen.
 
Das Thema KI ist sicher nicht wegzudiskutieren. Ob sich Versuche wie von Absolut und anderen durchsetzt oder ob es beim Versuch bleibt, bleibt abzuwarten.
Die Häme die man sich in diesem Thread mal wieder durchlesen muss, ist wieder mal völlig ohne Niveau und Empathie.
Ihr seid Supermarktkassiererin oder Kassierer? Super, euren Job gibt es jetzt schon kaum noch.
Ihr seid Steuerberaterin oder -berater? Euren Job bei den sich ständig ändernden Gesetzen? Macht jede KI besser.
Reiseverkehrskauffrau, -kaufmann? Realy?
Ihr seht, man kann fast jeden Job durch eine KI ersetzen. Auf diese menschenverachtende Häme sollte allerdings jeder mit einer guten Kinderstube verzichten.
 
So neu ist das nicht, es geht schon einige Zeit, wie auch andere Hörer bemerkt haben. 😫


Bevor man so einen Unfug auf die Menschen loslässt, soll man es doch lieber gleich bleiben lassen und gar kein Verkehr machen am Sonntag. Was soll der Quatsch? Wie schlecht das Funktioniert, hat doch schon RSH als Pionier der Sprachbausteine zwischen 2004 und 2009 bewiesen...
 
Ihr seht, man kann fast jeden Job durch eine KI ersetzen. Auf diese menschenverachtende Häme sollte allerdings jeder mit einer guten Kinderstube verzichten.
Mit diesem seltsamen Argument hätte man vor 120 Jahren auch auf Bau und Entwicklung von Autos verzichten müssen - schließlich wurden Tausende von Kutschern, Wagnern, Wagenbauern etc. dadurch arbeitslos. Bitte keine Erneuerbaren Energien forcieren, die armen Kumpels im Tagebau verlieren sonst ihren Job. Auf keinen Fall Computer im Maschinenbau einsetzen, die Dreher, Fräser, Schlosser und Fließbandschrauber können sonst ihre Familien nicht mehr ernähren.
In welchem Jahrhundert würdest Du gerne die Zeit anhalten?
 
Zurück
Oben