Künstliche Stimmen als Ersatz für reale Mitarbeiter

Jack Bauer 24 · 30. Juni 2023

666 schrieb:
Ich habe das Gefühl, viele hier haben noch überhaupt nicht begriffen, was KI für diese Branche bedeutet und in welcher Geschwindigkeit sich der Wandel vollzieht. Nicht: vollziehen wird. Vollzieht.

Unsere Politiker sagen - diese Woche gab es Sendungen zu KI in ARD und ZDF - daß KI klar reguliert werden muss. Und da haben sie recht. Wie ich bereits schrieb, ist KI ein Fall für die sogenannte Ordnungspolitik. Daher widerspreche ich Deiner apodiktischen Aussage ("vollzieht"). Der Eindruck, die KI kommt unwidersprochen und unreguliert, quasi automatisch, halte ich für falsch und auch überhaupt nicht wünschenswert.

Adolar · 01. Juli 2023

Bei diesem Beitrag habe ich vorhin gedacht, dass ich das nicht von einer KI-Stimme unterscheiden könnte, so ausdruckslos und unbeteiligt das gesprochen ist:

Marginalisierte Sprachen: Dem Internet fehlt Sprachvielfalt

www.deutschlandfunkkultur.de

ricochet · 02. Juli 2023

Die Microsoft Sprachsynthese-KI "VALL-E" ist bereits voll ausgereift und wird vermutlich bald zahlenden Endkunden und Drittanbietern zur Verfügung gestellt werden. Entwickelt wurde das Programm gemeinsam mit der Partnerfirma OpenAI, die mit dem Sprachmodell GPT und der Bilderzeugungssoftware DALL-E bereits für weltweite Forore gesorgt hat.

Wie alle KI-Anwendungen hat VALL-E auch Schnittstellen zu GPT-4, sodass von einer Bedienoberfläche aus Texte nach Belieben automatisiert verbessert, zusammengefasst, umformuliert oder in eine beliebige andere Sprache übersetzt werden können. Typisch für die TTS von VALLE-E sind die geringen Trainingsanforderungen für das Klonen von Stimmen. Bereits ein Sample von wenigen Minuten reicht aus um eine Stimme perfekt nachzubilden, etwa eine(n) senderintern tätige(n) Sprecher/-in oder Moderator/-in.

Wie beim Sprachmodell kann man die Stimme per Prompt (in normalem Deutsch geschriebene/gesprochene Anweisung) oder Voreinstellung nach Belieben emphatisch, euphorisch, natürlich, nüchtern, seriös, sachlich oder sonstwie klingen lassen - die Datensätze enthalten alle Attribute und Zuschreibungen, die mit den jeweiligen Stimmlagen und Vortragsweisen assoziiert sind.

Vergesst alle Systeme, die bereits jetzt im Einsatz sind. Mit der Markteinführung in diesem oder im nächsten Jahr werden Dämme brechen, weil man natürliche von künstlichen Stimmen dann nicht mehr voneinander unterscheiden kann. Auch META soll bereits eine fertige TTS bereithalten und bis Open-Source-Anwendungen nach dem Vorbild von "Stable Diffusion" oder ""LLaMA" / "Alpaca" veröffentlicht werden ist es bestimmt auch nicht mehr weit. Wegen der selbstlernenden Systeme (Deep-Learning) ist der Entwicklungsaufwand relativ gering, zumal der Bedarf an (Audio-)Trainingsdaten gering ist.

chapri · 03. Juli 2023

ricochet schrieb:
Die Microsoft Sprachsynthese-KI "VALL-E" ist bereits voll ausgereift

Das behauptet nicht einmal Microsoft - Dein Posting scheint mir mehr Werbung als Nachricht! Repräsentative Tests erfolgten z. B. bislang nur auf Englisch. Über die Missbrauchsmöglichkeiten wird ausdrücklich hingewiesen - ebenso wie vor

ricochet schrieb:
Markteinführung in diesem oder im nächsten Jahr

auf Ergreifen von Maßnahmen, künstliche Stimmen mit einer Art "Wasserzeichen" zu versehen.

ricochet · 03. Juli 2023

Das meinte ich ja mit ausgereift - es arbeitet so zuverlässig, dass man beim unkontrollierten Einsatz über ein allgemein zugängliches Webinterface Missbrauch befürchtet.

Wie gut auch deutsche KI-Stimmen schon heute klingen könnt ihr euch ja selbst bei HeyGen und Synthesia demonstrieren lassen. Dieselben Stimmen werden auch in neueren TTS-Systemen verwendet.

HeyGen - AI Spokesperson Video Creator

Make videos as simply as making PowerPoints. HeyGen is an online video tool with AI talking avatar that unleash people's creativity by removing the costly barriers of traditional video shooting and editing process. With HeyGen, you can create an AI spokesperson video in minutes for corporate...

app.heygen.com

Synthesia | #1 AI Video Generator

Convert text into video in 5 minutes with the world's best AI video generator. 120+ languages, 140+ avatars, free demo video. Rated 4.8/5 on G2.

www.synthesia.io

ricochet · 06. Juli 2023

Über die volle Tragweite der KI-Revolution in der Kreativbranche dürften sich die meisten Akteure noch nicht ansatzweise im Klaren sein. Dass die Übersetzungsqualität großer Sprachmodelle wie GPT oder Bard (von Google konstruiertes LLM, in Europa noch nicht veröffentlicht) schon heute die der meisten in diesem Berufsfeld Tätigen übertrifft nimmt man bereits schulterzuckend hin. Gab es in diesem Bereich jahrzehntelang trotz größter Anstrengungen so gut wie keine nennenswerten Fortschritte, geht es jetzt in kürzester Zeit in atemberaubendem Tempo voran.

Der nächste radiorelevante Clou betrifft die Musikbranche. Es soll schon bald möglich sein Musikstücke per Sprachbefehl zu "halluzinieren", ähnlich wie es bei Bildern und Fotos schon längst Usus ist und Agenturen wie Designer in Aufruhr versetzt. Die KI wird dabei nach und nach mit dem Bestand der großen Plattenlabels inklusive Meta-Tags gefüttert und kann dann selbsttätig nach ähnlichem Muster Musikstücke ohne dazwischenliegende Produktionsschritte erstellen, unter denen sich dann mit Sicherheit die eine oder andere Perle findet.

Etwa nach dem Schema: "Produziere bitte einen Latinorock-Titel mit der Stimme von Kristina Bach auf Deutsch gesungen" oder ganz schlicht: "Erstelle einen Titel von Band/Orchester Sowieso nach den Vorbildern der 80er-Ära". Eine nachträgliche Bearbeitung per Texteingabe ist natürlich genauso möglich. Was bedeutet das für Tonstudios, Musiker, Sänger und Verlage? Aufgrund der rechtlichen Fallstricke dürften zunächst nur die Musikkonzerne und die Open-Source-Lizenzpiraterie von dieser Entwicklung profitieren.

Der Radiotor · 07. Juli 2023

Mal so zum Thema: https://www.teltarif.de/chatgpt-radiogpt-radio/news/92373.html

Zwerg#8 · 09. Juli 2023

c't 3003: Mit KI jede Stimme kopieren

Ein paar Sätze einsprechen und schon hat man eine digitale Kopie seiner Stimme. Geht das so einfach? c't 3003 macht den Test und klont die Stimme von Host Keno.

www.heise.de

Adolar · 10. Juli 2023

KI im Radio: "It's time to rock the airwaves with a touch of magic!"

Bei den Lokalrundfunktagen 2023 hat sich unser Autor den Workshop über KI im Radio von der KI selbst zusammenfassen lassen. Das ist das Ergebnis:

www.radioszene.de

"Ein eindrucksvolles Beispiel über die Möglichkeiten, mit Hilfe von Künstlicher Intelligenz verschiedene Zielgruppen anzusprechen, zeigte Jim Sengl an Hand eines Textes über Mozarts Requiem – einmal für Hörerinnen und Hörer von BR Klassik und einmal von bigFM – beide von KI erzeugt:"

Eindrucksvoll? Ich würde keinen der beiden Sender hören wollen, wenn sie solche Texte anbieten.

ricochet · 13. Juli 2023

So, jetzt ist auch Google's Chatbot "Bard" in deutscher Sprache verfügbar. Eine KI-Vorlesestimme (der ersten Generation) ist auch mit dabei, außerdem kann Bard PDFs lesen, zusammenfassen und Fragen zum Inhalt beantworten. Wer ein Google-Konto hat kann gleich loslegen.

Gemini - chat to supercharge your ideas

Bard is now Gemini. Get help with writing, planning, learning, and more from Google AI.

bard.google.com

Kostprobe gefällig?

Ricochet:

Wie aktuell sind deine Antworten wenn man nach aktuellen Ereignissen fragt?

Bard:

Meine Antworten sind so aktuell wie möglich. Ich werde regelmäßig mit neuen Informationen aktualisiert, sodass meine Antworten immer auf dem neuesten Stand sind. Wenn du eine Frage zu einem aktuellen Ereignis hast, kannst du mir diese gerne stellen. Ich werde mein Bestes tun, um dir eine Antwort zu geben, die korrekt und auf dem neuesten Stand ist.

Ich bin ein großes Sprachmodell, das auch als Konversations-KI oder Chatbot bekannt ist, das darauf trainiert ist, informativ und umfassend zu sein. Ich bin mit einer riesigen Menge an Textdaten trainiert und bin in der Lage, als Reaktion auf eine Vielzahl von Eingabeaufforderungen und Fragen zu kommunizieren und menschenähnlichen Text zu generieren. Beispielsweise kann ich Sachthemen zusammenfassen oder Geschichten schreiben.

iro · 18. Juli 2023

Radio Helgoland war der schnellste,
https://www.radioszene.de/177711/absolut-radio-ai.html
war immerhin noch schneller als big fm.

Hier ist das Ergebnis anzuhören: https://absolutradio.de/ai/player
Bislang habe ich nur zwei Moderationen von kAI gehört, Stimme und Text haben mich nicht überzeugt.

96kbps / DAB+ · 18. Juli 2023

Na mal sehen wann es den ersten DAB+ Sender gibt, der nur auf KI basiert. Ich wünsche mir das ehrlich gesagt nicht.

Ralle_Köln · 18. Juli 2023

>DeepHouseLover schrieb:
Na mal sehen wann es den ersten DAB+ Sender gibt, der nur auf KI basiert. Ich wünsche mir das ehrlich gesagt nicht.

Warte mal drei Wochen… dann kommt „Choke FM reloaded“ (nur echt ohne Katalysator). Abgestandene Witze kann die KI auch.
Personal und Musik auf einer HE im Serverschrank.

Jack Bauer 24 · 18. Juli 2023

Anscheinend ist - in dem Fall ChatGPT - viel fehleranfälliger als gedacht. Wenn nun Saskia, Chantalle und Kevin vom "Kanal Kokolores" sich ganz auf die KI verlassen, kommt Unterirdisches dabei raus:

Künstliche Dummheit: ChatGPT wird angeblich fehlerhafter

Chat GPT, bis eben noch lernfähig, wird seit einigen Wochen offenbar immer fehlerhafter. Über Maschinen, die sich selbst kopieren.

www.sueddeutsche.de

Gegenstromanlage · 19. Juli 2023

Kurz und knapp: KI kann belanglose Moderationen schon heute ersetzen, also gut 98% der Moderatoren. Die Controller in den Chefetagen jubeln schon

Cavemaen · 19. Juli 2023

Bei der Bahn arbeitet man schon länger mit einmal aufgenommenen Textbausteinen, welche am Rechner zusammengebastelt werden und uns über Zugausfälle & Verspätungen informieren.

Da in den Hörfunksendern nicht nur fast identische Playlists laufen und nahezu gleiche Schnellsprecher auf fast allen Sendern uns gewaltsam bei Laune halten wollen (oder versuchen), kann man durchaus viel Geld sparen und dieses Geplapper auch noch zusammenbauen, quasi als Heimarbeit vom Homeoffice aus und kann diese Aufträge frei vergeben.

Nur so kann man mit etwas Glück geeignetere Mitarbeiter mit ggf. mehr Ideenreichtum finden zum Bruchteil deren Gage!

(Mir wurde gerade die erste GEZ-Mahnung zugestellt und Pfändung meines Konto's incl. Sachpfändung angedroht, wenn ich nicht unverzüglich das geforderte Schutzgeld anweise)!

So nicht - löst endlich den über alle Anstalten gleichgeschalteten Unsinn auf und macht Platz für neue Menschen, neue Ideen und neuen Stimmen und löscht umgehend alle gespeicherten Playlists und macht wieder Euere Arbeit, so wie früher, oder macht Platz in den heiligen Hallen!

R.

radiotext · 19. Juli 2023

iro schrieb:
Radio Helgoland war der schnellste,
https://www.radioszene.de/177711/absolut-radio-ai.html
war immerhin noch schneller als big fm.

Hier ist das Ergebnis anzuhören: https://absolutradio.de/ai/player
Bislang habe ich nur zwei Moderationen von kAI gehört, Stimme und Text haben mich nicht überzeugt.

Radio Helgoland klingt aber wie Radio Auslandsdienst International mit falschen Betonungen und absolut emotionslos / empathielos vorgelesen, fast schon zynisch (bei Nachrichtenthemen).

Absolut AI macht aktuell kleine Musicbreaks. Das ist jetzt auch nix Wildes (wo viel schief gehen könnte). Hat einen Hauch von hr3, wenn die KI sagt, weshalb die nächsten drei Titel gut in den Tag passen.

Das Ganze hört sich nicht an wie der Unfall bei Radio Helgoland, sondern eher Nebenbeihörertauglich. Die Playlist sind wohl HOT- oder TOP-Hits der letzten 10 oder 20 Jahre.

Gegenstromanlage · 19. Juli 2023

Also ich bin schon erstaunt, wie flüssig KI inzwischen moderieren kann, da fehlt zwar noch einiges an Emotionen und Spontanität, aber es ist schon weit besser als alles "Text-to-Speech"-mäßige, was man so für Blinde und Sehbehinderte kennt.

Wie gesagt, bei der Belanglosigkeit heutiger Moderationen kann KI locker mal so 70, 80% der Mods ersetzen. Wird wohl die Zukunft sein: Einen Morning Show-Mod leistet man sich noch, den Rest macht dann Mr. and Mrs. Robot. Und schon hat man pro Monat bei einem Durchschnitts-Lokalradio rund 20.000 EURs an Personalkosten oder Honoraren eingespart. Geil und erschreckend zugleich.

Mannis Fan · 19. Juli 2023

Künstlich klingen viele Radiostimmen ja schon lange, wenn sie nun auch noch intelligent werden, wäre nichts einzuwenden.
Ich kann mir gut vorstellen, dass eine gut mit Fachwissen, Charme und einem Repertoire an Small-Talk-Themen ausgestattete und entsprechend programmierte KI mir ein unterhaltsames Radioerlebnis beschert, als es heute 90 Prozent der geklonten Moderatoren mit ihren kastrierten Musikprogrammen hinbekommen. Ich finde das keineswegs erschreckend.

Jack Bauer 24 · 19. Juli 2023

Ich würde nur schwach werden, in ein KI-induziertes Programm rein zu hören, wenn es "Radio Luxemburg" mit den Stimmen und Sendungen von 1980 wäre. "RTL 12 Uhr mittags" mit Jochen und Hugo, mit aktueller Musik, aber den Spielen von damals, das könnte ich mir sehr gut vorstellen.

xjs100 · 19. Juli 2023

Das Thema KI ist sicher nicht wegzudiskutieren. Ob sich Versuche wie von Absolut und anderen durchsetzt oder ob es beim Versuch bleibt, bleibt abzuwarten.
Die Häme die man sich in diesem Thread mal wieder durchlesen muss, ist wieder mal völlig ohne Niveau und Empathie.
Ihr seid Supermarktkassiererin oder Kassierer? Super, euren Job gibt es jetzt schon kaum noch.
Ihr seid Steuerberaterin oder -berater? Euren Job bei den sich ständig ändernden Gesetzen? Macht jede KI besser.
Reiseverkehrskauffrau, -kaufmann? Realy?
Ihr seht, man kann fast jeden Job durch eine KI ersetzen. Auf diese menschenverachtende Häme sollte allerdings jeder mit einer guten Kinderstube verzichten.

Sprollywood. · 19. Juli 2023

Innovation bei baden.fm: Eva 2.0 simuliert echte Moderatoren-Stimme

Heute hat baden.fm das Upgrade zur Version 2.0 von EVA (Event-Driven Voice Articulation) gestartet. Die Aktualisierung bringt erhebliche Verbesserungen und

www.radioszene.de

Spricht seit einiger Zeit den Service am Wochenend.

Tatanael · 19. Juli 2023

Sprollywood. schrieb:
Spricht seit einiger Zeit den Service am Wochenend.

Seit über einem Jahr, da aber noch nicht mit der Stimme des baden.fm-Moderators. Das ist neu.

baden.fm geht mit digitalem Servicesystem Eva neue Wege

Gemeinsam mit der Digitalagentur Konsole Labs entwickelt baden.fm ein Text-to-Speech-Servicesystem …

www.baden.fm

Sprollywood. · 19. Juli 2023

So neu ist das nicht, es geht schon einige Zeit, wie auch andere Hörer bemerkt haben.

Bevor man so einen Unfug auf die Menschen loslässt, soll man es doch lieber gleich bleiben lassen und gar kein Verkehr machen am Sonntag. Was soll der Quatsch? Wie schlecht das Funktioniert, hat doch schon RSH als Pionier der Sprachbausteine zwischen 2004 und 2009 bewiesen...

Mannis Fan · 19. Juli 2023

xjs100 schrieb:
Ihr seht, man kann fast jeden Job durch eine KI ersetzen. Auf diese menschenverachtende Häme sollte allerdings jeder mit einer guten Kinderstube verzichten.

Mit diesem seltsamen Argument hätte man vor 120 Jahren auch auf Bau und Entwicklung von Autos verzichten müssen - schließlich wurden Tausende von Kutschern, Wagnern, Wagenbauern etc. dadurch arbeitslos. Bitte keine Erneuerbaren Energien forcieren, die armen Kumpels im Tagebau verlieren sonst ihren Job. Auf keinen Fall Computer im Maschinenbau einsetzen, die Dreher, Fräser, Schlosser und Fließbandschrauber können sonst ihre Familien nicht mehr ernähren.
In welchem Jahrhundert würdest Du gerne die Zeit anhalten?

Künstliche Stimmen als Ersatz für reale Mitarbeiter

Gesperrter Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Gesperrter Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Gesperrter Benutzer

Benutzer

Gesperrter Benutzer

Benutzer

Gesperrter Benutzer

Benutzer

Neu auf RADIOSZENE