• Diese Kategorie ist für Diskussionen rund um die Programminhalte der Sender gedacht. Über Frequenzen und Empfang kann sich unter "DX / Radioempfang" ausgetauscht werden.

Künstliche Stimmen als Ersatz für reale Mitarbeiter

Hier noch der korrekte Link, erstellt habe ich die Datei mit Fliki, und zwar ohne Feinabstimmung.


Die leichte Ironie bitte ich zu entschuldigen. Ich bin mir der Probleme, die diese Technologien mit sich bringen, sehr wohl bewusst. Es hat aber keinen Sinn sich nicht damit zu befassen, den Kopf in den Sand zu stecken und sich von den Entwicklungen überrollen zu lassen.

Bescheid zu wissen ist immer von Vorteil.
 
Zuletzt bearbeitet:
Radio wird immer Personalities brauchen, man kann ja schlecht eine KI zu Fantreffen oder Veranstaltungen schicken. Außerdem wäre ein lokal oder regional verankerter Radiosender, der nur mit Robomods arbeitet, schnell bei den Hörern unten durch. Für Spartenprogramme oder Abendstrecken ist die KI aber wie geschaffen, sofern man mit offenen Karten spielt.

Andere Branchen trifft es wohl härter:

 
Es wäre aber denkbar, dass eine KI die Arbeit am Mikrofon macht, dafür ein Gesicht gesucht wird und die zu diesem Gesicht gehörende reale Person dann nur auf Personality-Tour geht.
 
In den Serviceblöcken von Radio Ton aus Heilbronn gehen außerhalb des live moderierten Programms (so ausgesprochen) "K Ira" und "K Ilian" auf Sendung. Da die schon bei den Nachrichten mit der RC zusammenarbeiten, dürfte es sich um dasselbe System handeln wie bei R.SA, PSR und Co.
Radio Ton benutzt wohl die Lösung Modcast ai von Uplink... und: bei mir in Sachsen bei radio-wsw weiß ich auch, dass sie die Uplink-Büchse nutzen. Da hört man es wirklich gar nicht... gruselig. Die machen sogar News automatisiert über KI.
 
Für Spartenprogramme oder Abendstrecken ist die KI aber wie geschaffen, sofern man mit offenen Karten spielt.
Naja, aktuell merkt man den Sprachcomputern (mehr sind sie aktuell nicht) schon deutlich an, dass es Roboterstimmen sind. Siehe Bayern3 Verkehrsnachrichten, siehe manche Ansagen in öffentlichen Verkehrsmitteln die mit Computerstimmen generiert wurden.
An der Aussprache hapert es bei den Computerstimmen, noch gewaltig. Da fehlt noch der große Sprung nach vorne, so wie jetzt haben Computerstimmen auch schon vor 10 Jahren geklungen.
Wenn es die Wahl gibt zwischen Computerstimme und menschlichen VT ist letzteres aktuell immer vorzuziehen.

Und naja "intelligent" ist an einer KI aktuell nicht wirklich viel...
 
Nein, sie klingen absolut echt. Ein Problem ist velfach noch die eigenartige Betonung, dies lässt sich aber mit Hilfe von Kontextanalysen beheben. Das von mir gepostete Sprachbeispiel sollte dich eines Besseren belehren.

Möglicherweise setzen einige Sender bewusst ältere Modelle ein um AI sofort erkennbar zu machen. Die Halbwertszeit von Innovationen im Bereich der Künstlichen Intelligenz ist mittlerweile so kurz, dass vor einem Jahr als bahnbrechend gefeierte Neuentwicklungen lãngst zum Ladenhüter geworden sind.
 
Zuletzt bearbeitet:
In einem sehr interessanten Beitrag auf 3SAT über die menschliche Stimme erklärte ein Phoniater, woran es liegt, dass KI-Stimmen, auch wenn sie Emotionen imitieren, dennoch kalt klingen.
Er sagt, dass unzählige subverbale Elemente beim sprechenden Menschen, die auf einer sozial eingeübten unterbewussten Ebene ablaufen, im Stimmklang einer KI zwangsläufig fehlen. Ich mag das nicht beurteilen, scheint mir aber plausibel zu sein. Noch also haben wir hier ein sehr subtiles Unterscheidungsmerkmal KI vs. menschliche Stimme.
Vermutung: Auch dieses Problem ist bereits in Angriff genommen und man wird uns mit einer Lösung bald überraschen.
 
Das Handelsblatt lässt den KI-News-Podcast mit der geklonten Stimme der Redakteurin automatisiert per TTS-Software einlesen:


Hier treten die typischen Auffälligkeiten zu Tage, die KI-Stimmen oft noch kennzeichnen: Unerwartete Pausen und von der Norm abweichende Silbenbetonungen.
 
Zuletzt bearbeitet:
Gibt es bereits KI-Text-to-Speech-Tools, die einen Belletristik-Text nicht nur mit einer Stimme vortragen können, sondern die verschiedenen Charaktere aus Dialogen mit anderen (verstellten) Stimmen als der Erzähler generiert? Vorlage könnte ein Theaterstück sein, wo die Rollen konkret angegeben sind, Premium wäre, wenn die KI erkennt, wer gerade "spricht".
 
Zuletzt bearbeitet:
Das Handelsblatt lässt den KI-News-Podcast mit der geklonten Stimme der Redakteurin automatisiert per TTS-Software einlesen:


Hier treten die typischen Auffälligkeiten zu Tage, die KI-Stimmen oft noch kennzeichnen: Unerwartete Pausen und von der Norm abweichende Silbenbetonungen.
Das Handelsblatt hat sich da schon Mühe gegeben. Die KI-Stimme der Autorin wurde direkt trainiert und so geklont. Die Auffälligkeiten
typischen Auffälligkeiten .., die KI-Stimmen oft noch kennzeichnen: Unerwartete Pausen und von der Norm abweichende Silbenbetonungen.
sind nur noch schwach bemerkbar. So im Hörfunk also auch sendefähig. Die Weiterentwicklung wird Verbesserungen bringen.
Was bedeutet das für das Medium Radio, insbesondere im linearen Radio? - Bald(!) werden Radiosendungen mit inhaltsleeren Bla-Bla-Bla-Moderationen mit vorgescripteten Texten generiert von KI-Stimmen gefahren.
'Gefährdet' sind all die berühmten Dudel-Sender. Das gilt nicht nur für Private, sondern auch für ÖR.
Ein Beispiel:
Aus Lokalpatriotismus müsste ich mich für "NDR 1" begeistern. - Sachlich zweifele ich aber an dem NDR-Claim: "Das Beste". ... Da ist Luft nach oben. Ich hoffe der neue NDR-Intendant hat dafür ein Gefühl.
NDR 1 Niedersachsen sendet mit "Hellwach" in der Morgenschiene 05-10 Uhr praktisch ein inhaltsleeres Regionalprogramm: Als "Aktuell!" und "Regional!" kann man bestenfalls Nachrichten-Slots zur ganzen und halben Stunde rechnen. ... Dazwischen? - Praktisch Vakuum, welches per KI schmerzfrei zu füllen ist:
MUSIK? - Die Playlist wird schon lange vorprogrammiert.
WORT? - "KI-Vorlese-Funktion!" für vorgeschriebene Texte.
Als Hörer ist das meine Wahrnehmung.
 
Zuletzt bearbeitet:
Gigantisch was heute alles möglich ist. Mit "Audio Overviews" lassen sich beliebige Dokumente in Podcasts oder Radio-Features verwandeln. Demonstrieren möchte ich es hier am Beispiel einer individuellen Horoskopanalyse im PDF-Format als Radiobeitrag, z. B. für Prominente, zahlende Kunden oder Hörer. Es ist alles automatisch generiert, die Stimmmen sind natürlich synthetisch. Die Erstellung kostete mich etwa drei Minuten reine Wartezeit...:)

 
Zuletzt bearbeitet:
Gigantisch was heute alles möglich ist. Mit "Audio Overviews" lassen sich beliebige Dokumente in Podcasts oder Radio-Features verwandeln. Demonstrieren möchte ich es hier am Beispiel einer individuellen Horoskopanalyse im PDF-Format als Radiobeitrag, z. B. für Prominente, zahlende Kunden oder Hörer. Es ist alles automatisch generiert, die Stimmmen sind natürlich synthetisch. Die Erstellung kostete mich etwa drei Minuten reine Wartezeit...:)
Was mich bei deinen Posts weiterhin wundert: Wo bleiben denn die erlösbringenden Podcasts oder gar Radiosender, die mit deinen "gigantischen" Möglichkeiten nachhaltig auf die Beine gestellt werden? Oder arbeitest du daran, dass dich ein verzweifeltes Medienhaus als teuren KI-Experten einstellt?
 
Zuletzt bearbeitet:
Gigantisch was heute alles möglich ist. Mit "Audio Overviews" lassen sich beliebige Dokumente in Podcasts oder Radio-Features verwandeln. Demonstrieren möchte ich es hier am Beispiel einer individuellen Horoskopanalyse im PDF-Format als Radiobeitrag, z. B. für Prominente, zahlende Kunden oder Hörer. Es ist alles automatisch generiert, die Stimmmen sind natürlich synthetisch. Die Erstellung kostete mich etwa drei Minuten reine Wartezeit...:)


Das ist echt aus einen PDF-Dokument generiert? Die Stimmen klingen zwar noch leicht unterkühlt und steif, aber man würde nicht unbedingt auf die Idee kommen, dass das KI ist. Faszinierend und erschreckend zugleich ...

Jetzt mal ganz von der Tatsache abgesehen, dass wir schon jetzt mit einer Unmenge von Podcasts überflutet werden. Wer soll das alles hören?!
 
Die klingen überhaupt nicht unterkühlt sondern hochprofessionell, aber trotzdem ungezwungen und locker. An Adolars Reaktion kann man gut ablesen dass diese Technologie bei vielen Morningshow-Crews das blanke Entsetzen auslösen dürfte. So ein tolles Zusammenspiel bekommen die nämlich nicht immer hin. Was mir an dem Tool gefällt ist, dass die "Sprecher" spontan und nicht überzüchtet perfektionistisch klingen. Ich kann aber verstehen dass viele hier bei KI-Stimmen sehr kritisch hinhören.

Ich werde weitere Informationen nachreichen.
 
Zuletzt bearbeitet:
Die klingen überhaupt nicht unterkühlt sondern hochprofessionell, aber trotzdem ungezwungen und locker. An Adolars Reaktion kann man gut ablesen dass diese Technologie bei vielen Morningshow-Crews das blanke Entsetzen auslösen dürfte.
Ich will ja nicht ausschließen, dass es bestehende Radiosender geben könnte, die ihre Personalkosten immer weiter herunterfahren, bis irgendwann nur noch ein paar KI-Bediener im Hause sind. Und dann geht irgendwann das Licht ganz aus. Was ich aber bezweifele ist der Erfolg der Geschäftsidee, einen Radiosender aufzubauen und diesen KI-betrieben zu führen. Wer sollte so etwas hören wollen? Wer sollte das finanzieren? KI zur Simulation eines Radioprogramms braucht keiner. Alles was so ein "Produkt" leisten könnte, bekomme ich auch ohne Radio.

Youtube zeigt doch z.B. überdeutlich, dass gerade die echten Typen mit Schnauze und Ecken erfolgreich sind. Bei TikTok und Insta könnte ich mir eher vorstellen, dass die Influencer von KI-Schönheiten verdrängt werden, die ihren perfekten Körper rund um die Uhr und ohne zu Murren präsentieren, den Spannern reicht auch das.
 
Zuletzt bearbeitet:
Ich finde, sie klingen noch ein bisschen wie Laientheater. Jetzt sagst Du was, dann sag' ich was. Lebendige Dialoge klingen doch noch mal etwas anders. Aber auch das wird man noch in den Griff bekommen. Lebensechte Atmer in Sinnpausen funktionieren ja auch schon. Faszinierend und gruselig zugleich.
 
Gibt's schon, dachte ich. Also die Anwendung von KI-generierten Stimmen im Auslandsdienst von Radio Rumänien. Statt als Moderator gelangweilt aus den Hörerbriefen zu zitieren, wird diese Arbeit dem Computer überlassen. Dabei wird schon, je nach Hörer oder Hörerin in männliche oder weibliche Stimmen unterschieden.
Kleines Beispiel.
 

Anhänge

KI zur Simulation eines Radioprogramms braucht keiner. Alles was so ein "Produkt" leisten könnte, bekomme ich auch ohne Radio.

Da stimme ich dir absolut zu. Ich wollte ja nur demonstrieren, mit welchen technischen Spielereien wir in zunehmendem Maße beglückt werden. Man kann diese Möglichkeiten nutzen um die Abendschiene interessanter zu machen, Zusatzkanäle aufzupeppen oder Podcasts zu erstellen, die auf Basis selbstrecherchierten oder zusammengetragenen Materials automatisch redigiert und vertont werden. Ein lokaler Radiosender lebt von leidenschaftlichen Moderatoren aus Fleisch und Blut, die auch außerhalb des Studios in Erscheinung treten können.

Ich werde später erläutern wie obiger Podcast zustande kam und warum diese Technologie zur absoluten Killer-Applikation im Audio-Bereich werden könnte. Wenn auch nur programmergänzend.
 
Ich finde, sie klingen noch ein bisschen wie Laientheater. Jetzt sagst Du was, dann sag' ich was. Lebendige Dialoge klingen doch noch mal etwas anders.

Jetzt bist du ungerecht, Endverbraucher haben da einen ganz anderen Blick drauf und finden diese Präsentationsweise frisch und lebendig. Hör dich doch mal beim Radio um oder gib dir die Morgenmagazine von ARD und ZDF, das wäre dann ja wohl auch alles Laientheater. Dieser Podcast soll ja ganz bewusst nicht wirken wie eine glattpolierte Hörspielproduktion mit minutiöser Choreografie, das wäre viel zu elaboriert und gekünstelt.
 
Zuletzt bearbeitet:
Jetzt bist du ungerecht,
Du sprichst von diesem Tool?


Ja, das ist äußerst beeindruckend, im Heise-Forum hat das jemand für den Artikel selbst erstellt. Und wieder fragt man sich, wie so etwas rechtlich einzuschätzen ist.

PS: Der KI müsste man aber die viel zu vielen "genau" austreiben, den Sprachfehler schlechthin der heutigen Zeit.
 
Zuletzt bearbeitet:
Zurück
Oben