Der große Vorteil der neuen Google TTS ist dass sie völlig prompt-gesteuert ist. Man hat bis auf die "Temperature" (die man am besten gar nicht verändert) praktisch keine Einstellungsregler mehr. Alles wird durch Gemini-Sprachmodelle, die direkt miteinander kommunizieren, organisiert.
Du nimmst einfach einen Text, wählst eine der vielen vordefinierten Stimmen und schreibst einen Prompt, der alle Anweisungen bezüglich Sprechweise, Emotionalität, Tempo, Akzent, Stimmung, Eigenart oder die besondere Stimmlage enthält. Auch auffällige Atemgeräusche, Flüstern oder Räuspern können angefordert werden, wie es heißt.
Durch die völlige Freiheit bei der Promptgestaltung, die mehrere Sätze umfassen kann, ändert sich auch die Stimme ganz erheblich, sodass man eigene Marken erschaffen kann, die durch Wiederholung der Anweisungen immer wieder neu zum Leben erweckt werden.
Das Geheimnis des Erfolgs liegt hier also wie bei allen Sprachmodellen allein im Finden der perfekten "Zaubersprüche", mit denen man seine eigenen Vorstellungen verwirklichen kann. Man hat maximale Freiheiten und kann seine eigene Sprechercrew kreieren und durch experimentelles Prompting in jede gewünschte Richtung optimieren, beim Menschen würde man sagen trainieren - Talent vorausgesetzt.
Die neue Google-TTS kann aber theoretisch noch mehr: Man kan mittels Prompt verlangen dass der Text inhaltlich auf eine bestimmte Zielgruppe ausgerichtet, umformuliert oder qualitativ verbessert wird. Außerdem kann man ihn in jede der 24 unterstützten Sprachen übersetzen lassen und unter Beibehaltung der besonderen Merkmale des Sprechers/der Sprecherin in die jeweils andere Sprache übertragen. Das geht sogar in Echtzeit. So kann man mit virtuellen Assistenten diskutieren, Simultanübersetzungen durchführen, Kundendialogsysteme in höchster Qualität einrichten oder sich mit Sprachmodellen in natürlicher Sprache unterhalten.
Man kann neben Vorträgen, Lesungen, Sendungen, Voiceovers oder Podcasts auch Dialoge produzieren oder Gesprächssituationen mit mehreren Teilnehmern simulieren, wobei jede Sprechstimme ihren eigenenen Charakter-Prompt erhält (erinnert euch an die Audio-Zusammenfassung in NotebookLM, die förmlich süchtig macht und auf dieser Technologie beruht).
Mit diesem System rollt Google den Markt neu auf und schlägt die Konkurrenz aus dem Feld. Da bahnt sich gerade eine Revolution an, von der 99,9 Prozent der Menschheit noch nichts mitbekommen haben.
Technische Details und Hinweise zur API, die dann mittels Frontend per Eingabemaske von jedem Laien simpel bedient werden kann:
Erste Schritte mit der Gemini API
ai.google.dev