Die Microsoft Sprachsynthese-KI "VALL-E" ist bereits voll ausgereift und wird vermutlich bald zahlenden Endkunden und Drittanbietern zur Verfügung gestellt werden. Entwickelt wurde das Programm gemeinsam mit der Partnerfirma OpenAI, die mit dem Sprachmodell GPT und der Bilderzeugungssoftware DALL-E bereits für weltweite Forore gesorgt hat.
Wie alle KI-Anwendungen hat VALL-E auch Schnittstellen zu GPT-4, sodass von einer Bedienoberfläche aus Texte nach Belieben automatisiert verbessert, zusammengefasst, umformuliert oder in eine beliebige andere Sprache übersetzt werden können. Typisch für die TTS von VALLE-E sind die geringen Trainingsanforderungen für das Klonen von Stimmen. Bereits ein Sample von wenigen Minuten reicht aus um eine Stimme perfekt nachzubilden, etwa eine(n) senderintern tätige(n) Sprecher/-in oder Moderator/-in.
Wie beim Sprachmodell kann man die Stimme per Prompt (in normalem Deutsch geschriebene/gesprochene Anweisung) oder Voreinstellung nach Belieben emphatisch, euphorisch, natürlich, nüchtern, seriös, sachlich oder sonstwie klingen lassen - die Datensätze enthalten alle Attribute und Zuschreibungen, die mit den jeweiligen Stimmlagen und Vortragsweisen assoziiert sind.
Vergesst alle Systeme, die bereits jetzt im Einsatz sind. Mit der Markteinführung in diesem oder im nächsten Jahr werden Dämme brechen, weil man natürliche von künstlichen Stimmen dann nicht mehr voneinander unterscheiden kann. Auch META soll bereits eine fertige TTS bereithalten und bis Open-Source-Anwendungen nach dem Vorbild von "Stable Diffusion" oder ""LLaMA" / "Alpaca" veröffentlicht werden ist es bestimmt auch nicht mehr weit. Wegen der selbstlernenden Systeme (Deep-Learning) ist der Entwicklungsaufwand relativ gering, zumal der Bedarf an (Audio-)Trainingsdaten gering ist.