die stimme aus der steckdose

Wer sein eigenes Buch nach Monaten der Arbeit endlich fertig auf dem Tisch liegen sieht, stolpert unweigerlich über die nächste verlockende Stufe der medialen Evolution: das Hörbuch. Man könnte sich nun natürlich selbst tagelang in eine improvisierte, mit Eierkartons ausgekleidete Besenkammer einschließen, stundenlang ins Mikrofon flüstern, an jedem zweiten Satz herumnörgeln und am Ende mit einer chronisch heiseren Stimme und akutem Schlafmangel aufgeben. Oder man geht den modernen Weg und lässt die eigene Stimme einfach klonen.

Da ich mich im digitalen Maschinenraum ohnehin heimischer fühle als auf der Theaterbühne, war die Entscheidung für ein KI-gestütztes Hörbuch-Experiment schnell gefallen. Doch wer glaubt, man wirft einfach ein Dokument in eine Weboberfläche und bekommt fünf Minuten später ein meisterhaft akzentuiertes Audio-Epos geliefert, der unterschätzt die wunderbare Detailwut moderner Sprachalgorithmen. Willkommen im akustischen Kontrollzentrum von „Das Tagebuch eines Grenzschreibers“.

Der Nerd-Reflex und die nackten Zahlen

Wenn man ein solches Projekt als IT-affiner Mensch anpackt, schaut man zuerst auf die mathematische Datenbasis. Mein Manuskript bringt es auf exakt 74.164 Wörter, was in der Welt der Zeichenketten stolze 494.157 Zeichen inklusive Leerzeichen bedeutet. Die Hochrechnung für das menschliche Ohr ergibt daraus eine reine Hörzeit von schätzungsweise 8,5 bis 9,5 Stunden. Ein ordentliches Brett, das vertont werden will.

Als bekennender Verfechter von Datenhoheit juckte es mir natürlich sofort in den Fingern, die gesamte Pipeline lokal aufzusetzen. Docker-Container anwerfen, Python-Skripte konfigurieren, Open-Source-Modelle wie XTTS v2 oder Piper installieren und die heimische Grafikkarte glühen lassen – das klang nach dem perfekten Wochenendzeitvertreib.

Die Ernüchterung folgte auf dem Fuße: Bei einer Spielzeit von fast neun Stunden mutiert die lokale Open-Source-Bastelei schnell zum unendlichen Geduldsspiel. Wenn man Wochen damit verbringt, abgehackte Endsilben zu korrigieren, VRAM-Engpässe zu umschiffen und der lokalen KI mühsam flüssiges Deutsch beizubringen, verliert man das eigentliche Ziel aus den Augen. Das Buch soll schließlich irgendwann erscheinen und dabei absolut professionell und lebendig klingen. Also wurde die Open-Source-Variante pragmatisch aussortiert und der Weg zum Cloud-Marktführer ElevenLabs eingeschlagen.

Die Punktlandung im Pro-Tarif

ElevenLabs bietet für dieses Vorhaben den sogenannten Pro-Plan an, der für rund 99 US-Dollar ein monatliches Kontingent von 500.000 Zeichen beinhaltet. Wer nun kurz mitrechnet, merkt, wie unverschämt eng diese Kiste ist:

$$\text{Puffer} = 500.000 – 494.157 = 5.843 \text{ Zeichen}$$

Ein digitaler Spielraum von gerade einmal knapp 5.800 Zeichen bei einem halben Million Zeichen schweren Manuskript. Das bedeutet übersetzt: Jeder grobe Fehler beim Generieren, jeder Absatz, den man wegen einer falschen Betonung komplett neu berechnen lassen muss, frisst das Budget gnadenlos auf. Eine absolute Punktlandung ist gefragt.

Der Schlüssel zum Erfolg liegt im sogenannten Professional Voice Cloning. Statt der simplen Instant-Variante, bei der man der KI ein paar Minuten Sprachfetzen hinwirft und am Ende wie ein leicht monotoner Navigationsassistent klingt, erfordert das professionelle Verfahren echten Einsatz. Man liest dafür etwa 30 bis 45 Minuten am Stück eigene Texte in einer absolut rauschfreien Umgebung ein. Das System baut daraus ein dediziertes neuronales Netz, das die feinen Nuancen, das exakte Timbre und sogar den leichten, unbewussten Heimatdialekt der eigenen Stimme erstaunlich präzise einfängt. Das Beste daran: Das Training selbst verbraucht glücklicherweise kein einziges Zeichen des monatlichen Budgets.

Wenn die US-KI durch das Werratal stolpert

Die eigentliche Herausforderung bei einem historisch-satirischen Werk, das tief in regionalen Gefilden verwurzelt ist, ist die Geografie. Der zugrundeliegende Algorithmus mag weltweit Spitzenklasse sein, ist im Herzen aber Amerikaner. Lässt man ihn einfach so auf den Text los, macht er aus historischen Begriffen, alten Titeln oder regionalen Schauplätzen rund um das Werratal, den Meißner oder das Eichsfeld ein linguistisches Desaster, das eher nach einem texanischen Touristen auf Abwegen klingt.

Hier rettet das Feature der „Pronunciation Dictionaries“ (Aussprache-Lexika) den Tag. Bevor man auch nur das erste Kapitel konvertiert, füttert man die Plattform mit den spezifischen Eigenheiten des Textes und hinterlegt via internationaler Lautschrift (IPA) die exakte Betonung. Das ist zwar im ersten Moment trockene Fleißarbeit, verhindert aber im weiteren Verlauf, dass man Absätze dreimal generieren muss, nur weil das System einen lokalen Ortsnamen englisch aussprechen wollte.

Zudem nutzt man für ein solches Projekt am besten das „Projects“-Studio der Plattform, das für Langtexte optimiert ist. Wer den Fehler macht und ein 460-Seiten-Dokument als Ganzes in den Generator wirft, hat ohnehin verloren. Das Manuskript wird kapitelweise hochgeladen. Der unschlagbare Vorteil: Der Editor erkennt Absätze und Sätze einzeln. Patzt die KI bei der Betonung eines bestimmten Satzes, korrigiert man punktuell nur diese eine Zeile. Das schont das knappe Zeichenbudget und sorgt dafür, dass am Ende des Monats alle Kapitel sauber verarbeitet als hochauflösende Audiodateien auf der Festplatte landen, bereit für den feierlichen Upload bei Tolino Media.

Am Ende ist die eigene Stimme aus der Steckdose ein faszinierender Spagat: Man nutzt modernste Technologie, um ein zutiefst traditionelles, regionales Buchprojekt zum Klingen zu bringen. Man muss die Maschine nur präzise genug füttern, damit sie den satirischen Tonfall auch trifft.

Kommentare

Der Nerd-Reflex und die nackten Zahlen

Die Punktlandung im Pro-Tarif

Wenn die US-KI durch das Werratal stolpert

Norbert Beck

Das könnte dich auch interessieren

die unbarmherzige vier

die paletten-illusion

plötzlich wieder schüler