Text2Speech beschreibt die Umwandlung von geschriebenem Text in gesprochenen Text (Sprachsynthese) auf Computersystemen. Auf unserem Asterisk-System bedeutet das, dass ein Programm anhand einer Textdatei (meist in ASCII) eine entsprechende Audiodatei (Soundfile) erzeugt. Diese kann wie jede andere Multimediadatei abgespielt werden und man hört den Text dann gesprochen. Wie bei vielen Software-Projekten wird die englische Sprache meist besser unterstützt als die deutsche.
Darüber hinaus gibt es große Qualitätsunterschiede zwischen den offenen und freien (meist GPL) Engines und entsprechenden kommerziellen Lösungen.
Einen kostenlosen Test einer qualitativ sehr guten Engine kann man online bei IBM unter http://www.ibm.com/software/pervasive/tech/demos/tts.shtml machen. |
Das Speech Synthesis System Festival (http://www.cstr.ed.ac.uk/projects/festival/) eignet sich gerade noch so für englischen Text, aber spätestens bei deutschen Texten lässt die Qualität sehr zu wünschen übrig. Als guten Kompromiss kann man die Software der amerikanischen Firma Cepstral (http://www.cepstral.com/) nehmen. Es gibt dort eine kostenlose Probeversion und eine recht günstige Vollversion. [113]Die hier vorgestellte Lösung baut auf der Cepstral Engine auf.[114]
Cepstral und Festival sind beides keine qualitativ hochwertigen Text-to-Speech-Engines! Leider gibt es in diesem Feld nur im Hochpreissegment wirklich gute Lösungen. |
[113] Auch hier gibt es eine Online-Testversion unter http://www.cepstral.com/demos/.
[114] Wer sich ein wenig mit Festival beschäftigt, kann die hier gezeigten Beispiele leicht auf Festival übertragen. Dies gilt in gleicher Weise auch für jede andere Text-to-Speech-Engine.