Text to Speech unter Windows

stephan · 30. November 2018 um 09:42

Hallo zusammen,

in Professionelle Stimme gesucht wurden ja schon einige Möglichkeiten aufgezeigt sich selber die benötigten Prompts mit diversen Stimmen zu erzeugen. Ich bin eben gerade über eine weitere Möglichkeit gestolpert die wohl unter Windows läuft:

http://jampal.sourceforge.net/ptts.html
oder (vielleicht besser?)
http://balabolka.site/de/bconsole.htm

Damit müsste es doch möglich sein ein Script zu bauen, was analog zu dem Mac Script was wir schon haben die Prompts lokal erzeugt. Auch praktisch als Alternative wenn man die Ansagen für sich personalisieren möchte o.ä.

Wäre toll wenn sich das jemand mit entsprechenden Windows Scripting Skills mal anschauen könnte, und das hier vorstellen würde. Vielleicht geht da ja was.

Dennis · 30. November 2018 um 10:23

Klingt gut, leider kein Beispiel wie es sich anhört.

Christian · 30. November 2018 um 12:41

Hört sich „okay“ an aber weit entfernt von google und Amazon. Ich kann am Wochenende gerne ein PowershellScript posten, welches alle Dateien erzeugt. Das Script liest die sounddatei von Thorsten aus und erzeugt die entsprechenden Texte.
Es gibt eine Anleitung wie man die englische Cortana für die Sprsschausgabe nutzen kann. Die klingt super aber leider habe ich auf die Schnelle keine Anleitung für die deutsche Stimme gefunden.

Admiral_A_Ravensdale · 30. November 2018 um 12:49

mir wäre es lieber wenn wir wenigstens die gängigen ansagen zu den meistgenutzten forks in irgend nem google drive, dropbox oder webspace zur verfügung haben…
musste gerade alle karten mit dem original konfigurieren um dann die version zu flashen.
https://github.com/seisfeld/TonUINO

muss jetzt mal sehen wen ich mit nem angebissenen apfel kenne um die mp3 zu bekommen, bissel blöd und 2 verschiedene stimmen mag ich auch nicht haben wollen.
p.s. habe noch 1GB space auf meiner HP frei lege die da gerne zum download bereit…

stephan · 30. November 2018 um 13:19

@johannes hat ja ein script samt Anleitung gepostet womit man sich erzeugen kann, was man möchte. Die Dateien für jeden Fork zu hosten halte ich für nicht praktikabel, zumal sich da auch mal was ändern kann. Bei den originalen TonUINO Prompts die der Großteil verwendet sieht das natürlich anders aus.

Das Script von @johannes hat er zwar auch auf MacOS geschrieben, sollte aber auf zumindest Linux anpassbar sein. Man braucht halt nen Google API key. Daher war meine Idee jetzt zumindest für jede Plattform einen Möglichkeit zu schaffen, das auch offline hinzubekommen.

Christian · 30. November 2018 um 13:20

Ich glaube, das ist genau das Problem. Es gibt viel zu viele individuelle Ansagen. Ich hatte mal angeregt das zu vereinheitlichen aber das ist auf wenig Gegenliebe gestoßen

Mit einem Script für Linux/Mac und Windows kann jeder seine Version bedienen. Das Skript benutzt die WindowsSprachEngine und kann auch die Google oder Amazon Ansagen erzeugen. Dafür benötigt man leider entsprechende Entwicklerkonten.

stephan · 30. November 2018 um 13:25

Wenn wir so etwas hätten, das wäre Großartig. Dann kann jeder der vom Original abweichen möchte (aus welchen Gründen auch immer), seine Dateien einfach erzeugen. Ggf. sogar wählbar via WindowsSprachEngine (also offline, ggf. sogar über Cortana), Google oder Amazon (wenn man einen API Key hat).

Das wäre eine tolle Bereicherung.

papa · 30. November 2018 um 13:51

Kann man so einen API Key nicht teilen? Die kosten doch nichts, oder?

stephan · 30. November 2018 um 13:56

Vielleicht könnte man sich auf ein Text Format einigen, in dem die Quellen vorliegen:

datei1.mp3|Text 1
datei2.mp3|Text 2
datei3.mp3|Text 3

usw.

Christian · 30. November 2018 um 13:59

stephan:

Christian:

Das Script liest die sounddatei von Thorsten aus und erzeugt die entsprechenden Texte.

Vielleicht könnte man sich auf ein Text Format einigen, in dem die Quellen vorliegen:
datei1.mp3|Text 1
datei2.mp3|Text 2
datei3.mp3|Text 3
usw.

Ja, unbedingt. Um ganz genau zu sein konvertiert ein Skript Thorstens Datei in „Dein“ Format, hier mache ich dann Änderungen. Ein zweites Skript benutzt diese Datei als Input für das Erstellen der Files.

Christian · 30. November 2018 um 14:01

Doch, ab einem bestimmten Volumen muss der Inhaber des Keys bezahlen…

papa · 30. November 2018 um 14:28

OK, ist dann natürlich suboptimal

Christian · 1. Dezember 2018 um 22:01

Ich habe die Powershell Skripte nun hier hochgeladen: https://github.com/ceear/Powershell.Text2Speech

Die sind noch nicht gut dokumentiert und es gibt ein paar Dinge zu beachten. Wäre gut, wenn ein Windows-User das mal (mit mir zusammen) testen könnte.

Grundsätzlich dient das Skript dazu Sprachdateien (MP3) mit verschiedenen Text-To-Speech Engines zu erstellen. Aktuell mit der Windows “Offline” Engine, Google TTS und Amazon Polly.
Für Google TTS und Amazon Polly werden entsprechende Konten/API-Keys benötigt.

Das eigentliche Skript ist Generate-Speech-Files.ps1
Es erwartet eine Datei speech.txt als Eingabedatei für die zu erzeugenden Texte.
Das Format der speech.txt ist so wie von stephan beschrieben : datei1.mp3|Text 1
Im oberen Breich von Generate-Speech-Files.ps1 können einige Anpassungen vorgenommen werden.
** $Basepath = "C:\temp\MySpeech" gibt den Zielordner der Sprachdateien an.
** Jede Speech-Engine kann mit $True / $False aktiviert oder deaktiviert werden.
** Für jede Sprach-Engine können die gewünschten Sprachen ausgewählt werden.
Windows-Sprach-Engine
** Wenn ihr das Skript mit dem Parameter Generate-Speech-Files.ps1 -ShowAvailableWinSpeechVoices startet, zeigt es die aktuell in Windows verfügbaren Stimmen an. Die sind von der Sprachversion abhängig, können aber nachinstalliert werden:Microsoft
** $GenerateWinSpeechVoice="Microsoft Hedda Desktop" Definiert dann die Stimmen. Hedda scheint eine Standardstimme zu sein. Hier können auch mehrere Stimmen angegeben werden ="Stimme1","Stimme2",...
** Die Windows Engine erzeugt WAV Dateien. Ich verwende FFMPEG für die Konvertierung zu MP3. Unter $FFMPEGPath = "C:\windows\system32\ffmpeg.exe" muss der Path zu FFMPEG eingetragen werden. Download z.B. hier : FFMPEG
Google TTS
** API-KEY erstellen Link und unter $GoogleAPIToken eintragen. die anderen Parameter sind im Skript dokumentiert.
Amazon Polly
** Hier verwende ich die Amazon Powershell Module. Link
** Auch hierfür benötigt man einen Amazon-Account
** Einrichtung: Anleitung

stephan · 1. Dezember 2018 um 22:11

Respekt! Das ist ein großer Schritt nach vorne, danke fürs teilen! Bin gespannt wie das Feedback ist, wenn das die ersten mutigen Tester ausprobiert haben.

Christopher · 5. Dezember 2018 um 21:43

Hallo zusammen,
könnte mir einer mit der Google Stimme wie im aktuellen repo sieben Dateien erzeugen, es geht hierbei um die Menüerweiterung für das Ambilight in meiner neuen Box?

Folgender text wird benötigt, Nummerierung ist egal:
Bitte wähle eine Farbe aus
keine, das Licht bleibt aus
rot
gelb
grün
blau
weiss
rosa

stephan · 6. Dezember 2018 um 07:30

Hat sich noch kein Windows User gefunden, der mal das Script von @Christian testen möchte? Welches Windows braucht man da eigentlich? Funktioniert das unter 7 oder braucht man unbedingt 10?

Dennis · 6. Dezember 2018 um 08:05

Ich werde das am WE mal ausprobieren. Habe Windows 10.
Wollte eigentlich noch auf Thorstens neue Firmware warten, weil es da ja sicherlich neue Sätze geben wird.

@Christopher wie hier im Forum schon beschrieben, gibt es eine Android-App (T2S), mit der man recht einfach Wörter / Sätze aus verschiedenen Quellen als .wav speichern kann.
Mit dem VLC Player habe ich dann MP3s draus gemacht.

stephan · 6. Dezember 2018 um 08:22

Das schöne ist ja, man muss nicht mehr warten. Der Plan ist ja, dass das „mal eben so“ geht.

papa · 6. Dezember 2018 um 10:43

So, hab das Skript mit der MS Hedda ans laufen bekommen. Brauchte aber die Hilfe von hier:

Konnte das Skript wegen Restriktionen und fehlender Admin Rechte nicht ausführen.
Respekt läuft super. Zusätzlich zu den gewünschten Dateien, wurde noch 0001.mp3 und 0002.mp3 erzeugt und die Zahlen eins und zwei angesagt.

Die Google Stimme hab ich bisher leider nicht ans laufen bekommen, Hedda gefällt mir auf jeden Fall nicht.

Gruß
Papa

papa · 6. Dezember 2018 um 11:09

So, hab mich durch die Google Cloud gekämpft und einen API Key erzeugt. Hab ein Guthaben von 264,71 € erhalten, damit dürften sich einige Texte erzeugen lassen.

Key eingetragen, Skript läuft. Hat direkt alle Files 4 Mal erzeugt, de-DE-Wavenet-A bis de-DE-Wavenet-D. Welche hat Thorsten verwendet?

Danke!

@Christopher
Hier deine Dateien: https://transfer.pcloud.com/download.html?code=5ZfRkP7ZvUUO7nlBU5BZYVGhZcfSwdhJh6i5ngx0nF1Cgwb5a4uey