Worum geht es bei diesem Use Case
In vielen kommunalen Einrichtungen, KRITIS-Unternehmen oder Energieversorgern fallen heute Sprachaufnahmen an – z. B. aus Telefonaten, Besprechungen, Ortsterminen oder Sicherheitsbegehungen. Diese Aufnahmen sollen dokumentiert werden, dürfen aber nicht in öffentliche KI-Services hochgeladen werden. Genau dafür ist der Speech-to-Text Use Case gedacht.
Die Anwenderinnen und Anwender laden eine Audiodatei hoch und erhalten wenige Momente später das Transkript als Text. Die Verarbeitung findet vollständig auf der DVVKI-Plattform statt, in Deutschland und unter Einhaltung der Datenschutz- und Informationssicherheitsvorgaben.
Wie funktioniert die Transkription
Der Dienst stellt zwei Wege bereit: zum einen eine einfache Weboberfläche mit Upload-Button, zum anderen eine REST API für Fachanwendungen. Darüber kann z. B. ein DMS, ein Ticketsystem oder ein Fachverfahren automatisch Sprachaufnahmen an den Dienst schicken.
- Audio hochladen (MP3, WAV, M4A, OGG …)
- Transkript wird erzeugt und als Text zurückgegeben
- Optional: Rückgabe als Datei für weitere Systeme
Es handelt sich bewusst um eine Batch-Transkription. Ein Live-Mitschnitt mit Echtzeit-Untertiteln ist in dieser Ausprägung nicht vorgesehen.
Sicherheit und Hosting
Da alle Modelle auf der Plattform laufen, werden Sprachdaten nicht an Hyperscaler gesendet. Das ist besonders wichtig, wenn in den Aufnahmen personenbezogene Daten, interne Bezeichnungen oder schutzbedürftige Informationen vorkommen.
Der Betrieb kann auf vorhandener GPU-Infrastruktur im kommunalen Rechenzentrum erfolgen, sodass auch größere Audiodateien performant verarbeitet werden können.
Typische Anwendungsbeispiele
- Transkription von Gesprächsprotokollen und Abstimmungen
- Dokumentation von Vor-Ort Begehungen und Störungsmeldungen
- Gesprächsmitschnitte aus vertraulichen Bereichen verschriftlichen
- Tonaufnahmen aus mobilen Endgeräten in Ticketsysteme überführen