Speech to Text

Worum geht es bei diesem Use Case

In vielen kommunalen Einrichtungen, KRITIS-Unternehmen oder Energieversorgern fallen heute Sprachaufnahmen an – z. B. aus Telefonaten, Besprechungen, Ortsterminen oder Sicherheitsbegehungen. Diese Aufnahmen sollen dokumentiert werden, dürfen aber nicht in öffentliche KI-Services hochgeladen werden. Genau dafür ist der Speech-to-Text Use Case gedacht.

Die Anwenderinnen und Anwender laden eine Audiodatei hoch und erhalten wenige Momente später das Transkript als Text. Die Verarbeitung findet vollständig auf der DVVKI-Plattform statt, in Deutschland und unter Einhaltung der Datenschutz- und Informationssicherheitsvorgaben.

Wie funktioniert die Transkription

Der Dienst stellt zwei Wege bereit: zum einen eine einfache Weboberfläche mit Upload-Button, zum anderen eine REST API für Fachanwendungen. Darüber kann z. B. ein DMS, ein Ticketsystem oder ein Fachverfahren automatisch Sprachaufnahmen an den Dienst schicken.

Audio hochladen (MP3, WAV, M4A, OGG …)
Transkript wird erzeugt und als Text zurückgegeben
Optional: Rückgabe als Datei für weitere Systeme

Es handelt sich bewusst um eine Batch-Transkription. Ein Live-Mitschnitt mit Echtzeit-Untertiteln ist in dieser Ausprägung nicht vorgesehen.

Sicherheit und Hosting

Da alle Modelle auf der Plattform laufen, werden Sprachdaten nicht an Hyperscaler gesendet. Das ist besonders wichtig, wenn in den Aufnahmen personenbezogene Daten, interne Bezeichnungen oder schutzbedürftige Informationen vorkommen.

Der Betrieb kann auf vorhandener GPU-Infrastruktur im kommunalen Rechenzentrum erfolgen, sodass auch größere Audiodateien performant verarbeitet werden können.

Typische Anwendungsbeispiele

Transkription von Gesprächsprotokollen und Abstimmungen
Dokumentation von Vor-Ort Begehungen und Störungsmeldungen
Gesprächsmitschnitte aus vertraulichen Bereichen verschriftlichen
Tonaufnahmen aus mobilen Endgeräten in Ticketsysteme überführen

Worum geht es bei diesem Use Case

Wie funktioniert die Transkription

Sicherheit und Hosting

Typische Anwendungsbeispiele

Interessiert an einer Demo?