Der Markt für die Sprache-zu-Text-Transkription wächst und umfasst mittlerweile eine Vielzahl von Branchen. Aber was sind die entscheidenden Merkmale, auf die man sich in den nächsten zwei bis drei Jahren konzentrieren sollte, wenn Sie eine solche Software nutzen wollen?
Genauigkeit der Spracherkennung
Bei Audiotranskriptionen in den gebräuchlichsten Sprachen wird mittlerweile eine Genauigkeit erreicht, die in einigen Szenarien an die menschliche Genauigkeit der Sprache heranreicht. Es werden Werte nahe der 95 % Marke erreicht (Englisch), d. h. mit einer Wortfehlerrate von 5 %. Daher müssen die an der Spracherkennungstechnologie Beteiligten die gleichen Genauigkeitsstandards für andere Sprachen entwickeln, um sicherzustellen, dass sie für die zunehmend multinationale und mehrsprachigen Ansprüche von Unternehmen als Endkunden ein mehr als zufriedenstellendes Niveau erreichen.
Zusätzlich zu diesen Fähigkeiten müssen die Anbieter Lösungen zur Verbesserung der Qualität der ihren Kunden gelieferten Ergebnisse anbieten, die von der Identifizierung der Sprachen bis zur Sprecheridentifizierung reichen, um sicherzustellen, dass die Sprachgenauigkeit auch tatsächlich erreicht wird.
Ein Beispiel, das oft als selbstverständlich angesehen wird, ist die Fähigkeit, eine qualitativ hochwertige Transkription Ausgabe in lauten Umgebungen, bei spontanen Gesprächen oder sogar bei Audioaufnahmen auf Geräten mit geringer Qualität zu liefern. Stellen Sie sich einfach vor eine andere Person im Zimmer, indem Sie Ihre Aufnahmen machen will bei NetBet Book of Ra spielen, was etliche Nebengeräusche verursacht und das automatisierte System soll dann die Spracherkennung durchführen.
Identifizieren, wer gerade spricht
Ein Sprecherverzeichnis wird zur Identifizierung der Stimmen von Einzelpersonen in einkanalig aufgenommenen Audio-/Multimedia Dateien verwendet: „eindeutige Sprecher“ werden erkannt, indem jedem Sprecher ein Etikett zugewiesen und dieser mit den entsprechenden Textabschnitten im Transkript in Verbindung gebracht wird.
Dies ist eine echte Herausforderung für diese Systeme: Ein einzelner Sprecher kann in Tonfall und Sprache je nach Stimmung, Zögern, Betonung, Umgebungsgeräuschen und zahlreichen anderen Variablen variieren, sodass es nicht so einfach ist, alle Nuancen unter einem einzigen Label zusammenzufassen und von anderen zu unterscheiden.
Automatische Erkennung
Durch die Automatisierung der Identifizierung der gesprochenen Worte in Echtzeit, vor dem Beginn des Transkriptions Prozesses, der andernfalls mit der manuellen Auswahl des richtigen Sprachpakets erfolgen würde, können Unternehmen die Verwaltung von Geschäftsprozessen in mehrsprachigen Kontexten vereinfachen.
Anpassung von Akustik- und Sprachmodellen
Die Verfügbarkeit firmeneigener Technologien ist die treibende Kraft hinter der besten automatischen Transkriptions-Leistung. Eine Anpassung kontextspezifischer Sprach- und Akustikmodelle ermöglicht die Transkription von Audio in Text aus einer Vielzahl von Eingaben, wobei hohe Qualitätsstandards erreicht werden.
Spracherkennungshindernisse aufgrund besonderer akustischer Umgebungen und spezifischer Terminologien (z. B. Namen von Einrichtungen, Produktnamen, Markennamen, beim Kunden verwendete Akronyme) müssen überwunden werden.
Die Möglichkeit der Feinabstimmung solcher Modelle gewährleistet eine angemessene und genauere Ausgabe, als dies bei der Verwendung von Allzwecksystemen der Fall ist. Der Prozess muss jedoch noch verfeinert werden, unter anderem durch eine engere Zusammenarbeit zwischen Nutzern und Anbietern, beginnend mit der gemeinsamen Nutzung von Daten und endend mit dem Erreichen eines wirklich effektiven Outputs.
Erweiterung der Möglichkeiten von virtuellen Assistenten
Angesichts des großen Interesses an virtuellen Assistenten und ihrer zunehmenden Nutzung auf Smartphones und anderen Geräten ist es von entscheidender Bedeutung, die Genauigkeit auch in bestimmten Kontexten und Anwendungsszenarien zu erhöhen; (z. B. Unterstützung bei der Sperrung von Kreditkarten, bei Arztterminen usw.).
Die Verbraucher erwarten von ihren virtuellen Assistenten, dass sie sie verstehen, unabhängig von dem Akzent, einem Dialekt oder ihrer Sprechweise, selbst bei Ausdrücken, die nicht immer leicht zu kontextualisieren sind.
In jedem Fall wird die Spracherkennung und die entsprechende Speech-to-Text Automatisierung immer besser werden und herkömmliches Schreiben könnte in naher Zukunft der Vergangenheit angehören.
Bildquellen: unsplash
& unsplash