Z Audiol 2022; 61 (3) 94–101 – Schwarz/Frenz/Bockelmann/Husstedt

Details: Kategorie: Originalarbeiten

Untersuchung einer synthetischen Stimme für den Freiburger Einsilbertest

Examination of a synthetic voice for the Freiburg Monosyllabic Speech Test

Thomas Schwarz¹, Marlitt Frenz¹, Alina Bockelmann¹, Hendrik Husstedt¹
¹Deutsches Hörgeräte Institut GmbH

Zusammenfassung: Der Freiburger Sprachtest ist der im deutschsprachigen Raum am häufigsten verwendete Sprachtest. Die Aufnahmen der Testwörter stammen aus dem Jahr 1969 und Sprachverständlichkeitsbezugskurven für Messungen mit dem Freiburger Einsilbertest (FET) in Ruhe sind in der DIN 45621-1 definiert. Im Rahmen dieser Arbeit wurden mittels synthetischer Stimme einsilbige Testwörter erzeugt und mit dem originalen Sprachmaterial im Hinblick auf die Sprachverständlichkeit in Ruhe verglichen. Dafür wurde das synthetische Sprachmaterial des FET über ein kommerzielles Text-to-Speech(TTS)-System erzeugt. Die Entwicklung eines Sprachtests mit synthetischer Stimme findet vor dem Hintergrund statt, eine langfristige Lösung für einen um Sprachbestandteile austauschbaren und erweiterbaren Sprachtest zu finden. So ließen sich kosten- und zeitaufwendige Neuaufnahmen vermeiden und es bestände die Möglichkeit einer stetigen Weiterentwicklung des Sprachtests. Auf Grundlage einer Probandenmessung mit 40 normalhörenden Probanden wurden psychometrische Funktionen für den FET mit originalem und synthetischem Testmaterial und Sprachverständlichkeitswerte für die Einzelwörter und Listen ermittelt. Bei der Probandenmessung wurde der FET im Freifeld in Ruhe in einer geeigneten Messkabine durchgeführt. Der Vergleich zwischen ermittelten psychometrischen Funktionen des FET mit originaler und synthetischer Stimme für den gesamten Test zeigt weder im mittleren SRT noch in der mittleren Steigung einen signifikanten Unterschied. Bei der Untersuchung zum Einzelwortverstehen gibt es einzelne Wörter, die durch die Erzeugung vom TTS-System im Vergleich mit den originalen Aufnahmen schlechter von den Probanden verstanden wurden. Beim Anhören dieser Wörter fällt eine durch das Synthesesystem erzeugte Unnatürlichkeit in der Aussprache auf, die auf unterschiedliche Ursachen zurückgeführt werden kann. Für die Zukunft wäre nach den Ergebnissen dieser Studie die Erstellung und Durchführung eines mit synthetischer Stimme erstellten FET mit einer angepassten Synthesestimme sinnvoll möglich.

Stichwörter: Freiburger Einsilbertest, synthetische Stimme, Sprachverständlichkeit, psychometrische Funktion

Abstract: The Freiburg Speech Test is a commonly used speech test in German-speaking countries. The test corpus was recorded in 1969 and reference curves for performing the Freiburg monosyllabic speech test (FET) in quiet are defined in DIN 45621-1. In the context of this work, test words generated by a synthetic voice are compared with the original speech material with regard to speech intelligibility in quiet. For this purpose, the synthetic speech material was generated by using a commercial text-to-speech system (TTS). The motivation for using a synthetic voice is that an update or extension of the speech material with the same voice is also possible in future. In addition, this would avoid costly and time-consuming new recordings. On the basis of measurements with 40 normal-hearing subjects, psychometric functions for the FET with the original and synthetic test material and speech intelligibility values for the single words and lists were determined. The test was performed in free field in quiet in an appropriate audiological test room. When comparing the determined psychometric functions of the FET in the original-voice-condition with the FET in the synthetic-voice-condition, there is no significant difference in the mean SRT or the mean slope. Looking at the single-word comprehension, there are isolated words that were understood significantly worse by the test subjects due to the generation of the TTS system compared to the original recordings. When listening to these words in synthetic condition, an unnaturalness in pronunciation is noticeable, which can be attributed to different reasons. The results of this study show, that the creation and use of the FET with a synthetic voice seems to be feasible and reasonable.

Keywords: Freiburg monosyllabic speech test, synthetic voice, speech intelligibility, psychometric function

^{Online-Erstveröffentlichung in GMS Z Audiol (Audiol Acoust) 2022;4:Doc04. DOI: 10.3205/zaud000022}