<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zaud000022</Identifier>
    <IdentifierDoi>10.3205/zaud000022</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zaud0000224</IdentifierUrn>
    <ArticleType>Originalarbeit</ArticleType>
    <TitleGroup>
      <Title language="de">Untersuchung einer synthetischen Stimme f&#252;r den Freiburger Einsilbertest</Title>
      <TitleTranslated language="en">Examination of a synthetic voice for the Freiburg Monosyllabic Speech Test</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Schwarz</Lastname>
          <LastnameHeading>Schwarz</LastnameHeading>
          <Firstname>Thomas</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>Deutsches H&#246;rger&#228;te Institut GmbH, Ansch&#252;tzstra&#223;e 1, 23562 L&#252;beck, Deutschland<Affiliation>Deutsches H&#246;rger&#228;te Institut GmbH, L&#252;beck, Deutschland</Affiliation></Address>
        <Email>thschwarz11&#64;gmail.com</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Frenz</Lastname>
          <LastnameHeading>Frenz</LastnameHeading>
          <Firstname>Marlitt</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Deutsches H&#246;rger&#228;te Institut GmbH, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Bockelmann</Lastname>
          <LastnameHeading>Bockelmann</LastnameHeading>
          <Firstname>Alina</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Deutsches H&#246;rger&#228;te Institut GmbH, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Husstedt</Lastname>
          <LastnameHeading>Husstedt</LastnameHeading>
          <Firstname>Hendrik</Firstname>
          <Initials>H</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Deutsches H&#246;rger&#228;te Institut GmbH, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">Freiburg monosyllabic speech test</Keyword>
      <Keyword language="en">synthetic voice</Keyword>
      <Keyword language="en">speech intelligibility</Keyword>
      <Keyword language="en">psychometric function</Keyword>
      <Keyword language="de">Freiburger Einsilbertest</Keyword>
      <Keyword language="de">synthetische Stimme</Keyword>
      <Keyword language="de">Sprachverst&#228;ndlichkeit</Keyword>
      <Keyword language="de">psychometrische Funktion</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      
    <DatePublished>20220608</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2628-9083</ISSN>
        <Volume>4</Volume>
        <JournalTitle>GMS Zeitschrift f&#252;r Audiologie - Audiological Acoustics</JournalTitle>
        <JournalTitleAbbr>GMS Z Audiol (Audiol Acoust)</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>04</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Der Freiburger Sprachtest ist der im deutschsprachigen Raum am h&#228;ufigsten verwendete Sprachtest.</Pgraph><Pgraph>Die Aufnahmen der Testw&#246;rter stammen aus dem Jahr 1969 und Sprachverst&#228;ndlichkeits- Bezugskurven f&#252;r Messungen mit dem Freiburger Einsilbertest (FET) in Ruhe sind in der DIN 45621-1 definiert. Im Rahmen dieser Arbeit wurden mittels synthetischer Stimme einsilbige Testw&#246;rter erzeugt und mit dem originalen Sprachmaterial im Hinblick auf die Sprachverst&#228;ndlichkeit in Ruhe verglichen. Daf&#252;r wurde das synthetische Sprachmaterial des FET &#252;ber ein kommerzielles Text-to-Speech (TTS)-System erzeugt. Die Entwicklung eines Sprachtests mit synthetischer Stimme findet vor dem Hintergrund statt, eine langfristige L&#246;sung f&#252;r einen um Sprachbestandteile austauschbaren und erweiterbaren Sprachtest zu finden. So lie&#223;en sich kosten- und zeitaufwendige Neuaufnahmen vermeiden und es best&#228;nde die M&#246;glichkeit einer stetigen Weiterentwicklung des Sprachtests. Auf Grundlage einer Probandenmessung mit 40 normalh&#246;renden Probanden wurden psychometrische Funktionen f&#252;r den FET mit originalem und synthetischem Testmaterial und Sprachverst&#228;ndlichkeitswerte f&#252;r die Einzelw&#246;rter und Listen ermittelt. Bei der Probandenmessung wurde der FET im Freifeld in Ruhe in einer geeigneten Messkabine durchgef&#252;hrt. Der Vergleich zwischen ermittelten psychometrischen Funktionen des FET mit originaler und synthetischer Stimme f&#252;r den gesamten Test zeigt weder im mittleren SRT noch in der mittleren Steigung einen signifikanten Unterschied. Bei der Untersuchung zum Einzelwortverstehen gibt es einzelne W&#246;rter, die durch die Erzeugung vom TTS-System im Vergleich mit den originalen Aufnahmen von den Probanden schlechter verstanden wurden. Beim Anh&#246;ren dieser W&#246;rter f&#228;llt eine durch das Synthesesystem erzeugte Unnat&#252;rlichkeit in der Aussprache auf, die auf unterschiedliche Ursachen zur&#252;ckgef&#252;hrt werden kann. F&#252;r die Zukunft w&#228;re nach den Ergebnissen dieser Studie die Erstellung und Durchf&#252;hrung eines mit synthetischer Stimme erstellten FET mit einer angepassten Synthesestimme sinnvoll m&#246;glich.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>The Freiburg Speech Test is a commonly used speech test in German-speaking countries. The test corpus was recorded in 1969 and reference curves for performing the Freiburg monosyllabic speech test (FET) in quiet are defined in DIN 45621-1. In the context of this work, test words generated by a synthetic voice are compared with the original speech material with regard to speech intelligibility in quiet. For this purpose, the synthetic speech material was generated by using a commercial text-to-speech system (TTS). The motivation for using a synthetic voice is that an update or extension of the speech material with the same voice is also possible in future. In addition, this would avoid costly and time-consuming new recordings. On the basis of measurements with 40 normal-hearing subjects, psychometric functions for the FET with the original and synthetic test material and speech intelligibility values for the single words and lists were determined. The test was performed in free field in quiet in an appropriate audiological test room. </Pgraph><Pgraph>When comparing the determined psychometric functions of the FET in the original-voice-condition with the FET in the synthetic-voice-condition, there is no significant difference in the mean SRT or the mean slope. Looking at the single-word comprehension, there are isolated words that were understood significantly worse by the test subjects due to the generation of the TTS system compared to the original recordings. When listening to these words in synthetic condition, an unnaturalness in pronunciation is noticeable, which can be attributed to different reasons. The results of this study show, that the creation and use of the FET with a synthetic voice seems to be feasible and reasonable.</Pgraph></Abstract>
    <TextBlock linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Ein zentrales Ziel der H&#246;rsystemversorgung ist ein verbessertes Sprachverstehen des H&#246;rsystemtr&#228;gers <TextLink reference="1"></TextLink>. Um dies zu ermitteln, k&#246;nnen verschiedene Sprachtestverfahren genutzt werden, mit denen eine erfolgreiche H&#246;rsystemanpassung nachvollziehbar &#252;berpr&#252;ft werden kann <TextLink reference="2"></TextLink>. Im deutschsprachigen Raum wird zu diesem Zweck am h&#228;ufigsten der Freiburger Sprachtest (FST) nach DIN 45621-1 verwendet <TextLink reference="3"></TextLink>. Das Ergebnis des FST ist nach Heil- und Hilfsmittelrichtlinie &#167; 21&#47;22 zusammen mit dem Tonaudiogrammergebnis f&#252;r die Indikation einer H&#246;rger&#228;teversorgung und damit f&#252;r die Kosten&#252;bernahme der Krankenkassen entscheidend <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>In der Vergangenheit wurde der FST, insbesondere der Freiburger Einsilbertest (FET), in verschiedenen Aspekten kritisiert und diskutiert. Ein zentraler Aspekt der Kritiker ist, dass die Wortlisten phonemisch unausgeglichen sind <TextLink reference="4"></TextLink>. Aber auch psychische Hemmnisse, einzelne Worte an den Pr&#252;fer gerichtet nachzusprechen (z.B.: Sau, Schwein, Sarg etc.), regionale Sprachbesonderheit<TextGroup><PlainText>en, K</PlainText></TextGroup>ontextbezug und eine unrealistische &#220;berartikulation wurden unter anderem durch Bangert <TextLink reference="4"></TextLink>, Alich <TextLink reference="5"></TextLink> und von Wedel <TextLink reference="6"></TextLink> bem&#228;ngelt. Ebenso stellten Winkler und Holube in einer Untersuchungsreihe fest, dass die verschiedenen Digitalisierungen des FET nicht alle Mindestanforderungen eines Sprachtests nach DIN EN ISO 8253-3 <TextLink reference="7"></TextLink> erf&#252;llen <TextLink reference="8"></TextLink>. Differenzen zeigten sich unter anderem im mittleren Sprachpegel und der unnat&#252;rlichen Artikulation des Sprechers. </Pgraph><Pgraph>Steffens stellte 2016 in seinen Recherchen zur Verwendungsh&#228;ufigkeit der Freiburger Einsilber in der Gegenwartssprache zudem fest, dass etwa 45&#37; der Einsilber in der Alltagssprache praktisch nicht mehr verwendet werden, was auf ein veraltetes Testinventar schlie&#223;en l&#228;sst. Zudem vermutete er, dass auch die h&#246;here Verwendungsh&#228;ufigkeit der Einsilber in der Schriftsprache zu positiven Messabweichungen bei belesenen Probanden f&#252;hren kann <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>Winkler et al. untersuchten mit einer weiteren Studie neben dem Einfluss der Wortfrequenz (Verwendungsh&#228;ufigkeit der Einsilber in Schriftkorpora) auf die mit dem FET gemessene Sprachverst&#228;ndlichkeit auch die Nachbarschaftsdichte, die die lexikalische &#196;hnlichkeit zu anderen W&#246;rtern beschreibt. Es stellte sich heraus, dass beide Parameter und somit auch die Auswahl der Testlisten Einfluss auf die Ergebnisse des FET haben <TextLink reference="10"></TextLink>.</Pgraph><Pgraph>Den FET gem&#228;&#223; dieser Kritikpunkte zu &#252;berarbeiten, ohne dabei, wie es beispielsweise im Rahmen der Bachelorarbeit von Felix Hahn praktiziert wurde <TextLink reference="11"></TextLink>, den Testkorpus um W&#246;rter reduzieren zu m&#252;ssen, ist ohne eine Neuaufnahme des Tests nur bedingt m&#246;glich.</Pgraph><Pgraph>Schon bei der Entwicklung des FST versuchte Karl-Heinz Hahlbrock 1952, die Bedeutung der Verwendung einer einheitlichen Stimme und Vortragsweise bei der Testwiedergabe f&#252;r eine verl&#228;ssliche Reproduzierbarkeit der Ergebnisse zu ber&#252;cksichtigen. Es wurde mit einer einheitlichen Tonbandaufnahme des Testmaterials gearbeitet, die von einem ausgebildeten Sprecher aufgenommen wurde <TextLink reference="12"></TextLink>. Die heute verwendete Aufnahme des Testmaterials wurde vom Sprecher Claus Wunderlich im Jahr 1969 aufgesprochen. Mit Hilfe des dadurch entstandenen Testmaterials wurden durch Messungen der Physikalisch-Technischen Bundesanstalt (PTB) unter definierten Bedingungen Bezugskurven f&#252;r Normalh&#246;rende erstellt, die in der Norm DIN 45621-1 zu finden sind <TextLink reference="13"></TextLink>. Der Sprecher dieser heute noch verwendeten Aufnahme des FET ist inzwischen verstorben, sodass Neuaufnahmen f&#252;r den FET mit seiner Stimme nicht m&#246;glich sind. </Pgraph><Pgraph>Neue W&#246;rter f&#252;r den FET mit einem neuen Sprecher zu produzieren, wie es beispielsweise in den Dissertationen von Mahfoud <TextLink reference="14"></TextLink> und Qualen <TextLink reference="15"></TextLink> in W&#252;rzburg durchgef&#252;hrt wurde, ist wiederum mit einem gro&#223;en Aufwand und hohen Kosten, zum Beispiel f&#252;r professionelle Studioaufnahmen, verbunden. Durch den stetigen Wandel von Sprache <TextLink reference="16"></TextLink> werden in der Gegenwart h&#228;ufig genutzte Einsilber in 10 Jahren vielleicht seltener benutzt, sodass es sich bei diesem Ansatz lediglich um eine tempor&#228;re L&#246;sung handeln w&#252;rde. </Pgraph><Pgraph>Ein langfristiger Ansatz k&#246;nnte ein mittels Text-to-Speech-System (TTS-System) erstellter FET sein. Im Verh&#228;ltnis zu wiederkehrenden Neuaufnahmen stellt dieser eine kosteng&#252;nstigere Alternative dar. W&#246;rter, die nicht mehr in der Alltagssprache verwendet werden, k&#246;nnten durch aktuell bekannte W&#246;rter unter definierten Randbedingungen ersetzt werden. Somit w&#228;ren Verbesserungen am Sprachkorpus oder auch eine Erweiterung des Tests um weitere Testlisten unkomplizierter.</Pgraph><Pgraph>Die Sprachverst&#228;ndlichkeit von synthetischen Stimmen wurde bereits in verschiedenen Arbeiten untersucht <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>, <TextLink reference="19"></TextLink>. Einen deutschen Sprachtest mit synthetischer Stimme unter audiologischen Gesichtspunkten durchzuf&#252;hren, war dagegen bisher ausschlie&#223;lich Bestandteil von Untersuchungen zum Oldenburger Satztest (OLSA) aus 2019 von Nuesse et al. <TextLink reference="20"></TextLink>. Die Ergebnisse dieser Studie zeigen, dass eine Sprachaudiometrie mit synthetischer Stimme, die an Originalaufnahmen angepasst war, beim OLSA zu &#228;hnlichen Ergebnissen f&#252;hrte, wie die Durchf&#252;hrung mit originalen Aufnahmen. Im Rahmen dieser Studie wurde nun &#252;berpr&#252;ft, inwiefern bei einer Durchf&#252;hrung des FET mit synthetischer Stimme Unterschiede zu einer klassischen Durchf&#252;hrung mit den Originalaufnahmen des FET bei der Sprachverst&#228;ndlichkeit in Ruhe entstehen. Daf&#252;r wurde in einem ersten Schritt ein TTS-System mit einer Stimme, die &#196;hnlichkeiten zur Klangfarbe des Sprechers der aktuellen Aufnahme hat, ausgew&#228;hlt. Zus&#228;tzlich dazu wurde die Lautst&#228;rke und Sprechgeschwindigkeit der Stimme des TTS-Systems m&#246;glichst nahe an die Sprecheigenschaften der Stimme von Claus Wunderlich angeglichen, um m&#246;gliche Ursachen f&#252;r ein unterschiedliches Sprachverstehen zu vermeiden. Neben der Lautst&#228;rke k&#246;nnen n&#228;mlich auch Unterschiede bei der Grundfrequenz und Sprechgeschwindigkeit der synthetischen Stimme zu Unterschieden im Sprachverstehen beim FET f&#252;hren <TextLink reference="21"></TextLink>. Der FET wurde dann mit den Originalaufnahmen und dem durch das TTS-System erzeugten Sprachmaterial mit insgesamt 40 normalh&#246;renden Probanden durchgef&#252;hrt. Durch das Erstellen von psychometrischen Funktionen f&#252;r die beiden Testkorpora sowie das Ermitteln von Sprachverst&#228;ndlichkeitswerten pro Wort im Allgemeinen und Liste je Schallpegel wurde ein Vergleich &#252;ber Ver&#228;nderungen der Sprachverst&#228;ndlichkeit gezogen. Auf diese Weise soll die Forschungsfrage beantwortet werden, inwieweit die Durchf&#252;hrung des FET mit synthetisch erstelltem Testmaterial zu signifikanten Abweichungen der Sprachverst&#228;ndlichkeit im Ergebnis f&#252;hrt.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Material und Methoden">
      <MainHeadline>Material und Methoden</MainHeadline><SubHeadline>Auswahl der synthetischen Stimme</SubHeadline><Pgraph>Bei der Auswahl der synthetischen Stimme und des Anbieters wurde auf die wahrgenommene Nat&#252;rlichkeit der produzierten Sprache und auf die subjektiv empfundene &#196;hnlichkeit zur Stimme des FET-Sprechers Claus Wunderlich in seiner tiefen Grundfrequenz geachtet. Die Auswahl fiel auf die Stimme &#8222;Klaus&#8220; der Acapela Group, einem Unternehmen f&#252;r Sprachtechnologie mit Hauptsitz in Belgien, die f&#252;r das Projekt daher erworben wurde.</Pgraph><Pgraph>Die Ansteuerung der Stimme mit Matlab erfolgte &#252;ber eine Anwendungsprogramm-Schnittstelle (API) in Python, die Zugriff auf die Cloud der Acapela Group hatte. Zur Erstellung des Testmaterials konnte &#252;ber die Schnittstelle &#8211; also vor der Erstellung einer Audiodatei (.wav) &#8211; die Sprechgeschwindigkeit, spektrale Ver&#228;nderungen und die Lautst&#228;rke festgelegt werden. F&#252;r jeden Einsilber wurde eine Datei mit einer Abtastrate von 44.100 Hz erstellt. </Pgraph><SubHeadline>Anpassung des synthetischen Sprachmaterials</SubHeadline><Pgraph>Um den FET mit synthetischer Stimme mit dem originalen FET vergleichbar zu halten und um den Normbestimmungen der Pegelverteilung &#252;ber die W&#246;rter aus DIN 45626-1 <TextLink reference="22"></TextLink> m&#246;glichst zu entsprechen, wurden die mit synthetischer Stimme erzeugten W&#246;rter in den Aspekten Sprechgeschwindigkeit pro Wort und mittlerer Leistungspegel pro Wort angepasst. Auf eine exakte Anpassung der Grundfrequenz wurde verzichtet, da nach den Ergebnissen der Studien von Williamson und Harmon-Smith sowie von Bradlow et al. die Sprachverst&#228;ndlichkeit durch die Verwendung von Sprechern mit unterschiedlichen, gemittelten Grundfrequenzen nicht signifikant beeinflusst wird <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>. </Pgraph><Pgraph>F&#252;r die Anpassungen wurde f&#252;r alle Audiodateien eine Root Mean Square (RMS)-H&#252;llkurve mit einer Fensterbreite von 0,04 s &#252;ber die Signale berechnet. Mithilfe dieser Einh&#252;llenden und einem festgelegten Schwellenwert wurde das vor- und nachlaufende Aufnahmerauschen bzw. die &#8222;Stille&#8220; weggeschnitten, sodass die eigentliche L&#228;nge und der mittlere Schallpegel des gesprochenen Wortes ermittelt werden konnten. Bei einigen Worten, wie beispielsweise Worten mit langem stimmlosem Auslaut (z.B. Biss, Fels, Schiff), wurde die Begrenzung nochmal manuell korrigiert, da sich die Definition der Wortl&#228;nge &#252;ber den Schwellwert f&#252;r diese Worte als zu grob herausstellte.</Pgraph><Pgraph>Um die synthetisch produzierten W&#246;rter an die Sprechgeschwindigkeit der W&#246;rter des Originalsprachtestmaterials anzupassen, wurde jedes Wort einmal in der Standardgeschwindigkeit des Synthesesystems, Stufe 100 (entspricht 100&#37;), erzeugt. Dann wurde die L&#228;nge des synthetischen und des originalen Wortes wie beschrieben im Millisekunden Bereich ermittelt. Das synthetische Signal wurde in der entsprechend angepassten Sprechgeschwindigkeit neu erzeugt und dabei auch an den Schallpegel des Originalwortes angepasst.</Pgraph><Pgraph>Zu bemerken ist, dass das Schneiden der W&#246;rter lediglich zur Bestimmung der Wortl&#228;nge und Berechnung des Schallpegels durchgef&#252;hrt wurde. F&#252;r die Nutzung im Sprachtest wurden sowohl originale wie auch synthetische Worte ungeschnitten genutzt.</Pgraph><Pgraph>Beim Anh&#246;ren des synthetischen Testmaterials fiel bei einigen W&#246;rtern eine unnat&#252;rliche Aussprache auf. Da die genutzte API auch eine Worteingabe &#252;ber Phoneme anbietet, wurden 8 auffallende W&#246;rter durch die ebenfalls vom System unterst&#252;tzte Eingabe von Phonemen neu erzeugt, um eine nat&#252;rlichere Aussprache zu erzielen. Anschlie&#223;end wurden die so erzeugten W&#246;rter ebenfalls nach dem beschriebenen Verfahren in L&#228;nge und Schallpegel angepasst.</Pgraph><SubHeadline>Messaufbau</SubHeadline><Pgraph>Die Probandenmessungen fanden in einem audiologischen Testraum der Deutschen H&#246;rger&#228;te Institut GmbH statt. Der Hintergrundschallpegel im Raum liegt unter dem in DIN EN ISO 8253-2 <TextLink reference="25"></TextLink> f&#252;r tonaudiometrische Messungen im freien Schallfeld vorgegebenen Grenzwert. Damit ist er auch f&#252;r die Aufnahme von sprachaudiometrischen Ruhebezugskurven geeignet, da es sich bei der Sprachaudiometrie um eine &#252;berschwellige Messung handelt. Die Durchf&#252;hrung des FET sowie die Datenauswertung erfolgten mithilfe eines selbstgeschriebenen Matlab-Scriptes unter der Version MATLAB R2020a.</Pgraph><Pgraph>Der Lautsprecher vom Typ Genelec 8351A wurde in einem audiologischen Testraum in 1 m Entfernung frontal zur Mitte des Probandenkopfes aufgestellt. Die H&#246;he des Schallaustritts des Lautsprechers befand sich auf der Medianebene des Probanden. Zur Vermeidung von unerw&#252;nschten Stehwellen im Raum wurde der Messaufbau schr&#228;g ausgerichtet. Der Bildschirm des Pr&#252;fers wurde f&#252;r die Messung des FET vor den Blicken des Probanden abgeschirmt. </Pgraph><Pgraph>Um sicherzustellen, dass das Quantisierungsrauschen der Soundkarte und das Eigenrauschen des Lautsprechers die Messungen nicht beeinflussen, wurde die Verst&#228;rkung zun&#228;chst am Lautsprecher und dann an der Soundkarte reduziert. Die Soundkarte wurde mit 16-bit betrieben und der Fullscale-Wert entsprach 80 dB SPL. Die Ruhebezugskurve f&#252;r binaurales Sprachverstehen nach DIN 45626-1 liegt im Bereich von 10 dB bis 45 dB SPL <TextLink reference="22"></TextLink>, sodass der Dynamikbereich f&#252;r die Messungen ausreichend war. </Pgraph><Pgraph>Das genutzte Messsystem wurde mit einem kalibrierten Mikrofon vom Typ Br&#252;el &#38; Kj&#230;r 4190 &#252;ber alle Terzb&#228;nder im Frequenzbereich von 125 bis 8.000 Hz unter Ber&#252;cksichtigung der Raumimpulsantwort entzerrt. Bei der Entzerrung wurde entsprechend der DIN EN ISO 8253-3 eine Abweichung von maximal 2 dB toleriert <TextLink reference="7"></TextLink>.</Pgraph><Pgraph>Um die Korrektheit der Pegelabgabe zu gew&#228;hrleisten, wurde das CCITT-Rauschen der Siemens-CD f&#252;r den FET bei 65 dB vor jede Probandenmessung &#252;ber das entzerrte Messsystem wiedergegeben und nach DIN 45626-1 an der Position des Referenzmikrofons mit einem Pegelmesser der Klasse 1 der &#228;quivalente, impulshaft gewertete Schalldruckpegel des CCITT-Rauschens &#252;berpr&#252;ft <TextLink reference="22"></TextLink>.</Pgraph><SubHeadline>Probandenkollektiv</SubHeadline><Pgraph>Die Probandenmessungen fanden in zwei Messbl&#246;cken mit jeweils 20 Probanden in einem zeitlichen Abstand von 2 Monaten statt. Das Durchschnittsalter aller Probanden betrug 25 Jahre. Die Altersspanne erstreckte sich von 18 bis 34 Jahre. 24 der Probanden waren weiblich und 16 m&#228;nnlich. Im ersten Probandenkollektiv besa&#223;en 16 Probanden bereits Vorerfahrung mit dem FET. Im zweiten Probandenkollektiv wurde darauf geachtet, dass die Anforderungen zur Aufnahme von Bezugskurven f&#252;r einen Sprachtest nach DIN EN ISO 8253-3 (Proband normalh&#246;rend und Alter 18&#8211;25 Jahre) erf&#252;llt waren.</Pgraph><Pgraph>Weitere Einschlusskriterien f&#252;r die Studienteilnahme waren: Deutsch als Muttersprache, keine Erkrankungen oder vergangene Operationen an den Ohren, die mit einem Tonschwellenaudiogramm nachgewiesene Normalh&#246;rigkeit, kein Tinnitus und keine akute Erk&#228;ltung bzw. Erk&#228;ltungssymptome oder akutes Allergieleiden. Zu Beginn eines jeden Probandentermins wurde ein Anamnesegespr&#228;ch gef&#252;hrt, in dem die Einschlusskriterien abgefragt wurden. Im weiteren Verlauf wurde mittels Otoskop das &#228;u&#223;ere Ohr wie auch das Trommelfell auf pathologische Auff&#228;lligkeiten untersucht. Daran anschlie&#223;end wurde die Normalh&#246;rigkeit der Probanden mit einer Aufnahme eines Tonschwellenaudiogramms &#252;ber Kopfh&#246;rer &#252;berpr&#252;ft. Als Definition der Normalh&#246;rigkeit wurden die in der DIN EN 8253-3 formulierten Empfehlungen, ein H&#246;rverlust im Frequenzbereich von 250 Hz bis 8.000 Hz von h&#246;chstens 15 dB in zwei gemessenen Frequenzen, herangezogen <TextLink reference="7"></TextLink>. F&#252;r die Messungen gab es eine Aufwandsentsch&#228;digung von 7&#8364; pro Stunde sowie eine Anfahrtspauschale von 7&#8364; f&#252;r die Probanden. Die Messungen waren f&#252;r eine Dauer von 2 Stunden ausgelegt. </Pgraph><SubHeadline>Messablauf</SubHeadline><Pgraph>Die Messungen des FET erfolgten alle im Freifeld aus 0&#176;. Die W&#246;rter wurden bei den vier Schallpegeln 20 dB, 27 dB, 34 dB und 41 dB gemessen. Die Auswahl dieser Schallpegel richtete sich danach, die Sprachverst&#228;ndlichkeits-Bezugskurve f&#252;r Einsilber aus der DIN 45626-1 <TextLink reference="22"></TextLink> m&#246;glichst gut abzutasten. Diese wurde f&#252;r binaurale Messungen der DIN 45626-1 entsprechend um 3 dB zu niedrigeren Schallpegeln verschoben <TextLink reference="22"></TextLink>. In einer Vormessung zeigten die gew&#228;hlten Schallpegel eine gute Abtastung der Bezugskurve.</Pgraph><Pgraph>Der Proband wurde in einer Einweisung auf das zu pr&#252;fende Ohr, die Art der Testelemente und die von ihm geforderte Antwort hingewiesen. </Pgraph><Pgraph>Der Pr&#252;fer befand sich w&#228;hrend der Messung im selben Raum wie der Proband, um die Antworten des Probanden &#252;ber direkten Weg zu h&#246;ren und in das Programm aufnehmen zu k&#246;nnen. &#220;ber eine Benutzeroberfl&#228;che hatte der Pr&#252;fer Einsicht auf den momentanen Pr&#252;fpegel, die Art des Wortmaterials (synthetisch oder original), die aktuelle Listennummer, die Anzahl getesteter W&#246;rter aus der aktuellen Liste und auf das Verst&#228;ndnis in Prozent der aktuellen Liste sowie der bereits &#252;berpr&#252;ften Listen.</Pgraph><Pgraph>Jedem Probanden wurden in der Messung alle 20 Listen des originalen und des synthetischen FET vorgespielt. Durch eine Randomisierung der Listen mittels lateinischen Quadrats, der Reihenfolge der Stimmparameter (original&#47;synthetisch) pro Probanden, der Schallpegel innerhalb von 4er Bl&#246;cken und der W&#246;rter innerhalb der Liste, wurde sichergestellt, dass dieselben Listen innerhalb eines Probandendurchgangs den maximalen Abstand von 19 Listen hatten und Lerneffekte sowie andere St&#246;rparameter minimiert wurden.</Pgraph><Pgraph>Die Studie und das Vorgehen innerhalb dieser wurde durch die Ethikkommission der Technischen Hochschule L&#252;beck mit Schreiben vom 11.09.2020 genehmigt.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Bestimmung des Probandenkollektivs</SubHeadline><Pgraph>Anhand der Messergebnisse aus der Probandenstudie wurde f&#252;r jeden Probanden in allen vier Pr&#252;fpegeln das durchschnittliche Sprachverstehen berechnet. An diese Werte wurde dann pro Proband eine psychometrische Funktion in Form einer logistischen Funktion f&#252;r die kleinste quadratische Abweichung angepasst (Abbildu<TextGroup><PlainText>ng 1</PlainText></TextGroup> <ImgLink imgNo="1" imgType="figure"/> und Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> graue Kurven). In der vorliegenden Studie wurden zwei Probandenkollektive mit jeweils 20 Probanden mit verschiedener Altersstruktur und Vorerfahrung mit dem FET in zwei Messzeitr&#228;umen untersucht. F&#252;r beide Probandenkollektive wurden die Mediane der SRTs und der Steigungen der individuell pro Proband angepassten psychometrischen Funktionen getrennt berechnet (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Eine &#220;berpr&#252;fung auf normalverteilte Daten mit dem Shapiro-Wilk Test zeigte, dass die Ergebnisse der SRTs und der Steigungen nur teilweise als normalverteilt angesehen werden k&#246;nnen. Daher wurde bei den nachfolgenden statistischen Untersuchungen auf nicht-parametrische Tests zur&#252;ckgegriffen. </Pgraph><Pgraph>Zun&#228;chst wurden die SRTs und Steigungen zwischen den Probandenkollektiven mit dem Mann-Whitne<TextGroup><PlainText>y-U Test v</PlainText></TextGroup>erglichen. Hier zeigte sich nur bei der Steigung des synthetischen Sprachmaterials ein statistisch signifikanter Unterschied mit <Mark2>p</Mark2>&#61;0,008&#42;&#42;. Die Mediane beider Steigungen liegen mit 5,97&#37;&#47;dB beim 1. Kollektiv und 5,37&#37;&#47;dB beim 2. Kollektiv aber sehr nahe beieinander. Insgesamt werden die beiden Datens&#228;tze als ausreichend &#228;hnlich angesehen, um diese im Folgenden zusammen zu betrachten. Diese Entscheidung wurde insbesondere auch vor dem Hintergrund getroffen, dass die nachfolgenden Untersuchungen auf den relativen Vergleich zwischen dem originalen und synthetisch erzeugten Sprachmaterial und nicht auf die Erstellung von Bezugskurven abzielen.</Pgraph><SubHeadline>Psychometrische Funktionen</SubHeadline><Pgraph>Beim Vergleich der psychometrischen Funktionen des originalen und synthetisch erzeugten Sprachmaterials f&#252;r das gesamte Probandenkollektiv mit dem Wilcoxon-Vorzeichen-Rang-Test zeigte sich kein signifikanter Unterschied (<Mark2>p</Mark2>&#61;0,129) f&#252;r die Sprachverst&#228;ndlichkeitsschwellen (SRT), jedoch f&#252;r die Steigungen mit <Mark2>p</Mark2>&#61;0,029&#42;. Zus&#228;tzlich zu den Medianen &#252;ber die individuell angepassten psychometrischen Funktionen wurden f&#252;r beide Sprachmateriale auch psychometrische Funktionen entsprechend DIN EN ISO 8253-3:2012 angepasst. Daf&#252;r werden zun&#228;chst die Mediane bei den vier verwendeten Schallpegeln berechnet, welche dann f&#252;r die Anpassung der psychometrischen Funktionen herangezogen werden. Dadurch ergeben sich mit SRT<Subscript>orig.</Subscript>&#61;28,80 dB, SRT<Subscript>synth.</Subscript>&#61;28,84 dB, s<Subscript>orig.</Subscript>&#61;5,38&#37;&#47;dB und s<Subscript>synth.</Subscript>&#61;5,67 &#37;&#47;dB teilweise leicht andere Werte als in der unteren Zeile von Tabelle 1 <ImgLink imgNo="1" imgType="table"/> angegeben. Da auch Brinkmann <TextLink reference="13"></TextLink> zur Erstellung der Sprachverst&#228;ndlichkeitsbezugskurve aus DIN 45626-1 <TextLink reference="22"></TextLink> so vorgegangen ist, werden in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> (schwarze Kurve), Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> (blaue Kurve) und im nachfolgenden Text bei der Betrachtung gemittelter psychometrischer Funktionen nur diese Werte betrachtet.  Die zugeh&#246;rigen Verteilungsparameter der Messdaten sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> dargestellt.</Pgraph><Pgraph>Die an die Mediane angepassten psychometrisch<TextGroup><PlainText>en Fu</PlainText></TextGroup>nktionen der beiden Sprachmaterialien sind in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> gemeinsam abgebildet. Au&#223;erdem ist die Sprachverst&#228;ndlichkeits-Bezugskurve der DIN 45626-1:1995-08 <TextLink reference="22"></TextLink>, welche monaural &#252;ber Kopfh&#246;rer bestimmt wurde, f&#252;r binaurale Messungen um 3 dB zu geringeren Schallpegeln verschoben eingezeichnet. Um die psychometrischen Funktionen dieser Studie besser mit den Normwerten vergleichen zu k&#246;nnen, wurde an die linearisierte Sprachverst&#228;ndlichkeits-Bezugskurve eine psychometrische Funktion in allen 10&#37; Schritten von 0 bis 100&#37; angepasst. Diese besitzt eine Sprachverst&#228;ndlichkeitsschwelle von SRT<Subscript>DIN45626-1</Subscript>&#61;26,85 dB und eine Steigung von s<Subscript>DIN45626 1</Subscript>&#61;4,03 &#37;&#47;dB. </Pgraph><SubHeadline>Wortverst&#228;ndlichkeit</SubHeadline><Pgraph>Um die Verst&#228;ndlichkeit der Einsilber pro Wort gut miteinander vergleichen zu k&#246;nnen, wurden die Antworten (richtig&#61;1 und falsch&#61;0) pro Einsilber &#252;ber alle Probanden und &#252;ber die vier Messschallpegel gemittelt. In Abbildu<TextGroup><PlainText>ng 4</PlainText></TextGroup> <ImgLink imgNo="4" imgType="figure"/> sind die Werte im Streudiagramm zwischen originalem und synthetischem Testmaterial dargestellt. Durch die begrenzte Probanden- und Messschallpegelanzahl liegen einige Ergebnisse &#252;bereinander. Diese sind durch den Punktdurchmesser und die Farbgebung je nach Anzahl gekennzeichnet, wobei ein gr&#246;&#223;erer Durchmesser sowie eine dunklere T&#246;nung f&#252;r eine h&#246;here Anzahl an gleichen Ergebnissen steht. Auff&#228;llig sind die vermehrt auftretenden Ausrei&#223;er hin zu schlechter Sprachverst&#228;ndlichkeit beim synthetischen Sprachmaterial. Die in grau eingef&#228;rbte doppelte Standardabweichung der Binomialverteilung zeigt die zuf&#228;llige Streuung der Verst&#228;ndlichkeitswerte pro Wort f&#252;r 40 Probanden an. </Pgraph><SubHeadline>Listenverst&#228;ndlichkeit</SubHeadline><Pgraph>In Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> ist das durchschnittliche Sprachverstehen je Liste des FET mit originaler Stimme in den vier Messschallpegeln im Vergleich zum durchschnittlich<TextGroup><PlainText>en Spra</PlainText></TextGroup>chverstehen der Listen des FET mit synthetischer Stimme in den vier Messschallpegeln als Streudiagramm dargestellt. Der Vergleich der aus den Listen resultierenden Sprachverst&#228;ndlichkeitswerte f&#252;r die verschieden<TextGroup><PlainText>en Me</PlainText></TextGroup>ssschallpegel mit originaler und synthetischer Stimme zeigt mit einem Korrelationskoeffizienten nach Spearman von r<Subscript>s</Subscript>&#61;0,951 mit <Mark2>p</Mark2>&#60;0,001 eine hochsignifikante, stark positive Korrelation an.</Pgraph><Pgraph>F&#252;r jeden der vier Messschallpegel ergeben sich im Diagramm Cluster aus den Verst&#228;ndlichkeitswerten der 20 Listen. Bei der statistischen Untersuchung wurden nichtparametrische Tests verwendet, da der Shapiro Wilk-Test bei einem Messschallpegel von 27 dB nicht normalverteilte Daten anzeigte (<Mark2>p</Mark2>&#61;0,019). Signifikante Unterschiede im Median der Cluster im Vergleich pro Messschalldruckpegel lassen sich nicht ermitteln (<Mark2>p</Mark2><Subscript>20dB</Subscript>&#61;0,330, <Mark2>p</Mark2><Subscript>27dB</Subscript>&#61;0,371, <Mark2>p</Mark2><Subscript>34dB</Subscript>&#61;0,184, <Mark2>p</Mark2><Subscript>41dB</Subscript>&#61;0,684). </Pgraph><Pgraph>Die in grau eingef&#228;rbte doppelte Standardabweichung der Binomialverteilung zeigt die zuf&#228;llige Streuung der Verst&#228;ndlichkeitswerte f&#252;r die 20 Listen mit 20 W&#246;rtern, die unterteilt in die vier Messchallpegel &#252;ber 40 Probanden ermittelt wurden.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><SubHeadline>Psychometrische Funktionen</SubHeadline><Pgraph>Zur Validierung der Messergebnisse wird die mittlere psychometrische Funktion f&#252;r das originale Sprachmaterial mit der Sprachverst&#228;ndlichkeitsbezugskurve der DIN 45626-1 <TextLink reference="22"></TextLink>, wie in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> dargestellt, verglichen. Die psychometrische Funktion zum originalen Sprachmaterial verl&#228;uft im SRT zu h&#246;heren Pegeln verschoben und insgesamt steiler als die psychometrische Funktion der Sprachverst&#228;ndlichkeitsbezugskurve. Auch in einer Studie von Thiele et al. <TextLink reference="26"></TextLink> wurden bereits bei der &#220;berpr&#252;fung von Ruhebezugskurven im Freifeld im SRT um 1,5 dB zu h&#246;heren Schallpegeln verschobene und um 1,6&#37;&#47;dB steiler verlaufende psychometrische Funktionen beobachtet. Diese &#228;hneln den in dieser Studie ermittelten Kurven in der Abweichung sehr. Die Differenzen lassen sich wahrscheinlich auf Abweichungen zwischen Freifeldmessungen und Messungen mit freifeldentzerrtem Kopfh&#246;rer zur&#252;ckf&#252;hren. </Pgraph><Pgraph>Die mit originaler und synthetischer Stimme ermittelten psychometrischen Funktionen dieser Studie unterscheiden sich in der Sprachverst&#228;ndlichkeitsschwelle nicht signifikant voneinander, jedoch in der Steigung. Die Ergebnisse sind vergleichbar gut mit bisherigen Ergebnissen von Sprachtests, die bei normalh&#246;renden Probanden mit synthetischer Stimme durchgef&#252;hrt wurden, wie dem OLSA mit weiblicher synthetischer Stimme, der von Nuesse et al. <TextLink reference="20"></TextLink> beschrieben wurde. In der Studie wurden ebenfalls aus Probandenmessungen ermittelte psychometrische Funktionen f&#252;r den Sprachtest untersucht. &#220;ber alle Probanden zeigte sich f&#252;r das gesamte Testmaterial eine Verschiebung des gemittelten SRT-Werts in der Kondition mit synthetischer Stimme um 0,5 dB zu h&#246;herem SNR (Signal-to-Noise-Ratio). Die Steigung der psychometrischen Funktion f&#252;r das synthetisch erzeugte Sprachmaterial verlief &#228;hnlich wie auch beim FET mit synthetischer Stimme um 0,3&#37;&#47;dB steiler im Vergleich zur psychometrischen Funktion f&#252;r das Originalmaterial <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>Diese gute &#220;bereinstimmung des Verlaufs von den psychometrischen Funktionen zwischen originalem und synthetischem Sprachmaterial erscheint erstmal &#252;berraschend, da bis auf die Auswahl einer &#228;hnlichen Stimme sowie die Anpassung der Wortl&#228;nge und des mittleren Wortschallpegels keine weiteren Ma&#223;nahmen zum Abgleich des Testmaterials vorgenommen wurden. So h&#228;tten beispielsweise Parameter wie der Frequenzumfang der Stimme sowie Vokalabst&#228;nde, wie in <TextLink reference="24"></TextLink> beschrieben, oder auch weitere spektral-zeitliche Modulationen und Feinstrukturen von Sprache Einfluss auf die Sprachverst&#228;ndlichkeit haben k&#246;nnen. </Pgraph><SubHeadline>Wortverst&#228;ndlichkeit</SubHeadline><Pgraph>Die Ergebnisse der Einzelwortverst&#228;ndlichkeit k&#246;nnen als das kleinste gemessene Ma&#223; Unterschiede f&#252;r die Sprachverst&#228;ndlichkeit zwischen den beiden Sprachmaterialien im Detail aufzeigen. Die in Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> eingetragene doppelte Standardabweichung der Binomialverteilung gibt die Streuung f&#252;r die &#252;ber 40 Probanden gemittelten Wortverst&#228;ndlichkeitswerte an. Wortverst&#228;ndlichkeiten, die au&#223;erhalb des grauen Bereiches liegen, sind daher eher auf die Unterschiede zwischen originalem und synthetischem Sprachmaterial als auf statistische Schwankungen zur&#252;ckzuf&#252;hren. Die sich &#252;ber den Bereich der Sprachverst&#228;ndlichkeit abbildende unsymmetrische Streuung der einsilbigen Worte deutet auf einen grunds&#228;tzlichen Einfluss der synthetischen Stimme auf die Sprachverst&#228;ndlichkeit hin, da die Streuung im Bereich der schlechter verstandenen W&#246;rter mit synthetischer Stimme gr&#246;&#223;er ist. Ein Reihenfolgeeffekt l&#228;sst sich an dieser Stelle aufgrund der durchgef&#252;hrten Randomisierung ausschlie&#223;en. F&#252;r den gesamten Test betrachtet gleichen sich die Unterschiede in der Sprachverst&#228;ndlichkeit gut aus, sodass sich die psychometrischen Funktionen f&#252;r beide Sprachmaterialien stark &#228;hneln. Auff&#228;llig sind im Streudiagramm Abweichungen von einzelnen Einsilbern des synthetischen Sprachmaterials in Richtung schlechterer Sprachverst&#228;ndlichkeit von bis zu 80 Prozentpunkten (&#8222;Hemd&#8220;, Liste 6; &#8222;Hecht&#8220;, Liste 7 und &#8222;Rind&#8220;, Liste 9). Bei genauerer Untersuchung der jeweiligen Teststimuli musste festgestellt werden, dass es sich bei den W&#246;rtern um diejenigen handelte, die zwar phonetisch korrekt synthetisiert wurden, jedoch aus subjektiver Sicht unnat&#252;rlich und teils verzerrt klangen. F&#252;r eine Durchf&#252;hrung des Sprachtests in der Praxis w&#228;ren einzelne W&#246;rter des synthetisch erzeugten Sprachkorpus demzufolge nicht einzusetzen. F&#252;r die schlechte Synthesequalit&#228;t dieser einzelnen W&#246;rter kommen unterschiedliche Gr&#252;nde in Frage. Eine m&#246;gliche Erkl&#228;rung ist hier die vermutlich hohe Anzahl an Freiheitsgraden im Synthesesystem, speziell bei der Synthese von einsilbigen Worten im Unterschied zu ganzen S&#228;tzen oder zusammenh&#228;ngenden Texten. Hier k&#246;nnte ein Erzeugen des Wortes im ganzen Satz die Nat&#252;rlichkeit in der Aussprache des Synthesesystems positiv beeinflussen. Au&#223;erdem k&#246;nnte auch eine zu starke Verlangsamung, die zur Anpassung an das originale Sprachmaterial teilweise durchgef&#252;hrt werden musste, Grund f&#252;r eine Minderung der Verst&#228;ndlichkeit eines synthetisierten Wortes sein. Gegen&#252;ber den geh&#228;uften Abweichungen in negative Richtung steht mit einer Abweichung in positive Richtung von 60 Prozentpunkten nur ein Wort (&#8222;Draht&#8220;, Liste 6). </Pgraph><SubHeadline>Listenverst&#228;ndlichkeit</SubHeadline><Pgraph>Eine ausgeglichene Verst&#228;ndlichkeit der Listen des FETs ist f&#252;r die Vergleichbarkeit der Testlisten von gro&#223;er Bedeutung. So haben diese Werte in der Praxis eines Sprachtests unmittelbaren Einfluss auf dessen Genauigkeit. Die verschiedenen Listen d&#252;rfen bei demselben Schallpegel gemessen zu keinen bedeutenden Unterschieden bei der Sprachverst&#228;ndlichkeit f&#252;hren. Beim Vergleich der Sprachverst&#228;ndlichkeitswerte der Listen bei den vier gemessenen Schallpegeln haben sich zwischen dem synthetischen und dem originalen Sprachmaterial keine signifikanten Unterschiede in der Lage der Mittelwerte ergeben. Sprachverst&#228;ndlichkeitswerte in Abbildung 5 <ImgLink imgNo="5" imgType="figure"/>, die au&#223;erhalb der in grau eingetragenen zuf&#228;lligen Streuung der Binomialverteilung liegen, k&#246;nnen als &#252;berzuf&#228;llige Abweichungen betrachtet werden. Die in der Sprachverst&#228;ndlichkeit abweichenden Listen variieren jedoch je nach Pegel, sodass sich nur schwierig R&#252;ckschl&#252;sse auf bestimmte Listen ziehen lassen, die durch Wortmaterial oder Synthesequalit&#228;t signifikant schlechter oder besser verstanden werden.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Fazit">
      <MainHeadline>Fazit</MainHeadline><Pgraph>In dieser Studie wurde der FET mit originalem und synthetischem Sprachmaterial vergleichend bei 40 Probanden zur Ermittlung von Sprachverst&#228;ndlichkeitsschwellen in Ruhe durchgef&#252;hrt. Die Einsilber des synthetischen Sprachmaterials wurden daf&#252;r in Sprechgeschwindigkeit und mittlerem Schalldruckpegel pro Wort an das originale Material angepasst. Die f&#252;r die Sprachkorpora &#252;ber den gesamten Test ermittelten psychometrischen Funktionen zeigen sehr &#228;hnliche Verl&#228;ufe im SRT und der Steigung, wobei die psychometrische Funktion f&#252;r das synthetische Sprachmaterial mit s<Subscript>synth.</Subscript>&#61;5,67&#37;&#47;dB gegen&#252;ber <TextGroup><PlainText>s</PlainText><Subscript>original</Subscript><PlainText>&#61;5,38&#37;&#47;dB</PlainText></TextGroup> beim originalen Sprachmaterial signifikant steiler verl&#228;uft. Die praktische Bedeutung dieses Unterschieds wird jedoch als gering bewertet (insbesondere beim Vergleich in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). Im Hinblick auf Steigung und Sprachverst&#228;ndlichkeitswerte ergaben sich &#228;hnliche Ergebnisse wie in einer Studie &#252;ber den OLSA mit synthetischer Stimme von Nuesse et al. <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>Bei den Sprachverst&#228;ndlichkeitswerten treten f&#252;r einzelne Worte des synthetischen Sprachkorpus Ausrei&#223;er zu negativerer Sprachverst&#228;ndlichkeit auf. Im Mittel gleichen sich die Abweichungen jedoch &#252;ber die Listen und den gesamten Test hinweg wieder aus, sodass die Ergebnisse bei Durchf&#252;hrung des FET mit synthetischer Stimme vergleichbar zu Ergebnissen bei Durchf&#252;hrung des FET mit originalem Sprachmaterial liegen. Vor einem Einsatz in der Praxis sollten diese Negativausrei&#223;er zun&#228;chst korrigiert werden.</Pgraph><Pgraph>Es bleibt die Frage offen, inwieweit sich die mit Normalh&#246;renden gesammelten Resultate in Bezug auf die Sprachverst&#228;ndlichkeit der synthetischen Stimme auch auf Menschen mit verringertem H&#246;rverm&#246;gen &#252;bertragen lassen.</Pgraph><Pgraph>Die Studie hat gezeigt, dass eine Entwicklung des Freiburger Einsilbertests mit synthetischer Stimme sinnvoll m&#246;glich ist und zu vergleichbaren Ergebnissen f&#252;hrt wie eine Durchf&#252;hrung des Sprachtests mit dem originalen Sprachmaterial. Bei der Produktion der W&#246;rter muss jedoch auf die Nat&#252;rlichkeit und grunds&#228;tzliche Verst&#228;ndlichkeit der W&#246;rter geachtet werden, sodass Negativausrei&#223;er im Test vermieden werden k&#246;nnen. Insgesamt deuten die Ergebnisse darauf hin, dass sich Streuungen der Sprachverst&#228;ndlichkeitsschwellen von W&#246;rtern &#252;ber eine Liste hinweg sehr gut ausgleichen, sodass eine Durchf&#252;hrung von Sprachtests mit synthetisch erzeugtem Sprachmaterial in Zukunft als eine sinnvolle M&#246;glichkeit erscheint.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Steffens T</RefAuthor>
        <RefTitle>25 H&#246;rger&#228;teversorgung</RefTitle>
        <RefYear>2009</RefYear>
        <RefBookTitle>Praxis der HNO-Heilkunde, Kopf- und Halschirurgie</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Steffens T. 25 H&#246;rger&#228;teversorgung. In: Strutz J, Mann W, editors. Praxis der HNO-Heilkunde, Kopf- und Halschirurgie. Stuttgart: Thieme; 2009.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>G-BA</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2020</RefYear>
        <RefBookTitle>Richtlinie des Gemeinsamen Bundesausschusses &#252;ber die Verordnung von Hilfsmitteln in der vertrags&#228;rztlichen Versorgung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>G-BA. Richtlinie des Gemeinsamen Bundesausschusses &#252;ber die Verordnung von Hilfsmitteln in der vertrags&#228;rztlichen Versorgung. 2020.</RefTotal>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Deutsches Institut f&#252;r Normung e.V.</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1995</RefYear>
        <RefBookTitle>DIN 45621-1:1995-08, Sprache f&#252;r Geh&#246;rpr&#252;fung &#8211; Teil 1: Ein- und mehrsilbige W&#246;rter</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deutsches Institut f&#252;r Normung e.V. DIN 45621-1:1995-08, Sprache f&#252;r Geh&#246;rpr&#252;fung &#8211; Teil 1: Ein- und mehrsilbige W&#246;rter. Berlin: Beuth; 1995.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Bangert H</RefAuthor>
        <RefTitle>Probleme bei der Ermittlung des Diskriminationsverlustes nach dem Freiburger Sprachtest</RefTitle>
        <RefYear>1980</RefYear>
        <RefJournal>Audiologische Akustik</RefJournal>
        <RefPage>166-70</RefPage>
        <RefTotal>Bangert H. Probleme bei der Ermittlung des Diskriminationsverlustes nach dem Freiburger Sprachtest. Audiologische Akustik. 1980;19:166-70.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Alich G</RefAuthor>
        <RefTitle>Anmerkungen zum Freiburger Sprachverst&#228;ndnistest (FST)</RefTitle>
        <RefYear>1985</RefYear>
        <RefJournal>Sprache, Stimme, Geh&#246;r</RefJournal>
        <RefPage>1-6</RefPage>
        <RefTotal>Alich G. Anmerkungen zum Freiburger Sprachverst&#228;ndnistest (FST). Sprache, Stimme, Geh&#246;r. 1985; 9:1-6. </RefTotal>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>von Wedel H</RefAuthor>
        <RefTitle>Untersuchungen zum Freiburger Sprachtest &#8211; Vergleichbarkeit der Gruppen im Hinblick auf Diagnose und Rehabilation (H&#246;rger&#228;teanpassung und H&#246;rtraining)</RefTitle>
        <RefYear>1986</RefYear>
        <RefJournal>Audiologische Akustik</RefJournal>
        <RefPage>60-73</RefPage>
        <RefTotal>von Wedel H. Untersuchungen zum Freiburger Sprachtest &#8211; Vergleichbarkeit der Gruppen im Hinblick auf Diagnose und Rehabilation (H&#246;rger&#228;teanpassung und H&#246;rtraining). Audiologische Akustik. 1986;25:60-73.</RefTotal>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Deutsches Institut f&#252;r Normung e.V</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2012</RefYear>
        <RefBookTitle>DIN EN ISO 8253-3:2012-08, Akustik &#8211; Audiometrische Pr&#252;fverfahren &#8211; Teil 3: Sprachaudiometrie (ISO 8253-3:2012), Deutsche Fassung EN ISO 8253-3:2012</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deutsches Institut f&#252;r Normung e.V. DIN EN ISO 8253-3:2012-08, Akustik &#8211;Audiometrische Pr&#252;fverfahren &#8211; Teil 3: Sprachaudiometrie (ISO 8253-3:2012), Deutsche Fassung EN ISO 8253-3:2012.  Berlin: Beuth; 2012.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Holube I</RefAuthor>
        <RefTitle>Der Freiburger Einsilbertest und die Norm DIN EN ISO 8253-3: Technische Analyse</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Z Audiol</RefJournal>
        <RefPage>106-13</RefPage>
        <RefTotal>Winkler A, Holube I. Der Freiburger Einsilbertest und die Norm DIN EN ISO 8253-3: Technische Analyse. Z Audiol. 2016;55(3):106-13.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Steffens T</RefAuthor>
        <RefTitle>Verwendungsh&#228;ufigkeit der Freiburger Einsilber in der Gegenwartssprache: Aktualit&#228;t der Testw&#246;rter</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>HNO</RefJournal>
        <RefPage>549-56</RefPage>
        <RefTotal>Steffens T. Verwendungsh&#228;ufigkeit der Freiburger Einsilber in der Gegenwartssprache: Aktualit&#228;t der Testw&#246;rter. HNO. 2016 Aug;64(8):549-56. DOI: 10.1007&#47;s00106-016-0163-5</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00106-016-0163-5</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Carroll R</RefAuthor>
        <RefAuthor>Holube I</RefAuthor>
        <RefTitle>Impact of Lexical Parameters and Audibility on the Recognition of the Freiburg Monosyllabic Speech Test</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>Ear Hear</RefJournal>
        <RefPage>136-42</RefPage>
        <RefTotal>Winkler A, Carroll R, Holube I. Impact of Lexical Parameters and Audibility on the Recognition of the Freiburg Monosyllabic Speech Test. Ear Hear. 2020 Jan&#47;Feb;41(1):136-42. DOI: 10.1097&#47;AUD.0000000000000737</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;AUD.0000000000000737</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Hahn F</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Freiburger reloaded &#91;Bachelorarbeit&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hahn F. Freiburger reloaded &#91;Bachelorarbeit&#93;. Aaalen: Hochschule Aalen; 2014.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Hahlbrock KH</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1957</RefYear>
        <RefBookTitle>Sprachaudiometrie: Grundlagen und praktische Anwendung einer Sprachaudiometrie f&#252;r das deutsche Sprachgebiet</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hahlbrock KH. Sprachaudiometrie: Grundlagen und praktische Anwendung einer Sprachaudiometrie f&#252;r das deutsche Sprachgebiet. Stuttgart: Thieme; 1957.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Brinkmann K</RefAuthor>
        <RefTitle>Die Neuaufnahme der &#8222;W&#246;rter f&#252;r Geh&#246;rpr&#252;fung mit Sprache&#8220;</RefTitle>
        <RefYear>1974</RefYear>
        <RefJournal>Zeitschrift f&#252;r H&#246;rger&#228;teakustik</RefJournal>
        <RefPage>14-40</RefPage>
        <RefTotal>Brinkmann K. Die Neuaufnahme der &#8222;W&#246;rter f&#252;r Geh&#246;rpr&#252;fung mit Sprache&#8220;. Zeitschrift f&#252;r H&#246;rger&#228;teakustik. 1974;13: 14-40.</RefTotal>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Mahfoud M</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2009</RefYear>
        <RefBookTitle>Neuaufsprache und Evaluation des Einsilber-Sprachverst&#228;ndnistests &#91;Dissertation&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Mahfoud M. Neuaufsprache und Evaluation des Einsilber-Sprachverst&#228;ndnistests &#91;Dissertation&#93;. W&#252;rzburg: Julius-Maximilians-Universit&#228;t W&#252;rzburg; 2009.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Qualen JF</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Evaluation des Einsilber-Sprachmaterials M-2007 &#91;Dissertation&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Qualen JF. Evaluation des Einsilber-Sprachmaterials M-2007 &#91;Dissertation&#93;. W&#252;rzburg: Julius-Maximilians-Universit&#228;t W&#252;rzburg; 2010. DOI: 10.28937&#47;1000107838</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.28937&#47;1000107838</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Bechmann S</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>Sprachwandel &#8211; Bedeutungswandel</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bechmann S. Sprachwandel &#8211; Bedeutungswandel. Stuttgart: UTB GmbH; 2016. DOI: 10.36198&#47;9783838545363</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.36198&#47;9783838545363</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Cohn M</RefAuthor>
        <RefAuthor>Zellou G</RefAuthor>
        <RefTitle>Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>Proc Interspeech</RefJournal>
        <RefPage>1733-7</RefPage>
        <RefTotal>Cohn M, Zellou G. Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes. Proc. Interspeech. 2020:1733-7. DOI: 10.21437&#47;Interspeech.2020-1336</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.21437&#47;Interspeech.2020-1336</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Benoit C</RefAuthor>
        <RefAuthor>Grice M</RefAuthor>
        <RefAuthor>Hazan V</RefAuthor>
        <RefTitle>The SUS test: A method for the assessment of text-to-speech synthesis intelligibility using Semantically Unpredictable Sentences</RefTitle>
        <RefYear>Jun</RefYear>
        <RefJournal>Speech Commun</RefJournal>
        <RefPage>381-92</RefPage>
        <RefTotal>Benoit C, Grice M, Hazan V. The SUS test: A method for the assessment of text-to-speech synthesis intelligibility using Semantically Unpredictable Sentences. Speech Commun. Jun 1996;18(4):381-92. DOI: 10.1016&#47;0167-6393(96)00026-X</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;0167-6393(96)00026-X</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Valentini-Botinhao V</RefAuthor>
        <RefAuthor>Toman M</RefAuthor>
        <RefAuthor>Pucher M</RefAuthor>
        <RefAuthor>Schabus D</RefAuthor>
        <RefAuthor>Yamagishi J</RefAuthor>
        <RefTitle>Intelligibility of time-compressed synthetic speech: Compression method and speaking style</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Speech Commun</RefJournal>
        <RefPage>52-64</RefPage>
        <RefTotal>Valentini-Botinhao V, Toman M, Pucher M, Schabus D, Yamagishi J. Intelligibility of time-compressed synthetic speech: Compression method and speaking style. Speech Commun. 2015 Nov;74:52-64. DOI: 10.1016&#47;j.specom.2015.09.002</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.specom.2015.09.002</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Nuesse T</RefAuthor>
        <RefAuthor>Wiercinski B</RefAuthor>
        <RefAuthor>Brand T</RefAuthor>
        <RefAuthor>Holube I</RefAuthor>
        <RefTitle>Measuring Speech Recognition With a Matrix Test Using Synthetic Speech</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>Trends Hear</RefJournal>
        <RefPage>2331216519862982</RefPage>
        <RefTotal>Nuesse T, Wiercinski B, Brand T, Holube I. Measuring Speech Recognition With a Matrix Test Using Synthetic Speech. Trends Hear. 2019 Jan-Dec;23:2331216519862982. DOI: 10.1177&#47;2331216519862982</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;2331216519862982</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Karl J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2021</RefYear>
        <RefBookTitle>Investigation of the influence of pitch and speed for synthetic speech on intelligibility of the Freiburg monosyllabic speech test</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Karl J. Investigation of the influence of pitch and speed for synthetic speech on intelligibility of the Freiburg monosyllabic speech test. L&#252;beck: Technische Hochschule L&#252;beck; 2021.</RefTotal>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Deutsches Institut f&#252;r Normung e.V.</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1995</RefYear>
        <RefBookTitle>DIN 45626-1:1995-08, Tontr&#228;ger mit Sprache f&#252;r Geh&#246;rpr&#252;fung &#8211; Teil 1: Tontr&#228;ger mit W&#246;rtern nach DIN 45621-1 (Aufnahme 1969)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deutsches Institut f&#252;r Normung e.V. DIN 45626-1:1995-08, Tontr&#228;ger mit Sprache f&#252;r Geh&#246;rpr&#252;fung &#8211; Teil 1: Tontr&#228;ger mit W&#246;rtern nach DIN 45621-1 (Aufnahme 1969). Berlin: Beuth; 1995.</RefTotal>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Williamson DG</RefAuthor>
        <RefAuthor>Harmon-Smith A</RefAuthor>
        <RefTitle>Der Einflu&#223; der Grundfrequenz auf die Sprachverst&#228;ndlichkeit</RefTitle>
        <RefYear>1980</RefYear>
        <RefJournal>Zeitschrift f&#252;r Audiologie</RefJournal>
        <RefPage>236-40</RefPage>
        <RefTotal>Williamson DG, Harmon-Smith A. Der Einflu&#223; der Grundfrequenz auf die Sprachverst&#228;ndlichkeit. Zeitschrift f&#252;r Audiologie. 1980;19(6):236-40.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Bradlow AR</RefAuthor>
        <RefAuthor>Torretta GM</RefAuthor>
        <RefAuthor>Pisoni DB</RefAuthor>
        <RefTitle>Intelligibility of normal speech I: Global and fine-grained acoustic-phonetic talker characteristics</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Speech Commun</RefJournal>
        <RefPage>255-72</RefPage>
        <RefTotal>Bradlow AR, Torretta GM, Pisoni DB. Intelligibility of normal speech I: Global and fine-grained acoustic-phonetic talker characteristics. Speech Commun. 1996 Dec;20(3-4):255-72. DOI: 10.1016&#47;S0167-6393(96)00063-5</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;S0167-6393(96)00063-5</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Deutsches Institut f&#252;r Normung e.V.</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>DIN EN ISO 8253-2:2010-07, Akustik- Audiometrische Pr&#252;fverfahren &#8211; Teil 2: Schallfeld-Audiometrie mit reinen T&#246;nen und schmalbandigen Pr&#252;fsignalen (ISO 8253-2:2009) Deutsche Fassung EN ISO 8253-2:2009</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deutsches Institut f&#252;r Normung e.V. DIN EN ISO 8253-2:2010-07, Akustik- Audiometrische Pr&#252;fverfahren &#8211; Teil 2: Schallfeld-Audiometrie mit reinen T&#246;nen und schmalbandigen Pr&#252;fsignalen (ISO 8253-2:2009) Deutsche Fassung EN ISO 8253-2:2009. Berlin: Beuth; 2010.</RefTotal>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Thiele C</RefAuthor>
        <RefAuthor>Wardenga N</RefAuthor>
        <RefAuthor>Lenarz T</RefAuthor>
        <RefAuthor>B&#252;chner A</RefAuthor>
        <RefTitle>&#220;berpr&#252;fung der Vergleichbarkeit von Freifeld- und HDA200-Kopfh&#246;rermessungen f&#252;r den Freiburger</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>HNO</RefJournal>
        <RefPage>115-20</RefPage>
        <RefTotal>Thiele C, Wardenga N, Lenarz T, B&#252;chner A. &#220;berpr&#252;fung der Vergleichbarkeit von Freifeld- und HDA200-Kopfh&#246;rermessungen f&#252;r den Freiburger. HNO. 2014 Feb;62(2):115-20. DOI: 10.1007&#47;s00106-013-2789-x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00106-013-2789-x</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Tabelle 1: Mediane der Parameter der individuell f&#252;r jeden Probanden angepassten psychometrischen Funktionen.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Tabelle 2: Verteilungsparameter der Messdaten von 40 Probanden f&#252;r den FET mit originaler Stimme und synthetischer Stimme.</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="373" width="689">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: Ermittelte psychometrische Funktionen aller Probanden der Messung mit originaler Stimme; die schwarz hervorgehobene Kurve entspricht einer an den Median in den vier Messschallpegeln angepassten psychometrischen Funktion mit SRT</Mark1><Mark1><Subscript>original</Subscript></Mark1><Mark1>&#61;28,80 dB und s</Mark1><Mark1><Subscript>original</Subscript></Mark1><Mark1>&#61;5,38&#37;&#47;dB; grau hinterlegter Bereich zeigt das 95&#37;-Konfidenzintervall &#252;ber die Sprachverst&#228;ndlichkeit an. </Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="376" width="694">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 2: Ermittelte psychometrische Funktionen aller Probanden der Messung mit synthetischer Stimme; die blau hervorgehobene Kurve entspricht einer an den Median in den vier Messschallpegeln angepassten psychometrischen Funktion mit SRT</Mark1><Mark1><Subscript>synth.</Subscript></Mark1><Mark1>&#61;28,84 dB und s</Mark1><Mark1><Subscript>synth.</Subscript></Mark1><Mark1>&#61;5,67&#37;&#47;dB; blau hinterlegter Bereich zeigt das 95&#37;-Konfidenzintervall &#252;ber die Sprachverst&#228;ndlichkeit an.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="457" width="846">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 3: Vergleich der ermittelten psychometrischen Funktionen f&#252;r den FET mit originalem und synthetischem Sprachmaterial mit der psychometrischen Funktion, die an die Sprachverst&#228;ndlichkeitsbezugskurve aus DIN 45626-1 &#91;22&#93; angepasst wurde und einer binaural &#252;ber Lautsprecher aufgenommen psychometrischen Funktion aus einer Studie nach Thiele et al. &#91;26&#93;.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="461" width="508">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 4: Vergleich der Sprachverst&#228;ndlichkeit pro Wort &#252;ber die Schallpegel gemittelt im Streudiagramm; Farbskala und Punktgr&#246;&#223;e zeigen die Anzahl der aufeinanderliegenden Punkte des Diagramms an. Der grau eingef&#228;rbte Bereich stellt die zuf&#228;llige zweifache Standardabweichung der Binomialverteilung dar.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="525" width="578">
          <MediaNo>5</MediaNo>
          <MediaID>5</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 5: Vergleich der Sprachverst&#228;ndlichkeit resultierend aus den Listen im FET mit originaler und synthetischer Stimme im Streudiagramm &#252;ber die vier Messpegel 20 dB, 27 dB, 34 dB und 41 dB. Der grau eingef&#228;rbte Bereich stellt die zuf&#228;llige zweifache Standardabweichung der Binomialverteilung dar.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>5</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>