<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zaud000007</Identifier>
    <IdentifierDoi>10.3205/zaud000007</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zaud0000070</IdentifierUrn>
    <ArticleType language="de">Originalarbeit</ArticleType>
    <ArticleType language="en">Research Article</ArticleType>
    <TitleGroup>
      <Title language="de">Modellierung und Verifizierung der Test-Retest-Reliabilit&#228;t des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung</Title>
      <TitleTranslated language="en">Modeling and verifying the test-retest reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Holube</Lastname>
          <LastnameHeading>Holube</LastnameHeading>
          <Firstname>Inga</Firstname>
          <Initials>I</Initials>
          <AcademicTitle>Prof. Dr.</AcademicTitle>
        </PersonNames>
        <Address language="de">Jade Hochschule, Institut f&#252;r H&#246;rtechnik und Audiologie, Ofener Str. 16&#47;19, 26121 Oldenburg, Deutschland, Tel. &#43;49-441-7708-3723<Affiliation>Institut f&#252;r H&#246;rtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland</Affiliation><Affiliation>Exzellenzcluster &#8220;Hearing4All&#8221;, Oldenburg, Deutschland</Affiliation></Address>
        <Address language="en">Jade University of Applied Sciences, Institute of Hearing Technology and Audiology, Ofener Str. 16&#47;19, 26121 Oldenburg, Germany, Phone. &#43;49-441-7708-3723<Affiliation>Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany</Affiliation><Affiliation>Cluster of Excellence &#8220;Hearing4All&#8221;, Oldenburg, Germany</Affiliation></Address>
        <Email>Inga.Holube&#64;jade-hs.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Winkler</Lastname>
          <LastnameHeading>Winkler</LastnameHeading>
          <Firstname>Alexandra</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Institut f&#252;r H&#246;rtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland</Affiliation>
          <Affiliation>Exzellenzcluster &#8220;Hearing4All&#8221;, Oldenburg, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany</Affiliation>
          <Affiliation>Cluster of Excellence &#8220;Hearing4All&#8221;, Oldenburg, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Nolte-Holube</Lastname>
          <LastnameHeading>Nolte-Holube</LastnameHeading>
          <Firstname>Ralph</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Institut f&#252;r H&#246;rtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">Freiburg monosyllabic test</Keyword>
      <Keyword language="en">speech intelligibility</Keyword>
      <Keyword language="en">binomial distribution</Keyword>
      <Keyword language="en">test-retest reliability</Keyword>
      <Keyword language="en">confidence</Keyword>
      <Keyword language="de">Freiburger Einsilbertest</Keyword>
      <Keyword language="de">Sprachverstehen</Keyword>
      <Keyword language="de">Binomialverteilung</Keyword>
      <Keyword language="de">Test-Retest-Reliabilit&#228;t</Keyword>
      <Keyword language="de">Konfidenz</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      
    <DatePublished>20200327</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <LanguageTranslation>engl</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2628-9083</ISSN>
        <Volume>2</Volume>
        <JournalTitle>GMS Zeitschrift f&#252;r Audiologie - Audiological Acoustics</JournalTitle>
        <JournalTitleAbbr>GMS Z Audiol (Audiol Acoust)</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>03</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Die Test-Retest-Reliabilit&#228;t des Freiburger Einsilbertests wurde mit verschiedenen Methoden modelliert und mit Messdaten von Probanden mit und ohne H&#246;rbeeintr&#228;chtigung verglichen. Die Methoden bauen auf den Verfahren von Thornton und Raffin sowie Altman et al. auf. Sie ber&#252;cksichtigen durch die Verwendung der verallgemeinerten Binomialverteilung die Unterschiede im Wortverstehen innerhalb der Testlisten und beinhalten die Varianz der Testlisten. Die Methoden erm&#246;glichen die Bestimmung der Grenzen f&#252;r die 90&#37;- und 95&#37;-Konfidenzintervalle bei Verwendung von Testlisten mit 20 W&#246;rtern und von Doppellisten mit 40 W&#246;rtern. Diese Grenzen wurden durch die Messdaten best&#228;tigt. Bei einem Sprachverstehen von 50&#37; sind die Konfidenzintervalle am breitesten. Dort hat f&#252;r Testlisten mit 20 W&#246;rtern das 90&#37;-Konfidenzintervall eine Breite von &#177;20&#37; bzw. &#177;6,0 dB und das 95&#37;-Konfidenzintervall eine Breite von &#177;25&#37; bzw. &#177;7,4 dB. F&#252;r die H&#246;rger&#228;te-Anpasspraxis bedeutet dies, dass erst Unterschiede, die diese Spanne &#252;bersteigen, als signifikant unterschiedlich gewertet werden k&#246;nnen.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>The test-retest reliability of the Freiburg monosyllabic speech test was modeled using different methods. The results were compared to measurements from listeners with and without hearing impairment. The methods are based on the models of Thornton and Raffin as well as Altman et al. Both papers took into account differences in word recognition within the test lists by applying the Poisson binomial distribution and included the variance of the test-list results. The methods allow calculating the bounds of the 90&#37; and 95&#37; confidence intervals when using test lists with 20 words and double lists with 40 words. The data in the current report confirm these bounds. The confidence intervals are broadest for speech recognition scores of 50&#37;. At this score and for test lists with 20 words, the 90&#37; confidence interval has a width of &#177;20&#37;, corresponding to &#177;6.0 dB, and the 95&#37; confidence interval has a width of &#177;25&#37;, corresponding to &#177;7.4 dB. Thus when evaluating hearing-aid fittings, only differences exceeding this range can be regarded as significantly different.</Pgraph></Abstract>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>In Heft 1&#47;2018 wurde die Modellierung der Reliabilit&#228;t des Freiburger Einsilbertests (FBE) <TextLink reference="1"></TextLink> in Ruhe mit der verallgemeinerten Binomialverteilung vorgestellt <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Die Verwendung dieser Verteilung erm&#246;glicht die Ber&#252;cksichtigung der Unterschiede im Wortverstehen innerhalb einer Testliste. Dies f&#252;hrt zu einem kleineren Konfidenzintervall f&#252;r die Messwerte als die Verwendung der einfachen Binomialverteilung, die f&#252;r jedes Wort einer Liste die gleiche Erkennungswahrscheinlichkeit annimmt. Die Varianz der verallgemeinerten Binomialverteilung f&#252;r Testlisten mit 20 W&#246;rtern konnte durch die Varianz einer einfachen Binomialverteilung angen&#228;hert werden, die auf Testlisten mit 29 W&#246;rtern mit gleichem Wortverstehen beruht.</Pgraph><Pgraph>Die Untersuchungen bei Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> beschr&#228;nken sich auf die Berechnung des 95&#37;-Konfidenzintervalls f&#252;r die Abweichung des Messwertes f&#252;r eine Testliste vom wahren Wert und alternativ f&#252;r die Abweichung des wahren Wertes von dem Messwert f&#252;r eine Testliste. Die publizierten Konfidenzintervalle sind jedoch nicht f&#252;r die Absch&#228;tzung der Test-Retest-Reliabilit&#228;t oder bei Untersuchungen mit zwei Testlisten zum Vergleich von zwei Messbedingungen anwendbar. Genau dieser Fall liegt jedoch bei der &#220;berpr&#252;fung von H&#246;rger&#228;ten oder anderen Therapiema&#223;nahmen vor. Das Ergebnis zweier Messungen (z.B. mit und ohne H&#246;rger&#228;te), d.h. zweier Trefferraten, wird verglichen, und aus der Differenz der beiden Trefferraten wird der Erfolg der Ma&#223;nahme abgeleitet. In der Hilfsmittelrichtlinie <TextLink reference="4"></TextLink> wird z.B. mit dem FBE in Ruhe eine Verbesserung des Sprachverstehens von mindestens 20 Prozentpunkten mit H&#246;rger&#228;ten im Vergleich zur unversorgten Kondition gefordert.</Pgraph><Pgraph>Thornton und Raffin <TextLink reference="5"></TextLink> berechneten das 95&#37;-Konfidenzintervall f&#252;r die Differenz zwischen zwei Messungen, indem sie die Trefferraten in eine Skala mit homogenen Varianzen f&#252;r alle Testergebnisse transformierten und dann die Varianzen der zwei Testergebnisse addierten. Carney und Schlauch <TextLink reference="6"></TextLink> best&#228;tigten im Wesentlichen die Ergebnisse dieser Methode durch einen anderen Ansatz. Sie berechneten die Varianz der Differenz zweier Trefferraten unter der Annahme binomialverteilter Testergebnisse. F&#252;r jeden Wert f&#252;r die Trefferrate aus der ersten Messung ber&#252;cksichtigten sie dabei alle m&#246;glichen Werte f&#252;r die zweite Messung. Die Ergebnisse der Methode von Thornton und Raffin <TextLink reference="5"></TextLink>, die gleiches Verstehen aller 20 W&#246;rter einer Testliste voraussetzt, wurden von Winkler und Holube <TextLink reference="7"></TextLink> basierend auf Steffens <TextLink reference="8"></TextLink> angegeben und mit Ergebnissen wiederholter Messungen verglichen.  </Pgraph><Pgraph>Dillon <TextLink reference="9"></TextLink> legte einerseits dar, dass bei Annahme der gleichen Wahrscheinlichkeit f&#252;r das Verstehen jedes Wortes die Breite des 95&#37;-Konfidenzintervalls f&#252;r die Test-Retest-Kondition durch die Verwendung der Methode von Thornton und Raffin <TextLink reference="5"></TextLink> &#252;bersch&#228;tzt wird, wenn die Testlisten gleich verst&#228;ndlich sind und sich die Probanden immer gleich verhalten. Diese Annahme wird durch die Analyse in Winkler und Holube <TextLink reference="7"></TextLink> gest&#252;tzt, da nur 3,2&#37; der Messdaten, d.h. weniger als die erwarteten 5&#37; der Messdaten au&#223;erhalb des Konfidenzintervalls nach Thornton und Raffin <TextLink reference="5"></TextLink> lagen. Andererseits wies Dillon <TextLink reference="9"></TextLink> darauf hin, dass die Methode von Thornton und Raffin <TextLink reference="5"></TextLink> trotzdem zur Absch&#228;tzung des 95&#37;-Konfidenzintervalls verwendet werden kann, da sich zwei Effekte gegenseitig aufheben: Bei Ber&#252;cksichtigung unterschiedlichen Wortverstehens und Anwendung der verallgemeinerten Binomialverteilung nach Hagerman <TextLink reference="10"></TextLink> werden die 95&#37;-Konfidenzintervalle schmaler. Durch intraindividuelle Variabilit&#228;t (z.B. durch Aufmerksamkeitsschwankungen) vor allem bei einem gr&#246;&#223;eren zeitlichen Abstand der Messungen werden sie jedoch wieder breiter. Als zus&#228;tzliche Varianzquelle weist Dillon <TextLink reference="9"></TextLink> auf m&#246;gliche Unterschiede zwischen den Testlisten hin. In der Sprachaudiometrie werden, im Gegensatz zu Winkler und Holube <TextLink reference="7"></TextLink>, im Allgemeinen nicht die gleichen Listen bei wiederholten Messungen verwendet. Das 95&#37;-Konfidenzintervall f&#252;r die Test-Retest-Reliabilit&#228;t verbreitert sich bei Verwendung unterschiedlicher Testlisten infolge der unterschiedlichen mittleren Trefferraten der Testlisten.</Pgraph><Pgraph>F&#252;r die vorliegende Analyse wurden die Messungen aus Baljic et al. <TextLink reference="11"></TextLink> und Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> die f&#252;r jeden Probanden die Ergebnisse von f&#252;nf Testlisten bei jedem von vier Pegeln beinhalten, im Sinne eines Test-Retest-Experiments interpretiert und die Test-Retest-Reliabilit&#228;t ausgewertet. Alle Messungen wurden innerhalb eines Termins durchgef&#252;hrt, so dass lediglich die Kurzzeit-Test-Retest-Reliabilit&#228;t untersucht wurde, nicht jedoch die Test-Retest-Reliablit&#228;t &#252;ber einen l&#228;ngeren Zeitraum, die nach Dillon <TextLink reference="9"></TextLink> vermutlich zu breiteren Konfidenzintervallen f&#252;hren w&#252;rde. Zum Vergleich mit den Messdaten wurden die Grenzen f&#252;r das 95&#37;- und das 90&#37;-Konfidenzintervall mit verschiedenen Methoden modelliert. Die Methoden bauen auf der in Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> verwendeten verallgemeinerten Binomialverteilung auf und modellieren zus&#228;tzlich die Variabilit&#228;t der Testlisten. Intraindividuelle Varianzen der Probanden wurden aufgrund der geringen zeitlichen Abst&#228;nde zwischen den Messungen vernachl&#228;ssigt.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>In issue 1&#47;2018, modeling of the reliability of the Freiburg monosyllabic test (FBE) <TextLink reference="1"></TextLink> in quiet with the Poisson binomial distribution was presented <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. The use of this distribution allows attention to differences in word recognition within a test list. This results in a smaller confidence interval for the measurement results than when using the simple binomial distribution that assumes the same probability of recognition for each word in a list. The variance of the Poisson binomial distribution for 20-word test lists could be approximated by the variance of a simple binomial distribution based on 29-word test lists with the same degree of word recognition.</Pgraph><Pgraph>The studies in Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> were limited to the calculation of the 95&#37; confidence interval for the deviation from the true value of the measured value for a test list and, alternatively, for the deviation of the true value from the measured value for a test list. However, the published confidence intervals are not applicable for estimating test-retest reliability or to studies with two test lists used to compare two measurement conditions. Exactly this case exists when verifying hearing aids or other therapeutic treatments. The results of two measurements (e.g., with and without hearing aids), i.e. two scores, are compared, and the success of the treatment is derived from the difference between the two scores. The guideline for assistive devices <Mark2>(Hilfsmittelrichtlinie</Mark2> in German) <TextLink reference="4"></TextLink> requires, e.g., for the FBE in quiet, an improvement in speech recognition of at least 20 percentage points with hearing aids as compared to the condition without hearing aids.</Pgraph><Pgraph>Thornton and Raffin <TextLink reference="5"></TextLink> calculated the 95&#37; confidence interval for the difference between two measurements by transforming the scores into a scale with homogeneous variance for all test results and then adding the variances of the two test results. Carney and Schlauch <TextLink reference="6"></TextLink> essentially confirmed the results of this method using a different approach. They calculated the variance of the difference between two scores assuming binomially distributed scores. For each value for the score from the first measurement, they considered all possible score values for the second measurement. Results using the method of Thornton and Raffin <TextLink reference="5"></TextLink>, which requires the same recognition probability for all 20 words of a test list, were given by Winkler and Holube <TextLink reference="7"></TextLink> based on Steffens <TextLink reference="8"></TextLink> and compared with results of repeated measurements.</Pgraph><Pgraph>On the one hand, Dillon <TextLink reference="9"></TextLink> argued that if test lists are equally recognizable and the listeners always behave similarly, and assuming the same recognition probability for each word, the width of the 95&#37; confidence interval for the test-retest condition is overestimated when using the method of Thornton and Raffin <TextLink reference="5"></TextLink>. This assumption is supported by the analysis in Winkler and Holube <TextLink reference="7"></TextLink> since only 3.2&#37; of the measurement data, i.e. less than the expected 5&#37;, were outside the confidence interval according to Thornton and Raffin <TextLink reference="5"></TextLink>. On the other hand, Dillon <TextLink reference="9"></TextLink> pointed out that Thornton and Raffin&#8217;s <TextLink reference="5"></TextLink> method can nevertheless be used to estimate the 95&#37; confidence interval, since two effects cancel each other out: Considering different word recognition and applying the Poisson binomial distribution according to Hagerman <TextLink reference="10"></TextLink>, the 95&#37; confidence intervals become narrower. By intra-individual variability (e.g., by attention fluctuations), especially with a longer time interval between the measurements, they become wider again. As an additional source of variance, Dillon <TextLink reference="9"></TextLink> pointed out possible differences among test lists. In speech audiometry, in contrast to Winkler and Holube <TextLink reference="7"></TextLink>, the same test lists are generally not used in repeated measurements. The 95&#37; confidence interval for the test-retest reliability widens when using different test lists, due to the different mean scores of the test lists.</Pgraph><Pgraph>For the present analysis, measurements from Baljic et al. <TextLink reference="11"></TextLink> and Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, which for each subject included the results of five test lists at each of four levels, were interpreted in terms of a test-retest experiment, and the test-retest reliability was evaluated. All measurements were performed within one session. Therefore, only the short-term test-retest reliability was investigated, but not the test-retest reliability over a longer period of time that according to Dillon <TextLink reference="9"></TextLink>, would probably result in broader confidence intervals. For comparison with the measurement data, the bounds for the 95&#37; and the 90&#37; confidence intervals were modeled using different methods. The methods are based on the Poisson binomial distribution used in Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Additionally, the vari<TextGroup><PlainText>abi</PlainText></TextGroup>lity of the test lists was modeled. Intra-individual variances of the participants were neglected due to the short time intervals between the measurements.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><SubHeadline>Experimentelle Daten</SubHeadline><Pgraph>Die Messmethoden werden hier nur kurz zusammengefasst. F&#252;r eine ausf&#252;hrliche Beschreibung sei auf Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> verwiesen. </Pgraph><Pgraph>Bei 80 jungen Probanden mit normalem H&#246;rverm&#246;gen (im Folgenden als Normalh&#246;rende bezeichnet), wurde das Sprachverstehen als Trefferrate f&#252;r die Freiburger Einsilber in Ruhe bei vier Pegeln (17,5, 23,5, 29,5 und 35,5 dB SPL) mit jeweils f&#252;nf Testlisten &#224; 20 W&#246;rtern (<Mark2>n</Mark2>&#61;20) bestimmt. Bei 40 &#228;lteren Probanden mit H&#246;rbeeintr&#228;chtigung (im Folgenden als Schwerh&#246;rige bezeichnet) wurden bei sonst gleichem Verfahren die Pegel 65, 80, 90 und 95 dB SPL verwendet. In die Analyse wurden jedoch nur die Pegel 65 und 80 dB SPL einbezogen, da bei den beiden h&#246;heren Pegeln viele Trefferraten bei 100&#37; lagen. Alle Messungen eines Probanden wurden innerhalb eines Termins durchgef&#252;hrt.</Pgraph><Pgraph>Die f&#252;nf Testlisten-Trefferraten bei festem Pegel f&#252;r jeden Probanden wurden als Test-Retest-Kombinationen in Paaren interpretiert. Die Paare setzten sich jeweils aus einer pr&#228;sentierten Testliste und einer der danach pr&#228;sentierten weiteren Testliste zusammen, d.h. (1; 2), (1<TextGroup><PlainText>; 3</PlainText></TextGroup>), (1; 4), (1; 5), (2; 3), (2; 4), (2; 5), (3; 4), (3; 5), (4; 5). Dadurch ergaben sich 3.200 Test-Retest-Paare f&#252;r die Normalh&#246;renden und 800 Test-Retest-Paare f&#252;r die Schwerh&#246;rigen. Die Anzahl der Test-Retest-Paare verringerte sich, wenn die bei Baljic et al. <TextLink reference="11"></TextLink> auff&#228;lligen Testlisten ausgeschlossen wurden (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). In einer weiteren Variante wurden jeweils aus zwei Testlisten Doppellisten mit <Mark2>n</Mark2>&#61;40 W&#246;rtern gebildet. F&#252;r die Analyse der Test-Retest-Reliabilit&#228;t wurden alle Doppellisten zu Test-Retest-Paaren kombiniert, so dass keine Einzelliste doppelt vorkam, d.h. (1&#43;2; 3&#43;4), (1&#43;2; 3&#43;5), (1&#43;2; 4&#43;5), (1&#43;3; 2&#43;4), (1&#43;3; 2&#43;5), (1&#43;3; 4&#43;5), (1&#43;4; 2&#43;3), (1&#43;4; 2&#43;5), (1&#43;4; 3&#43;5), (1&#43;5; 2&#43;3), (1&#43;5; 2&#43;4), (1&#43;5; 3&#43;4), (2&#43;3; 4&#43;5), (2&#43;4; 3&#43;5) und (2&#43;5; 3&#43;4). Daraus ergaben sich bei Verwendung aller Testlisten 4.800 Test-Retest-Paare f&#252;r die Normalh&#246;renden und 1.200 Test-Retest-Paare f&#252;r die Schwerh&#246;rigen. Auch f&#252;r diese Doppellisten wurden die nach <TextLink reference="11"></TextLink> auff&#228;lligen Testlisten als Variante ausgeschlossen (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><SubHeadline>Berechnungsmethoden</SubHeadline><Pgraph>Bei gegebener Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript> (Test) ist die Frage, in welchem kritischen Bereich die Retest-Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript> liegt, sodass die Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> bei zweiseitiger Fragestellung auf dem <Mark2>&#945;</Mark2>&#61;5&#37;-Niveau gerade noch nicht signifikant von Null verschieden ist. Eine zweiseitige Fragestellung bedeutet dabei, dass die Retest-Trefferrate kleiner oder gr&#246;&#223;er als die erste Trefferrate sein kann und 2,5&#37; der Retest-Trefferraten unterhalb sowie 2,5&#37; der Retest-Trefferraten oberhalb des 95&#37;-Konfidenzintervalls um die erste Trefferrate liegen. Zur Berechnung des 95&#37;-Konfidenzintervalls existieren in der Literatur unterschiedliche Methoden, von denen zwei (Thornton und Raffin <TextLink reference="5"></TextLink> und Altman et al. <TextLink reference="12"></TextLink>) in der vorliegenden Arbeit betrachtet werden. Beide Methoden werden zun&#228;chst reproduziert und dann f&#252;r die vorliegenden Messdaten mit <Mark2>n</Mark2>&#61;20 bzw. <Mark2>n</Mark2>&#61;40 Worten pro Testliste (d.h. einfache Testlisten und Doppellisten) angewendet. Danach werden Modifikationen dieser Methoden vorgestellt, die die Variabilit&#228;t des Einzelwortverstehens sowie die Variabilit&#228;t des mittleren Verstehens der unterschiedlichen Testlisten ber&#252;cksichtigen. </Pgraph><SubHeadline2>Methode 1: Kritische Differenzen nach Thornton und Raffin</SubHeadline2><Pgraph>Thornton und Raffin <TextLink reference="5"></TextLink> schlugen die Berechnung eines 95&#37;-Konfidenzintervalls zur Beurteilung der Test-Retest-Reliabilit&#228;t nach folgender Methode vor: Die Anzahl <Mark2>X</Mark2> richtiger Antworten bei <Mark2>n</Mark2> angebotenen Worten einer Liste wird als Zufallsgr&#246;&#223;e angesehen. Sie wird als binomialverteilt nach <Mark2>B(n,p,X&#61;k)</Mark2> angenommen. Dabei ist <Mark2>p</Mark2> die Wahrscheinlichkeit daf&#252;r, dass ein Wort der Liste richtig verstanden wird. Hier und im Folgenden werden Wahrscheinlichkeiten in Prozent angegeben. Der Erwartungswert von <Mark2>X</Mark2> ist somit <Mark1><ImgLink imgNo="1" imgType="inlineFigure"/></Mark1>. Das Sprachverstehen in Prozent (Trefferrate) ist mit diesen Bezeichnungen die Zufallsgr&#246;&#223;e <Mark1><ImgLink imgNo="2" imgType="inlineFigure"/></Mark1>. Ihr Erwartungswert betr&#228;gt E(<Mark2>p</Mark2><Mark2><Subscript>mess</Subscript></Mark2>)&#61;<Mark2>p</Mark2>, ihre Varianz ist <ImgLink imgNo="3" imgType="inlineFigure"/>. Diese Varianz nimmt ihr Maximum bei <Mark2>p</Mark2>&#61;50&#37; an. An den R&#228;ndern bei <Mark2>p</Mark2>&#61;0 und <Mark2>p</Mark2>&#61;100&#37; ist die Varianz Null. </Pgraph><Pgraph>F&#252;r die Test-Retest-Reliabilit&#228;t ist die Absch&#228;tzung eines Konfidenzintervalls f&#252;r die Differenz  <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript>  zweier Trefferraten von Interesse. Dazu werden die Zufallsgr&#246;&#223;en <Mark2>X</Mark2><Subscript>1</Subscript> und <Mark2>X</Mark2><Subscript>2</Subscript> zun&#228;chst (nach Gleichung 3 in <TextLink reference="5"></TextLink>) gem&#228;&#223; Gleichung 1 in einen Winkelbereich <Mark2>&#952;</Mark2>(<Mark2>X,n</Mark2>) transformiert.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 1</Mark1></Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die so definierte Zufallsgr&#246;&#223;e<Mark2> &#952; </Mark2>hat n&#228;herungsweise eine von <Mark2>p</Mark2> unabh&#228;ngige Varianz Var(<Mark2>&#952;</Mark2>). Thornton und Raffin <TextLink reference="5"></TextLink> w&#228;hlten die N&#228;herungen <ImgLink imgNo="5" imgType="inlineFigure"/> f&#252;r <Mark2>n</Mark2>&#8805;50 bzw. <ImgLink imgNo="6" imgType="inlineFigure"/> f&#252;r 10&#60;<Mark2>n</Mark2>&#60;50. Die beiden Zufallsgr&#246;&#223;en <Mark2>&#952;</Mark2><Subscript>1</Subscript>&#61;<Mark2>&#952;</Mark2>(<Mark2>X</Mark2><Subscript>1</Subscript>,<Mark2>n</Mark2>) und <Mark2>&#952;</Mark2><Subscript>2</Subscript>&#61;<Mark2>&#952;</Mark2>(<Mark2>X</Mark2><Subscript>2</Subscript>,<Mark2>n</Mark2>) haben im Rahmen dieser N&#228;herung die gleiche Varianz Var(<Mark2>&#952;</Mark2>). Unter der Annahme, dass <Mark2>&#952;</Mark2><Subscript>1</Subscript> und <Mark2>&#952;</Mark2><Subscript>2</Subscript> statistisch unabh&#228;ngig sind, ist die Varianz der Zufallsgr&#246;&#223;e <Mark2>&#916;&#952;</Mark2>&#61;<Mark2>&#952;</Mark2><Subscript>1</Subscript>&#8211;<Mark2>&#952;</Mark2><Subscript>2</Subscript> die Summe der Varianzen, also Var(<Mark2>&#916;</Mark2>&#952;)&#61;2Var(<Mark2>&#952;</Mark2>) . F&#252;r <Mark2>&#916;&#952;</Mark2> wird nun eine Normalverteilung mit der Varianz 2Var(<Mark2>&#952;</Mark2>) angenommen. Das 95&#37;-Konfidenzintervall f&#252;r <Mark2>&#952;</Mark2><Subscript>2</Subscript> bei einer Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript>  ergibt sich somit zu <ImgLink imgNo="7" imgType="inlineFigure"/>. Die so berechneten <Mark2>&#952;</Mark2><Subscript>2</Subscript>-Grenzen des 95&#37;-Konfidenzintervalls werden zu <Mark2>X</Mark2><Subscript>2</Subscript>-Grenzen zur&#252;cktransformiert, um dann die entsprechenden <TextGroup><Mark2>p</Mark2><Subscript>mess2</Subscript><PlainText> -Grenzen</PlainText></TextGroup> zu erhalten. </Pgraph><Pgraph>Bezeichnen also <ImgLink imgNo="8" imgType="inlineFigure"/> und <ImgLink imgNo="9" imgType="inlineFigure"/> die Trefferrate in der Test- und in der Retest-Messung, so kann diese Methode wie folgt zusammengefasst werden:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 2</Mark1></Pgraph><Pgraph><Mark1><ImgLink imgNo="10" imgType="inlineFigure"/></Mark1><LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak><Mark1>Gleichung 3</Mark1></Pgraph><Pgraph><ImgLink imgNo="11" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak>mit</Pgraph><Pgraph><Mark1>Gleichung 4</Mark1></Pgraph><Pgraph><ImgLink imgNo="12" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Diese Grenzen wurden f&#252;r alle interessierenden Trefferraten <Mark2>p</Mark2><Subscript>mess1</Subscript>  zwischen 0 und 100&#37; berechnet. Die Berechnung der Umkehrfunktion <Mark2>X</Mark2>&#61;<Mark2>&#952;</Mark2><Superscript>&#8211;1</Superscript>(<Mark2>&#952;, n</Mark2>) von Gleichung 1 erfolgte dabei numerisch. </Pgraph><SubHeadline2>Methode 2: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen</SubHeadline2><Pgraph>Sind die einzelnen Worte einer Liste unterschiedlich gut zu verstehen, gen&#252;gt die gleiche Trefferwahrscheinlichkeit  <Mark2>p</Mark2> f&#252;r jedes Wort nicht mehr zur Beschreibung. Jedes Wort hat eine eigene Trefferwahrscheinlichkeit, und die Binomialverteilung wird durch die verallgemeinerte Binomialverteilung ersetzt <TextLink reference="10"></TextLink>. Um die Verschm&#228;lerung der Verteilung von <Mark2>X</Mark2> bei der verallgemeinerten Binomialverteilung gegen&#252;ber der einfachen Binomialverteilung zu ber&#252;cksichtigen, soll nun in der Berechnung im <Mark2>&#952;</Mark2>-Bereich die Varianz von <Mark2>&#952;</Mark2> zu <ImgLink imgNo="13" imgType="inlineFigure"/> anstelle von <ImgLink imgNo="14" imgType="inlineFigure"/> angenommen werden. Der Wert f&#252;r <Mark2>n&#39;</Mark2> wurde aus <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> &#252;bernommen, also <Mark2>n&#39;</Mark2>&#61;29 f&#252;r <Mark2>n</Mark2>&#61;20 und <Mark2>n&#39;</Mark2>&#61;58 f&#252;r <Mark2>n</Mark2>&#61;40. Die Method<TextGroup><PlainText>e 2</PlainText></TextGroup> wird somit durch die Gleichung 2 und <TextGroup><PlainText>Gleichung 3</PlainText></TextGroup> mit <LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 5</Mark1></Pgraph><Pgraph><ImgLink imgNo="15" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>anstelle von Gleichung 4 beschrieben.</Pgraph><SubHeadline2>Methode 3: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen</SubHeadline2><Pgraph>Altman et al. <TextLink reference="12"></TextLink> empfehlen einen Ansatz, der der Methode 10 von <TextLink reference="13"></TextLink> entspricht. Diese Methode wird hier zun&#228;chst unver&#228;ndert vorgestellt. Danach wird sie modifiziert, um die Variabilit&#228;t des Wortverstehens innerhalb einer Liste zu ber&#252;cksichtigen. </Pgraph><Pgraph>Liegt eine Trefferrate <Mark2>p</Mark2><Subscript>mess</Subscript>  f&#252;r eine einzelne Testliste vor, kann nach dem 95&#37;-Konfidenzintervall f&#252;r den wahren Wert <Mark2>p</Mark2> gefragt werden. Wilson <TextLink reference="14"></TextLink> machte dazu den folgenden Ansatz: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 6</Mark1></Pgraph><Pgraph><ImgLink imgNo="16" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit <Mark2>z</Mark2>&#61;1,96. Dies ist eine quadratische Gleichung f&#252;r <Mark2>p</Mark2>. Ihre beiden L&#246;sungen <Mark2>u</Mark2> und <Mark2>o</Mark2> geben die untere bzw. die obere Grenze f&#252;r das gesuchte Konfidenzintervall an (siehe <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>). Liegen zwei Trefferraten <Mark2>p</Mark2><Subscript>mess1</Subscript> und <Mark2>p</Mark2><Subscript>mess2</Subscript>  vor, so ergeben sich die zugeh&#246;rigen Untergrenzen <Mark2>u</Mark2><Subscript>1</Subscript> und <Mark2>u</Mark2><Subscript>2</Subscript> sowie die Obergrenzen <Mark2>o</Mark2><Subscript>1</Subscript> und <Mark2>o</Mark2><Subscript>2</Subscript>. Nach <TextLink reference="12"></TextLink> wird die Signifikanz der Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> wie folgt beurteilt: Wenn die erste Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript>  gr&#246;&#223;er ist als die zweite Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript>, dann muss die Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> der beiden Trefferraten gr&#246;&#223;er sein als <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 7</Mark1></Pgraph><Pgraph><ImgLink imgNo="17" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>um auf dem 5&#37;-Niveau signifikant unterschiedlich zu sein. Zur Berechnung des 95&#37;-Konfidenzintervalls f&#252;r die Differenz zwischen den beiden Trefferraten werden also die Varianz f&#252;r die obere Trefferrate nach unten und die Varianz f&#252;r die untere Trefferrate nach oben addiert. F&#252;r den anderen Fall, dass n&#228;mlich die zweite Trefferrate gr&#246;&#223;er ist als die erste Trefferrate, muss die Differenz <Mark2>p</Mark2><Subscript>mess2</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess1</Subscript> entsprechend gr&#246;&#223;er sein als<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 8</Mark1></Pgraph><Pgraph><ImgLink imgNo="18" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Dieses Verfahren liefert f&#252;r jeden der interessierenden Werte von <Mark2>p</Mark2><Subscript>mess1</Subscript>  zwischen 0 und 100 &#37; ein 95&#37;-Konfidenzintervall f&#252;r die Differenz <Mark2>p</Mark2><Subscript>mess2</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess1</Subscript>. Bei gegebenem <Mark2>p</Mark2><Subscript>mess1</Subscript> (Test) liegt <Mark2>p</Mark2><Subscript>mess2</Subscript> (Retest) mit einer Wahrscheinlichkeit von 95&#37; zwischen <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;&#948;<Subscript>u</Subscript> und <Mark2>p</Mark2><Subscript>mess1</Subscript>&#43;&#948;<Mark2><Subscript>o.</Subscript></Mark2> Die sechs Gleichungen, d.h. die Gleichungen f&#252;r <Mark2>u</Mark2><Subscript>1</Subscript>, <Mark2>u</Mark2><Mark2><Subscript>2</Subscript></Mark2>, <Mark2>o</Mark2><Subscript>1</Subscript> und <Mark2>o</Mark2><Subscript>2</Subscript> sowie die Gleichung 7 und Gleichung 8, m&#252;ssen f&#252;r gegebenes <Mark2>p</Mark2><Subscript>mess1</Subscript> gel&#246;st werden. Geschlossene L&#246;sungen lassen sich nicht angeben, daher wurden sie numerisch durch Fixpunktiteration gel&#246;st.</Pgraph><Pgraph>Die bisher beschriebene Berechnungsmethode geht von gleichem Einzelwortverstehen innerhalb einer Testliste aus. Die Variabilit&#228;t des Einzelwortverstehens f&#252;hrt wie schon f&#252;r Methode 2 beschrieben zu einer Verkleinerung der Varianz <ImgLink imgNo="19" imgType="inlineFigure"/> auf der rechten Seite von Gleichun<TextGroup><PlainText>g 6</PlainText></TextGroup>. Hier soll dies durch die Ersetzung von <Mark2>n</Mark2> durch <Mark2>n&#39;</Mark2> ber&#252;cksichtigt werden. Dabei wird der Wert f&#252;r <Mark2>n&#39;</Mark2> wieder aus <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> &#252;bernommen, also <Mark2>n&#39;</Mark2>&#61;29 anstelle von <Mark2>n</Mark2>&#61;20 und <Mark2>n&#39;</Mark2>&#61;58 anstelle von <Mark2>n</Mark2>&#61;40. </Pgraph><SubHeadline2>Methode 4: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen und variablem Testlistenverstehen</SubHeadline2><Pgraph>Ausgehend von variablem Einzelwortverstehen unter gleichen Bedingungen variiert bei einem Sprachtest der Mittelwert zwischen den Testlisten aufgrund der unterschiedlichen Wortzusammensetzungen der Testlisten. W&#228;re f&#252;r jede Testliste der Testlistenmittelwert unter gegebenen Messbedingungen genau ermittelbar, h&#228;tte dieser Mittelwert daher eine Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>. Diese h&#228;ngt von der Anzahl <Mark2>n</Mark2> der W&#246;rter pro Testliste sowie vom wahren Wert <Mark2>p</Mark2> ab. Die Varianz tr&#228;gt zur Unsicherheit des wahren Wertes von <Mark2>p</Mark2> in Gleichung 6 bei. Wird also in dieser Gleichung sowohl das variable Einzelwortverstehen (Ersetzung von <Mark2>n</Mark2> durch <Mark2>n&#39;</Mark2>) als auch das variable Testlistenverstehen (Addition von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> zur Varianz von <Mark2>p</Mark2>) ber&#252;cksichtigt, wird der Ansatz von Gleichung 6 zu: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 9</Mark1></Pgraph><Pgraph><ImgLink imgNo="20" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit <Mark2>z</Mark2>&#61;1,96. Wenn die Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> bekannt ist, k&#246;nnen die weiteren Schritte der Methode nach <TextLink reference="12"></TextLink>, wie f&#252;r Method<TextGroup><PlainText>e 3</PlainText></TextGroup> beschrieben, durchgef&#252;hrt werden.</Pgraph><Pgraph>Zur Ermittlung von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> wird die Stichprobenvarianz der gemessenen Testlistenmittelwerte berechnet. Betrachtet werden <Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2> Testlisten aus je <Mark2>n</Mark2> W&#246;rtern mit dem Einzelwortverstehen <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2>, <Mark2>i</Mark2>&#61;1&#8230;<Mark2>n</Mark2>, <Mark2>j</Mark2>&#61;1&#8230;<Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2>. Die Trefferrate der Testliste <Mark2>j</Mark2> ist damit der Mittelwert <ImgLink imgNo="21" imgType="inlineFigure"/> . Mit den &#252;ber alle W&#246;rter in allen Testlisten gemittelten Trefferraten<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 10</Mark1></Pgraph><Pgraph><ImgLink imgNo="22" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>ist dann <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> die Stichprobenvarianz der Testlistenmittelwerte gem&#228;&#223;: <LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleic</Mark1><Mark1>hung 11</Mark1></Pgraph><Pgraph><ImgLink imgNo="23" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die Varianz des Einzelwortverstehens ist<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 12</Mark1></Pgraph><Pgraph><ImgLink imgNo="24" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Zwischen der Varianz des Verstehens eines einzelnen Wortes und der Varianz der Mittelwerte aus <Mark2>n</Mark2> zuf&#228;llig zu Testlisten zusammengestellten Einzelw&#246;rtern besteht die Beziehung<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 13</Mark1></Pgraph><Pgraph><ImgLink imgNo="25" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> zeigt, dass diese Beziehung im Mittel f&#252;r zuf&#228;llig aus den W&#246;rtern des FBE zusammengestellte Testlisten mit <Mark2>n</Mark2>&#61;1, 20, 40 erf&#252;llt ist. Die dargestellten Varianzen wurden aus 10<Superscript>6</Superscript> Realisierungen von zuf&#228;llig zusammengestellten Testlisten gemittelt. Sie zeigt aber auch, dass die Varianzen der konkreten Testlisten des FBE deutlich von dem mittleren Ergebnis einer zuf&#228;lligen Wortzusammenstellung abweichen. Dar&#252;ber hinaus zeigt Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> erwartungsgem&#228;&#223;, dass <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> in der N&#228;he von <Mark2>p</Mark2>&#61;0&#37; (fast kein Wort wird verstanden) und <Mark2>p</Mark2>&#61;100&#37; (fast alle W&#246;rter werden verstanden) kleiner ist als im mittleren Bereich um <Mark2>p</Mark2>&#61;50&#37;. Der genaue Verlauf von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> als Funktion von <Mark2>p</Mark2> ist nicht bekannt. Als Ansatz wird hier eine Parabel<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 14</Mark1></Pgraph><Pgraph><ImgLink imgNo="26" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit einem noch zu bestimmenden Parameter <Mark2>c</Mark2><Superscript>2</Superscript>  gew&#228;hlt, so dass sich Gleichung 9 als<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 15</Mark1></Pgraph><Pgraph><ImgLink imgNo="27" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit</Pgraph><Pgraph><Mark1>Gleichung 16</Mark1></Pgraph><Pgraph><ImgLink imgNo="28" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>schreiben l&#228;sst. Wird also in der Methode 3 die Gleichun<TextGroup><PlainText>g 6</PlainText></TextGroup> durch Gleichung 15 ersetzt, dann werden sowohl die Variabilit&#228;t des Einzelwortverstehens als auch die Variabilit&#228;t der Testlistenmittelwerte ber&#252;cksichtigt.</Pgraph><Pgraph>Der Parameter <Mark2>c</Mark2><Superscript>2</Superscript> wurde aus dem gemessenen Einzelwortverstehen <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2> wie folgt berechnet. F&#252;r jeden der vier verwendeten Pegel werden der Mittelwert <ImgLink imgNo="29" imgType="inlineFigure"/> des Einzelwortverstehens nach Gleichung 10 und die Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> nach Gleichung 11 berechnet. Die Werte der vier Paare <ImgLink imgNo="30" imgType="inlineFigure"/> h&#228;ngen von der Auswahl und von der Wortzusammenstellung der zugrunde liegenden Testlisten sowie von ihrer L&#228;nge <Mark2>n</Mark2> ab. An die vier Wertepaare <ImgLink imgNo="30" imgType="inlineFigure"/> wird nach der Methode der kleinsten Quadrate eine Parabel <ImgLink imgNo="31" imgType="inlineFigure"/> angepasst. Dies liefert den gesuchten Wert f&#252;r <Mark2>c</Mark2><Superscript>2</Superscript>. Drei der so resultierenden Parabeln sind in der Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> eingezeichnet. Mit dem nun bekannten Wert f&#252;r <Mark2>c</Mark2><Superscript>2</Superscript> wird die effektive Listenl&#228;nge <Mark2>&#241;</Mark2> mit Hilfe von Gleichung 16 berechnet. Die Tabelle 2 <ImgLink imgNo="2" imgType="table"/> zeigt die Ergebnisse f&#252;r <Mark2>n</Mark2>&#61;20 und f&#252;r <Mark2>n</Mark2>&#61;40. Da der FBE 20 W&#246;rter pro Liste hat, wurden f&#252;r die Berechnungen mit <Mark2>n</Mark2>&#61;40 alle Kombinationen aus Paaren unterschiedlicher Listen ber&#252;cksichtigt.</Pgraph><SubHeadline2>Methode 5: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen und variablem Listenverstehen</SubHeadline2><Pgraph>Durch die Ber&#252;cksichtigung der Einzelwortvariabilit&#228;t verringert sich die Varianz von Gleichung 4 zu Gleichun<TextGroup><PlainText>g 5</PlainText></TextGroup>. Es liegt also nahe, die Variabilit&#228;t des Listenverstehens durch die Ersetzung von Gleichung 5 durch <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 17</Mark1></Pgraph><Pgraph><ImgLink imgNo="32" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>zu modellieren. </Pgraph><SubHeadline>Kritische Differenzen bei einseitiger Fragestellung</SubHeadline><Pgraph>Bisher wurde das 95&#37;-Konfidenzintervall bei zweiseitiger Fragestellung betrachtet. Bei der Anwendung des FBE in der H&#246;rger&#228;teanpassung wird jedoch vorausgesetzt, dass H&#246;rger&#228;te das Sprachverstehen verbessern, dass also bei der zweiten Messung (mit H&#246;rger&#228;t) eine h&#246;here Trefferrate erreicht wird als bei der ersten Messung (ohne H&#246;rger&#228;t). Der statistische Test zur Ermittlung eines signifikanten Unterschieds zwischen den beiden Trefferraten w&#252;rde dann untersuchen, ob die Irrtumswahrscheinlichkeit f&#252;r die Hypothese, dass die zweite Trefferrate gr&#246;&#223;er als die erste Trefferrate ist, kleiner als 5&#37; ist. Das entspricht der Grenze des 90&#37;-Konfidenzintervalls. Dies kann mit den gleichen f&#252;nf Methoden berechnet werden, indem <Mark2>z</Mark2>&#61;1,96 durch <Mark2>z</Mark2>&#61;1,645 ersetzt wird. Obwohl die Fragestellung einseitig ist, werden die Grenzen des 90&#37;-Konfidenzintervalls f&#252;r die zweite Trefferrate der Vollst&#228;ndigkeit halber symmetrisch um die erste Trefferrate angegeben.</Pgraph><SubHeadline>Kritische Differenzen im Pegelbereich</SubHeadline><Pgraph>Mit dem FBE wird das Sprachverstehen f&#252;r einen gegebenen Sprachpegel bestimmt und das Konfidenzintervall f&#252;r die Trefferraten angegeben. Die adaptiven Verfahren wie der Oldenburger Satztest (OLSA, <TextLink reference="15"></TextLink>) oder der G&#246;ttinger Satztest <TextLink reference="16"></TextLink> ermitteln dagegen das Signal-Rausch-Verh&#228;ltnis oder den Sprachpegel f&#252;r ein gegebenes Sprachverstehen von zumeist 50&#37; oder auch 80&#37; (Speech Recognition Threshold, SRT). Die Genauigkeit der Satzteste beim SRT wird mit ca. &#177;1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>) angegeben. Zum Vergleich wurden die mit Methode 5 berechneten Konfidenzintervalle f&#252;r die Trefferrate <Mark2>p</Mark2> in Konfidenzintervalle f&#252;r den Sprachpegel <Mark2>L</Mark2> umgerechnet. Dazu wurde die in <TextLink reference="18"></TextLink> gegebene Diskriminationsfunktion nach dem Sprachpegel aufgel&#246;st:</Pgraph><Pgraph><Mark1>Gleichung 18</Mark1></Pgraph><Pgraph><ImgLink imgNo="33" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>F&#252;r den Pegel<Mark2> L</Mark2><Subscript>50</Subscript>  bei einer Trefferrate von 50&#37; und die Steigung <Mark2>s</Mark2><Subscript>50</Subscript> in diesem Punkt wurden die in <TextLink reference="11"></TextLink> angegebenen medianen Werte<Mark2> L</Mark2><Subscript>50</Subscript>&#61;24,7 dB und <Mark2>s</Mark2><Subscript>50</Subscript>&#61;0,045&#47;dB verwendet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><SubHeadline>Experimental data</SubHeadline><Pgraph>The measurement methods are summarized here only briefly. For a detailed description refer to Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>In 80 young participants having normal hearing abilities (hereinafter named normal-hearing participants), speech recognition was determined as the percentage score for the Freiburg monosyllables in quiet and at four levels (17.5, 23.5, 29.5, and 35.5 dB SPL), with each of five test lists comprising 20 words (<Mark2>n</Mark2>&#61;20). In 40 older participants with hearing impairment (hereinafter named hearing-impaired participants), the levels 65, 80, 90, and 95 dB SPL were used in the same procedure. However, only 65 and 80 dB SPL were included in the analysis, because at the two higher levels, many scores achieved 100&#37;. All measurements of a given participant were performed within one session.</Pgraph><Pgraph>The five fixed-level test-list hit rates for each participant were interpreted as test-retest combinations in pairs. The pairs each consisted of a presented test list and another, subsequently presented, list, i.e. (1; 2), (1; 3), (1; 4), (1<TextGroup><PlainText>; 5</PlainText></TextGroup>), (2; 3), (2; 4), (2; 5), (3; 4), (3; 5), (4; 5). This resulted in 3,200 test-retest pairs for the normal-hearing and 800 test-retest pairs for the hearing-impaired participants. The number of test-retest pairs decreased when the conspicuous test lists of Baljic et al. <TextLink reference="11"></TextLink> were excluded (see Table 1 <ImgLink imgNo="1" imgType="table"/>). In another variant, two test lists each with double lists of <Mark2>n</Mark2>&#61;40 words were formed. For the analysis of test-retest reliability, all double lists were combined into test-retest pairs so that no single list was duplicated, i.e. (1&#43;2; 3&#43;4), (1&#43;2; 3&#43;5), (1&#43;2; 4&#43;5), (1&#43;3; 2&#43;4), (1&#43;3; 2&#43;5), (1&#43;3; 4&#43;5), (1&#43;4; 2&#43;3), (1&#43;4; 2&#43;5), (1&#43;4; 3&#43;5), (1&#43;5; 2&#43;3), (1&#43;5; 2&#43;4), (1&#43;5; 3&#43;4), (2&#43;3; 4&#43;5), (2&#43;4; 3&#43;5), and (2&#43;5; 3&#43;4). This resulted in 4,800 test-retest pairs for the normal-hearing and 1,200 test-retest pairs for the hearing-impaired participants when all 20 test lists were used. As a variant, the conspicuous test lists of <TextLink reference="11"></TextLink> were also excluded for these double lists (see Table 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><SubHeadline>Calculation methods</SubHeadline><Pgraph>For a given percentage score <Mark2>p</Mark2><Subscript>mess1</Subscript> (test), the question was: In which critical range did the retest percentage score <Mark2>p</Mark2><Subscript>mess2</Subscript> lie, so that the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> for a two-sided test was not significantly different from zero at the <Mark2>&#945;</Mark2>&#61;5&#37; level. A two-sided test means that the retest score may be less than or greater than the first score. Thus 2.5&#37; of the retest scores are below and 2.5&#37; of the retest scores are above the 95&#37; confidence interval around the first score. Different methods exist in the literature for calculating the 95&#37; confidence interval, two of which (Thornton and Raffin <TextLink reference="5"></TextLink> and Altman et al. <TextLink reference="12"></TextLink>) are considered in the current contribution. Both methods were first reproduced and then applied to the available measurement data with <Mark2>n</Mark2>&#61;20 and <Mark2>n</Mark2>&#61;40 words per test list (i.e. simple test lists and double lists). Afterwards, modifications of these methods are presented that took into account the variability of single word recognition, as well as the variability of the mean recognition of different test lists.</Pgraph><SubHeadline2>Method 1: Critical differences according to Thornton and Raffin</SubHeadline2><Pgraph>Thornton and Raffin <TextLink reference="5"></TextLink> proposed calculating a 95&#37; confidence interval for the assessment of test-retest reliability by the following method: The number <Mark2>X</Mark2> of correct responses for <Mark2>n</Mark2> presented words in a test list is considered to be a random variable. It is assumed to be binomially distributed with <Mark2>B</Mark2>(<Mark2>n,p,X&#61;k</Mark2>). Here p is the probability that one word in the list will be correctly recognized. Here and below, probabilities are given in percent. The expected value of <Mark2>X</Mark2> is thus <ImgLink imgNo="1" imgType="inlineFigure"/>. Speech recognition in percent (score) is the random variable <ImgLink imgNo="2" imgType="inlineFigure"/>. Its expected value is E(<Mark2>p</Mark2><Subscript>mess</Subscript>)&#61;<Mark2>p</Mark2> and its variance is <ImgLink imgNo="3" imgType="inlineFigure"/>. This variance reaches its maximum at <Mark2>p</Mark2>&#61;50&#37;. At the borders <Mark2>p</Mark2>&#61;0 and <Mark2>p</Mark2>&#61;100&#37;, the variance is zero.</Pgraph><Pgraph>For the test-retest reliability, estimating a confidence interval for the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> of two scores is of interest. For this purpose, the random variables <Mark2>X</Mark2><Subscript>1</Subscript> and <Mark2>X</Mark2><Subscript>2</Subscript> are first transformed (according to Equation 3 in <TextLink reference="5"></TextLink>) using Equation 1 to an angle <Mark2>&#952;</Mark2>(<Mark2>X,n</Mark2>).<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 1</Mark1></Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>The random variable <Mark2>&#952; </Mark2>thus defined has approximately a variance Var(<Mark2>&#952;</Mark2>) that is independent of <Mark2>p</Mark2>. Thornton and Raffin <TextLink reference="5"></TextLink> chose the approximations <ImgLink imgNo="5" imgType="inlineFigure"/> for n&#8805;50 and <ImgLink imgNo="6" imgType="inlineFigure"/> for 10&#60;<Mark2>n</Mark2>&#60;50. The two random variables <Mark2>&#952;</Mark2><Subscript>1</Subscript>&#61;<Mark2>&#952;</Mark2>(<Mark2>X</Mark2><Subscript>1</Subscript>,<Mark2>n</Mark2>) and <Mark2>&#952;</Mark2><Subscript>2</Subscript>&#61;<Mark2>&#952;(X</Mark2><Subscript>2</Subscript>,<Mark2>n</Mark2>) have the same variance Var(<Mark2>&#952;</Mark2>) within this approximation. Assuming that <Mark2>&#952;</Mark2><Subscript>1</Subscript> and <Mark2>&#952;</Mark2><Subscript>2</Subscript> are statistically independent, the variance of the random variable <Mark2>&#916;&#952;</Mark2>&#61;<Mark2>&#952;</Mark2><Subscript>1</Subscript>&#8211;<Mark2>&#952;</Mark2><Subscript>2</Subscript> is the sum of the variances, i.e. Var(<Mark2>&#916;&#952;</Mark2>)&#61;2Var(<Mark2>&#952;</Mark2>). For <Mark2>&#916;&#952;</Mark2>, a normal distribution with the variance 2Var(&#952;) is assumed. The 95&#37; confidence interval for <Mark2>&#952;</Mark2><Subscript>2</Subscript> at the score <Mark2>p</Mark2><Subscript>mess1</Subscript> thus results in <ImgLink imgNo="7" imgType="inlineFigure"/>.The thus calculated <Mark2>&#952;</Mark2><Subscript>2</Subscript> bounds of the 95&#37; confidence interval are transformed back to <Mark2>X</Mark2><Subscript>2</Subscript> bounds to obtain the <Mark2>p</Mark2><Subscript>mess2</Subscript> bounds. Thus, if <ImgLink imgNo="8" imgType="inlineFigure"/> and <ImgLink imgNo="9" imgType="inlineFigure"/> indicate the scores in the test and in the retest measurement, respectively, this method can be summarized as follows:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 2</Mark1></Pgraph><Pgraph><Mark1><ImgLink imgNo="10" imgType="inlineFigure"/></Mark1><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 3</Mark1></Pgraph><Pgraph><ImgLink imgNo="11" imgType="inlineFigure"/></Pgraph><Pgraph>with</Pgraph><Pgraph><Mark1>Equation 4</Mark1></Pgraph><Pgraph><ImgLink imgNo="12" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>These bounds were calculated for all scores <Mark2>p</Mark2><Subscript>mess1</Subscript> of interest between 0 and 100&#37;. The inverse function <Mark2>X</Mark2>&#61;<Mark2>&#952;</Mark2><Superscript>&#8211;1</Superscript>(<Mark2>&#952;,n</Mark2>) of Equation 1 was calculated numerically.</Pgraph><SubHeadline2>Method 2: Critical differences according to Thornton und Raffin, with variable word recognition</SubHeadline2><Pgraph>If the individual words of a test list are recognized differently, the same recognition probability <Mark2>p</Mark2> for each word is no longer sufficient for the description. Each word has its own recognition probability, and the binomial distribution is replaced by the Poisson binomial distribution <TextLink reference="10"></TextLink>. In order to consider the narrowing of the distribution of <Mark2>X</Mark2> in the Poisson binomial distribution relative to the simple binomial distribution, the variance of <Mark2>&#952;</Mark2> is now set to <ImgLink imgNo="13" imgType="inlineFigure"/> instead of <ImgLink imgNo="14" imgType="inlineFigure"/>. The value for <Mark2>n&#39;</Mark2> is taken from <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, hence, <Mark2>n&#39;</Mark2>&#61;29 for <Mark2>n</Mark2>&#61;20 and <Mark2>n&#39;</Mark2>&#61;58 for <Mark2>n</Mark2>&#61;40. </Pgraph><Pgraph>Thus, method 2 is described by Equation 2 and Equation 3 together with<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 5</Mark1></Pgraph><Pgraph><ImgLink imgNo="15" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>instead of Equation 4.</Pgraph><SubHeadline2>Method 3: Critical differences according to Altmann et al., with variable word recognition</SubHeadline2><Pgraph>Altman et al. <TextLink reference="12"></TextLink> recommended an approach that corresponds to method 10 of <TextLink reference="13"></TextLink>. This method will initially be presented unchanged. Then it is modified to take into account the variability of word recognition within a test list.</Pgraph><Pgraph>If a percentage score  <Mark2>p</Mark2><Subscript>mess</Subscript> for a single test list was measured, the 95&#37; confidence interval for the true value <Mark2>p</Mark2> is in question. Wilson <TextLink reference="14"></TextLink> made the following approach:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 6</Mark1></Pgraph><Pgraph><ImgLink imgNo="16" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with <Mark2>z</Mark2>&#61;1,96. This is a quadratic equation for <Mark2>p</Mark2>. Its solutions <Mark2>u</Mark2> and o specify the lower and upper bounds, respectively, of the required confidence interval (see <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>). If there are two hit rates <Mark2>p</Mark2><Subscript>mess1</Subscript> and <Mark2>p</Mark2><Subscript>mess2</Subscript>, then the associated lower bounds <Mark2>u</Mark2><Subscript>1</Subscript> and <Mark2>u</Mark2><Subscript>2</Subscript> and the upper bounds <Mark2>o</Mark2><Subscript>1</Subscript> and <Mark2>o</Mark2><Subscript>2</Subscript> result. According to <TextLink reference="12"></TextLink>, the significance of the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript>  is assessed as follows: If the first score <Mark2>p</Mark2><Subscript>mess1</Subscript>  is greater than the second score <Mark2>p</Mark2><Subscript>mess2</Subscript>, then to be significantly different at the 5&#37; level, the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess2</Subscript> of the two scores must be larger than <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 7</Mark1></Pgraph><Pgraph><ImgLink imgNo="17" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>To calculate the 95&#37; confidence interval for the difference between the two scores, the variance for the higher score is added downwards and the variance for the lower score is added upwards. For the other case, namely that the second score is larger than the first score, the difference <Mark2>p</Mark2><Subscript>mess2</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess1</Subscript> must be correspondingly larger than <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 8</Mark1></Pgraph><Pgraph><ImgLink imgNo="18" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>For each of the values of <Mark2>p</Mark2><Subscript>mess1</Subscript>  of interest between 0 and 100&#37;, this method provides a 95&#37; confidence interval for the difference <Mark2>p</Mark2><Subscript>mess2</Subscript>&#8211;<Mark2>p</Mark2><Subscript>mess1</Subscript>. For a given <Mark2>p</Mark2><Subscript>mess1</Subscript> (test), the score <Mark2>p</Mark2><Subscript>mess2</Subscript>  (retest) lies with a probability of 95&#37; between <Mark2>p</Mark2><Subscript>mess1</Subscript>&#8211;<Mark2>&#948;</Mark2><Mark2><Subscript>u</Subscript></Mark2>  and <Mark2>p</Mark2><Subscript>mess1</Subscript>&#43;<Mark2>&#948;</Mark2><Mark2><Subscript>o</Subscript></Mark2>. The six equations, i.e. the equations for <Mark2>u</Mark2><Subscript>1</Subscript>, <Mark2>u</Mark2><Subscript>2</Subscript>, <Mark2>o</Mark2><Subscript>1</Subscript>, and <Mark2>o</Mark2><Subscript>2</Subscript> and the Equation 7 and Equation 8, must be solved for a given <Mark2>p</Mark2><Subscript>mess1</Subscript>. There is no closed solution. Therefore, the equations were solved numerically by fixed point iteration. </Pgraph><Pgraph>The calculation method described so far is based on the same single-word recognition within a test list. The variability of the single-word recognition leads to a reduction of the variance <Mark1><ImgLink imgNo="19" imgType="inlineFigure"/></Mark1> on the right side of Equation 6, as already described for method 2. This is now taken into account by replacing n by <Mark2>n&#39;</Mark2>. The value for n&#39; is taken again from <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, i.e. <Mark2>n&#39;</Mark2>&#61;29 instead of <Mark2>n</Mark2>&#61;20 and <Mark2>n&#39;</Mark2>&#61;58 instead of <Mark2>n</Mark2>&#61;40. </Pgraph><SubHeadline2>Method 4: Critical differences according to Altmann et al., with variable word recognition and variable test list recognition</SubHeadline2><Pgraph>Starting from variable single-word recognition under the same conditions, in a speech test, the mean scores of the lists vary due to different word compositions of lists. If the test-list mean value for each test list could be exactly determined under given measurement conditions, this mean value would have a variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>. This depends on the number <Mark2>n</Mark2> of words per test list and on the true value <Mark2>p</Mark2>. This variance contributes to the uncertainty of the true value of <Mark2>p</Mark2> in Equation 6. Thus, taking into account both variable single-word recognition (replacing <Mark2>n</Mark2> by <Mark2>n&#39;</Mark2>) and variable test-list recognition (adding <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> to the variance of <Mark2>p</Mark2>), Equation 6 becomes: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 9</Mark1></Pgraph><Pgraph><ImgLink imgNo="20" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with <Mark2>z</Mark2>&#61;1,96. If the variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> is known, the further steps of the method according to <TextLink reference="12"></TextLink>, as described for metho<TextGroup><PlainText>d 3</PlainText></TextGroup>, can be carried out.</Pgraph><Pgraph>To determine <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>, the sample variance of the measured test list mean values is calculated. <Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2> test lists of <Mark2>n</Mark2> words are considered with the single-word recognition <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2>, <Mark2>i</Mark2>&#61;1&#8230;<Mark2>n</Mark2>, <Mark2>j</Mark2>&#61;1&#8230;<Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2>. The percentage score of the test list <Mark2>j</Mark2> is thus the mean value <ImgLink imgNo="21" imgType="inlineFigure"/>. With the scores averaged over all words in all test lists <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 10</Mark1></Pgraph><Pgraph><ImgLink imgNo="22" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>the sample variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> of the test list means is:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 11</Mark1></Pgraph><Pgraph><ImgLink imgNo="23" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak>The variance of single-word recognition is<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 12 </Mark1></Pgraph><Pgraph><ImgLink imgNo="24" imgType="inlineFigure"/>. <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>The relationship between the variance of the recognition of a single word and the variance of the mean value of <Mark2>n</Mark2> words randomly assembled into test lists is <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 13</Mark1></Pgraph><Pgraph><ImgLink imgNo="25" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Figure 1 <ImgLink imgNo="1" imgType="figure"/> shows that this relationship is satisfied for randomly composed test lists with <Mark2>n</Mark2>&#61;1, 20, 40 from the words of the FBE. The variances shown were averaged out of 10<Superscript>6</Superscript> realizations of randomly assembled test lists. However, the variances of the specific test lists of the FBE deviate significantly from the average result of a random combination of words. In addition, Figure 1 <ImgLink imgNo="1" imgType="figure"/> shows, as expected, that <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> is smaller in the vicinity of <Mark2>p</Mark2>&#61;0 (almost no word is understood) and <Mark2>p</Mark2>&#61;100&#37; (almost all words are understood) than it is in the middle range around <Mark2>p</Mark2>&#61;50&#37;. The exact dependence of <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> as a function of p is unknown. The approach chosen here is a parabola<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 14</Mark1></Pgraph><Pgraph><ImgLink imgNo="26" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with a parameter<Mark2> c</Mark2><Superscript>2</Superscript>  to be determined. Thus Equation 9 can be written as<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 15</Mark1></Pgraph><Pgraph><ImgLink imgNo="27" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak> </Pgraph><Pgraph>with</Pgraph><Pgraph><Mark1>Equation 16</Mark1></Pgraph><Pgraph><ImgLink imgNo="28" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>If, in method 3, Equation 6 is replaced by Equation 15, then both the variability of the single-word recognition and the variability of the test-list mean values are taken into account.</Pgraph><Pgraph>The parameter <Mark2>c</Mark2><Superscript>2</Superscript> was calculated from the measured single-word recognition <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2> as follows. For each of the four levels used, the average <ImgLink imgNo="29" imgType="inlineFigure"/> of single-word recognition was calculated according to Equation 10 and the variance of <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> according to Equation 11. The values of the four pairs <ImgLink imgNo="30" imgType="inlineFigure"/> depend on the selection of the test lists and the word composition of the test lists and on the test-list length <Mark2>n</Mark2>. For the four pairs of values <ImgLink imgNo="30" imgType="inlineFigure"/>, a parabola <ImgLink imgNo="31" imgType="inlineFigure"/> was fitted according to the method of least squares. This yielded the value for <Mark2>c</Mark2><Superscript>2</Superscript>. Three of the resulting parabolas are shown in Figure 1 <ImgLink imgNo="1" imgType="figure"/>. With the now-known value of <Mark2>c</Mark2><Superscript>2</Superscript>, the effective list length  <Mark2>&#241;</Mark2> was calculated using Equation 16.  Table 2 <ImgLink imgNo="2" imgType="table"/> shows the results for <Mark2>n</Mark2>&#61;20 and for <Mark2>n</Mark2>&#61;40. Since the FBE has 20 words per list, for calculations with <Mark2>n</Mark2>&#61;40, all combinations of pairs of different lists were considered. </Pgraph><SubHeadline2>Method 5: Critical differences according to Thornton and Raffin, with variable word recognition and variable test-list recognition</SubHeadline2><Pgraph>To incorporate single-word variability, the variance in Equation 4 decreases to that in Equation 5. Consequently,  the variability of test-list recognition is now included by replacing Equation 5 with <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 17</Mark1></Pgraph><Pgraph><ImgLink imgNo="32" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><SubHeadline>Critical differences in a one-sided test</SubHeadline><Pgraph>So far, the 95&#37; confidence interval has been considered for two-sided tests. However, when using the FBE in hearing-aid fitting, it is assumed that hearing aids improve speech recognition, i.e. that a higher score is achieved in the second measurement (with hearing aids) than in the first measurement (without hearing aids). <LineBreak></LineBreak>The statistical test for determining a significant difference between the two scores would then examine whether the error probability for the hypothesis that the second score is larger than the first score is less than 5&#37;. This corresponds to the bounds of the 90&#37; confidence interval and can be calculated using the same five methods by replacing <Mark2>z</Mark2>&#61;1,96 with <Mark2>z</Mark2>&#61;1,645. Although the problem is one-sided, for the sake of completeness, the limits of the 90&#37; confidence interval for the second score are given symmetrically around the first score.</Pgraph><SubHeadline>Critical differences in the level domain</SubHeadline><Pgraph>The FBE determines speech recognition for a given speech level. Its accuracy is provided by the corresponding confidence interval for percentage scores. In contrast, adaptive methods such as the Oldenburg sentence test (OLSA, <TextLink reference="15"></TextLink>) or the G&#246;ttingen sentence test <TextLink reference="16"></TextLink> determine the signal-to-noise ratio or speech level for a given speech recognition score of (mostly) 50&#37;, or even 80&#37; (Speech Recognition Threshold, SRT). The accuracy of the sentence tests in the SRT is given as approx. &#177;1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). For comparison, the confidence intervals for the percentage score <Mark2>p</Mark2> obtained from method 5 were converted into confidence intervals for the speech level <Mark2>L</Mark2>. For this purpose, the discrimination function given in <TextLink reference="18"></TextLink> was solved for the speech level:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 18</Mark1></Pgraph><Pgraph><ImgLink imgNo="33" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>For the level <Mark2>L</Mark2><Subscript>50</Subscript>  at <Mark2>p</Mark2>&#61;50&#37; and the slope <Mark2>s</Mark2><Subscript>50</Subscript> at this point, the median values <Mark2>L</Mark2><Subscript>50</Subscript>&#61;24.7 dB and <Mark2>s</Mark2><Subscript>50</Subscript>&#61;0.045&#47;dB given in <TextLink reference="11"></TextLink> were used.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Vergleich der Berechnungsmethoden</SubHeadline><Pgraph>Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt einen Vergleich der Methoden 1&#8211;5 f&#252;r das 95&#37;-Konfidenzintervall der zweiten Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript>  bei gegebenem Ergebnis f&#252;r die erste Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript>. Die Grenzen nach Methode 1, die auf dem gleichen Wortverstehen f&#252;r jedes Wort einer Liste beruht, liegen am weitesten au&#223;en, geben also das breiteste 95&#37;-Konfidenzintervall an. Durch die Einbeziehung unterschiedlichen Wortverstehens in den Methoden 2 und 3 werden die 95&#37;-Konfidenzintervalle schmaler, die Kurven liegen am weitesten innen. Im letzten Schritt wurde f&#252;r die Methoden 4 und 5 die Varianz der Testlisten ber&#252;cksichtigt, so dass die 95&#37;-Konfidenzintervalle wieder weiter au&#223;en liegen und nahezu mit Methode 1 zur Deckung kommen. Zwischen den Ergebnissen der Berechnungsvarianten nach <TextLink reference="5"></TextLink> und <TextLink reference="12"></TextLink> bestehen nur geringe Unterschiede. Dies zeigen die Vergleiche der Grenzen aus den Methoden 2 und 3 sowie aus den Methoden 4 und 5.</Pgraph><Pgraph>Trefferraten des FBE sind bei 20 W&#246;rtern pro Liste nur in Abst&#228;nden von 5&#37; m&#246;glich. Deshalb ist es sinnvoll, die Grenzen der 95&#37;-Konfidenzintervalle konservativ auf Vielfache von 5&#37; zu runden. Diese Grenzen f&#252;r <Mark2>n</Mark2>&#61;20 sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> angegeben. In Tab. A. 1 im Anhang 1 <AttachmentLink attachmentNo="1"/> befinden sich die entsprechenden Grenzen f&#252;r <Mark2>n</Mark2>&#61;40. Durch die Rundungen werden die Unterschiede zwischen den Methoden z.T. vergr&#246;&#223;ert. Sie betragen jedoch sowohl f&#252;r <Mark2>n</Mark2>&#61;20 als auch f&#252;r <Mark2>n</Mark2>&#61;40 h&#246;chstens 5&#37;. Die einzige Ausnahme davon ist die Differenz zwischen den Methode<TextGroup><PlainText>n 1</PlainText></TextGroup> und 3 bei <Mark2>p</Mark2>&#61;75&#37; f&#252;r die untere Grenze und <Mark2>p</Mark2>&#61;25&#37; f&#252;r die obere Grenze bei<Mark2> n</Mark2>&#61;20. Die Differenz nimmt hier einen Wert von 10&#37; an.</Pgraph><Pgraph>F&#252;r die Methoden 4 und 5 sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> und Tab. A<TextGroup><PlainText>. 1</PlainText></TextGroup> im Anhang 1 <AttachmentLink attachmentNo="1"/> zwei Varianten angegeben. Bei der Einbeziehung von allen 20 Listen (Bezeichnungen 4 bzw. 5) wurde <Mark2>&#241;</Mark2>&#61;21,4 verwendet (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Durch Streichen der Listen 5, 11, 12 und 15, d.h. nur mit 16 Listen, erh&#246;ht sich die effektive Listenl&#228;nge auf <Mark2>&#241;</Mark2>&#61;24,4. Die entsprechenden Grenzen sind in den Spalten 4&#47;16 bzw. 5&#47;16 angegeben. Durch das Weglassen der vier Listen reduziert sich die Varianz der Testlisten, so dass die 95&#37;-Konfidenzintervalle etwas schmaler werden.</Pgraph><SubHeadline>Vergleich mit Messdaten</SubHeadline><Pgraph>Die prozentualen Anteile der Messergebnisse au&#223;erhalb der 95&#37;-Konfidenzintervalle sind in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> angegeben. Das Ziel, dass 5&#37; der Messdaten au&#223;erhalb des Konfidenzintervalls liegen sollten, wird von Methode 1 sowohl f&#252;r Normalh&#246;rende (NH) als auch f&#252;r Schwerh&#246;rige (SH) und bei Verwendung von 20 oder 40 W&#246;rtern pro Liste ann&#228;hernd erreicht. Jedoch ber&#252;cksichtigt Methode 1 weder die Unterschiede im Verstehen der W&#246;rter noch diejenigen zwischen den Testlisten und &#252;bersch&#228;tzt tendenziell die Breite des Konfidenzintervalls. F&#252;r die Methoden 2 und 3, die die Unterschiede im Wortverstehen ber&#252;cksichtigen, liegen ca. 9&#37; der Messwerte au&#223;erhalb des 95&#37;-Konfidenzintervalls. Die angegebenen Grenzen sind also zu schmal. Die Methoden 4 und 5 ber&#252;cksichtigen im Gegensatz zu den Methoden 2 und 3 die Variabilit&#228;t der Testlisten und erreichen das 5&#37;-Ziel in den verschiedenen Messdatenvarianten f&#252;r alle 20 Testlisten bis auf eine maximale Abweichung von 0,5&#37; und f&#252;r die 16 Testlisten bis auf eine maximale Abweichung von 1,1&#37; f&#252;r Schwerh&#246;rige mit Doppellisten. </Pgraph><Pgraph>Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> zeigt die Messdaten zusammen mit den kritischen Differenzen nach Methode 5. F&#252;r eine Trefferrate von 50&#37; liegt das 95&#37;-Konfidenzintervall zwischen 25&#37; und 75&#37; (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>, Spalten &#8222;5&#8220;). Bei Verwendung von Doppellisten (<Mark2>n</Mark2>&#61;40) reduziert sich das 95&#37;-Konfidenzintervall auf den Bereich zwischen 30&#37; und 70&#37; (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 1, Spalten &#8222;5&#8220;).</Pgraph><SubHeadline>Einseitige Fragestellung</SubHeadline><Pgraph>Im Anhang 1 <AttachmentLink attachmentNo="1"/> sind in Tab. A. 2 und Tab. A. 3 die gerundeten 90&#37;-Konfidenzintervalle f&#252;r <Mark2>n</Mark2>&#61;20 und <Mark2>n</Mark2>&#61;40 f&#252;r alle Methoden angegeben. Den Prozentsatz der Daten au&#223;erhalb dieser Konfidenzintervalle f&#252;r NH und SH f&#252;r alle Varianten zeigt Tabelle 4 <ImgLink imgNo="4" imgType="table"/>. Das Kriterium f&#252;r die G&#252;te der Berechnungsmethode ist hierbei, dass 10&#37; der Daten au&#223;erhalb des berechneten Konfidenzintervalls liegen. Die Ergebnisse entsprechen qualitativ denjenigen in <TextGroup><PlainText>Tabelle 1</PlainText></TextGroup>. <ImgLink imgNo="1" imgType="table"/> W&#228;hrend die Grenzen nach Methode 1 tendenziell zu breit sind, so dass weniger als 10&#37; der Daten au&#223;erhalb des 90&#37;-Konfidenzintervalls liegen, fassen die Methoden 2 und 3 das Intervall zu eng. Mit den Methoden 4 und 5 k&#246;nnen die Messergebnisse f&#252;r Normalh&#246;rende und Schwerh&#246;rige besser als mit den Methode<TextGroup><PlainText>n 2</PlainText></TextGroup> und 3 angen&#228;hert werden.</Pgraph><Pgraph>Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> zeigt entsprechend die Messdaten zusammen mit dem 90&#37;-Konfidenzintervall f&#252;r Methode 5. F&#252;r <Mark2>n</Mark2>&#61;20 umfasst das 90&#37;-Konfidenzintervall bei einer Trefferrate von 50&#37; nach Methode 5 den Bereich zwischen 30&#37; und 70&#37; (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 2). Bei Verwendung von Doppellisten (<Mark2>n</Mark2>&#61;40) reduziert sich das 90&#37;-Konfidenzintervall an dieser Stelle auf den Bereich zwischen 35&#37; und 65&#37; (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 3).</Pgraph><SubHeadline>Kritische Differenzen im Pegelbereich</SubHeadline><Pgraph>Zum Vergleich mit der Genauigkeit von Satztestverfahren sind in Tabelle 5 <ImgLink imgNo="5" imgType="table"/> die Grenzen der Konfidenzintervalle im Pegelbereich bei einem Sprachverstehen von 50&#37; und von 80&#37; f&#252;r einzelne Listen (<Mark2>n</Mark2>&#61;20) und Doppellisten (<Mark2>n</Mark2>&#61;40) angegeben. Die Konfidenzintervalle sind f&#252;r <Mark2>n</Mark2>&#61;40 schmaler im Vergleich zu <Mark2>n</Mark2>&#61;20 und f&#252;r das 90&#37;-Konfidenzintervall schmaler im Vergleich zum 95&#37;-Konfidenzintervall. Bei einem Sprachverstehen von 80&#37; sind die Konfidenzintervalle breiter als bei einem Sprachverstehen von 50&#37;. Die Breite der Konfidenzintervalle reicht von &#177;4,0 dB f&#252;r <Mark2>n</Mark2>&#61;40 bei einem Sprachverstehen von 50&#37; (90&#37;-Konfidenzintervall) bis zu &#177;11,3 dB f&#252;r <Mark2>n</Mark2>&#61;20 bei einem Sprachverstehen von 80&#37; (95&#37;-Konfidenzintervall). </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><SubHeadline>Comparison of calculation methods</SubHeadline><Pgraph>In a comparison of the results from methods 1&#8211;5, <TextGroup><PlainText>Figure 2</PlainText></TextGroup> <ImgLink imgNo="2" imgType="figure"/> shows the 95&#37; confidence interval of the second percentage score <Mark2>p</Mark2><Subscript>mess2</Subscript>  , given the value for the first percentage score <Mark2>p</Mark2><Mark2><Subscript>mess1</Subscript></Mark2>. The bounds from method 1, which are based on the same word recognition for each word in a test list, are farthest out, indicating the widest 95&#37; confidence interval. By including variable word recognition in methods 2 and 3, the 95&#37; confidence intervals become narrower, the curves are closest to the center. In method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5, the variability of the test lists was taken into account. Thus, the 95&#37; confidence intervals are again farther outside and almost coincide with those of <TextGroup><PlainText>method 1</PlainText></TextGroup>. There are only minor differences between the results of <TextLink reference="5"></TextLink> and <TextLink reference="12"></TextLink>. This is reflected in Figure 2, in which the bounds from methods 2 and 3, and from methods 4 and 5, lie close together. </Pgraph><Pgraph>Percentage scores of the FBE with 20 words per test list are possible only at intervals of 5&#37;. Therefore, it is useful to conservatively round the bounds of the calculated 95&#37; confidence intervals to multiples of 5&#37;. These bounds for <Mark2>n</Mark2>&#61;20 are given in Table 3 <ImgLink imgNo="3" imgType="table"/>. Tab. A. 1 in the <TextGroup><PlainText>Attachment 1 </PlainText></TextGroup><AttachmentLink attachmentNo="1"/>, contains the corresponding bounds for<Mark2> n</Mark2>&#61;40. The rounding partially increases the differences between the methods. However, the differences are at most 5&#37; for both <Mark2>n</Mark2>&#61;20 and <Mark2>n</Mark2>&#61;40. The only exception is the difference between methods 1 and 3 at <Mark2>p</Mark2>&#61;75&#37; for the lower bound and <Mark2>p</Mark2>&#61;25&#37; for the upper bound at <Mark2>n</Mark2>&#61;20, where the difference is 10&#37;.</Pgraph><Pgraph>For methods 4 and 5, two variants are given in Table 3 <ImgLink imgNo="3" imgType="table"/> and Tab. A. 1 in the Attachment 1 <AttachmentLink attachmentNo="1"/>. When including all 20 test lists (designations 4 and 5), <Mark2>&#241;</Mark2>&#61;21.4 was used (see <TextGroup><PlainText>Table 2</PlainText></TextGroup> <ImgLink imgNo="2" imgType="table"/>). By omitting lists 5, 11, 12, and 15, i.e. with only 16 test lists, the effective list length increases to <Mark2>&#241;</Mark2>&#61;24.4. The corresponding bounds are given in columns 4&#47;16 and 5&#47;16. Omitting these four test lists reduces the variance of the test lists, and, consequently, the 95&#37; confidence intervals become somewhat narrower.</Pgraph><SubHeadline>Comparison with measurement data</SubHeadline><Pgraph>The percentages of the measurements outside the 95&#37; confidence intervals are given in Table 1 <ImgLink imgNo="1" imgType="table"/>. The goal that 5&#37; of the measurement data should be outside the confidence interval is closely approached by method 1 for both normal hearing (NH) and hearing-impaired (HI) participants and when using 20 or 40 words per test list. However, method 1 does not take into account the differences in word recognition, nor those among test lists, and thus tends to overestimate the width of the confidence interval. For methods 2 and 3, which account for differences in word recognition, approximately 9&#37; of the measurements are outside the 95&#37; confidence interval. The specified bounds are therefore too narrow. Method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5, in contrast to methods 2 and 3, take the variability of the test lists into account and achieve the 5&#37; target in the various measurement data variants for all 20 test lists up to a maximum deviation of 0.5&#37;, and for the <TextGroup><PlainText>16 test</PlainText></TextGroup> lists up to a maximum deviation of 1.1&#37; for the hearing-impaired participants with double test lists.</Pgraph><Pgraph>Figure 3 <ImgLink imgNo="3" imgType="figure"/> shows the measurement data, together with the critical differences according to method 5. For a percentage score of 50&#37;, the 95&#37; confidence interval lies between 25&#37; and 75&#37; (see Table 3 <ImgLink imgNo="3" imgType="table"/>, columns &#8222;5&#8220;). When double test lists are used (<Mark2>n</Mark2>&#61;40), the 95&#37; confidence interval is reduced to 30 &#37; and 70 &#37; (see Tab. A. 1, columns &#8222;5&#8220; in the Attachment 1 <AttachmentLink attachmentNo="1"/>).</Pgraph><SubHeadline>One-sided test</SubHeadline><Pgraph>In the Attachment 1 <AttachmentLink attachmentNo="1"/>, Tab. A. 2 and Tab. A. 3 show the rounded 90&#37; confidence intervals for <Mark2>n</Mark2>&#61;20 and <Mark2>n</Mark2>&#61;40 for all methods. The percentage of data outside of these confidence intervals for NH and HI for all variants is shown in Table 4 <ImgLink imgNo="4" imgType="table"/>. The criterion for the quality of the calculation method is that 10&#37; of the data lies outside the calculated confidence interval. The results are qualitatively similar to those in Table 1 <ImgLink imgNo="1" imgType="table"/>. While the bounds according to method 1 tend to be too wide, leading to less than 10&#37; of the data outside the 90&#37; confidence interval, method<TextGroup><PlainText>s 2</PlainText></TextGroup> and 3 make the interval too narrow. The measurement results for normal hearing and hearing impaired participants can be better approximated using the method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5 than when using the methods 2 and 3.</Pgraph><Pgraph>Figure 4 <ImgLink imgNo="4" imgType="figure"/> shows the measured data together with the 90&#37; confidence interval for metho<TextGroup><PlainText>d 5</PlainText></TextGroup>. According to method 5 and for <Mark2>n</Mark2>&#61;20, the 90&#37; confidence interval at a hit rate of 50&#37; covers the range between 30&#37; and 70&#37; (see Tab. A. 2 in the Attachment 1 <AttachmentLink attachmentNo="1"/>). When using double test lists (<Mark2>n</Mark2>&#61;40), the 90&#37; confidence interval at this point is reduced and ranges between 35&#37; and 65&#37; (see Tab. A. 3 in the Attachment 1 <AttachmentLink attachmentNo="1"/>).</Pgraph><SubHeadline>Critical differences in the level domain</SubHeadline><Pgraph>For comparison with the accuracy of sentence tests, <TextGroup><PlainText>Table 5</PlainText></TextGroup> <ImgLink imgNo="5" imgType="table"/> shows the limits of the confidence intervals transformed to the level domain with a speech recognition score of 50&#37; and of 80&#37; for single test lists (<Mark2>n</Mark2>&#61;20) and for double test lists (<Mark2>n</Mark2>&#61;40). The confidence intervals are narrower for <Mark2>n</Mark2>&#61;40 compared to <Mark2>n</Mark2>&#61;20, and narrower for the 90&#37; confidence interval compared to the 95&#37; <TextGroup><PlainText>confidence</PlainText></TextGroup> interval. With 80&#37; speech-recognition rate, confidence intervals are wider than for a speech recognition rate of 50&#37;. The width of the confidence intervals ranges from &#177;4.0 dB for <Mark2>n</Mark2>&#61;40 with a speech recognition rate of 50&#37; (90&#37; confidence interval) to &#177;11.3 dB for <Mark2>n</Mark2>&#61;20 with a speech recognition rate of 80&#37; (95&#37; confidence interval). </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Mit der Annahme eines Bernoulli-Experiments f&#252;r das Sprachverstehen mit unterschiedlichem Wortverstehen innerhalb der Testlisten wurden mit Hilfe der verallgemeinerten Binomialverteilung die 90&#37;- und die 95&#37;-Konfidenzintervalle modelliert. Die Methoden von Thornton und Raffin <TextLink reference="5"></TextLink> und Altman et al. <TextLink reference="12"></TextLink> f&#252;hrten dabei zu &#228;hnlichen Ergebnissen. Diese beiden Methoden wurden durch zus&#228;tzliche Ber&#252;cksichtigung der Testlistenvarianz erweitert. Damit erf&#252;llen sie die Kriterien, dass ca. 5&#37; bzw. 10&#37; der Messdaten au&#223;erhalb der Grenzen der berechneten Konfidenzintervalle liegen. </Pgraph><Pgraph>Je nach Variante (einzelne Listen oder Doppellisten, 90&#37;- oder 95&#37;-Konfidenzintervall, alle 20 oder nur 16 ausgew&#228;hlte Testlisten) haben die Konfidenzintervalle bei einer Trefferrate f&#252;r die erste Messung <Mark2>p</Mark2><Subscript>mess1</Subscript>&#61;50&#37; eine Breite von &#177;15&#37; bis &#177;25&#37;. Die Hilfsmittelrichtlinie <TextLink reference="4"></TextLink> fordert eine Verbesserung von mindestens 20 Prozentpunkten f&#252;r eine H&#246;rger&#228;teversorgung im Vergleich zur unversorgten Messung. Bei einer Trefferrate von <Mark2>p</Mark2><Subscript>mess1</Subscript>&#61;50&#37; f&#252;r die erste Messung ist eine Verbesserung um 20 Prozentpunkte in der zweiten Messung nur bei Nutzung von Doppellisten statistisch signifikant. Bei Verwendung von 20 W&#246;rtern pro Liste ist eine Erh&#246;hung der Trefferrate um 20 Prozentpunkte durch die H&#246;rger&#228;te statistisch nicht signifikant, da die Irrtumswahrscheinlichkeit f&#252;r die Entscheidung, dass durch die H&#246;rger&#228;te das Sprachverstehen verbessert wird, bei mehr als 5&#37; liegt. Damit aus einem Unterschied von 20 Prozentpunkten eine signifikante Verbesserung gefolgert werden kann, m&#252;sste sowohl die unversorgte als auch die versorgte Kondition mit Doppellisten ermittelt werden. Bei Verwendung von Einzellisten kann erst ab einer Trefferrate f&#252;r die erste Messung von 75&#37; eine Verbesserung um 20 Prozentpunkte in der zweiten Messung als signifikant unterschiedlich angesehen werden.</Pgraph><Pgraph>Zur Reduktion der Konfidenzgrenzen k&#246;nnte auf die Nutzung derjenigen vier Testlisten, die in Baljic et al. <TextLink reference="11"></TextLink> auff&#228;llig waren, verzichtet werden, sodass sich die Testlistenvarianz verringert. Allerdings besteht keine Gew&#228;hr daf&#252;r, dass bei SH, in anderen deutschsprechenden Regionen oder in anderen Messkonfigurationen (z.B. im St&#246;rger&#228;usch), die gleichen vier Testlisten zu auff&#228;llig abweichenden Trefferraten f&#252;hren. Ein Indiz f&#252;r Abweichungen in den auff&#228;lligen Testlisten k&#246;nnte sein, dass die aus den Messdaten der 16 ausgew&#228;hlten Listen f&#252;r die Gruppe der SH ermittelten Konfidenzintervallgrenzen tendenziell etwas zu weit gefasst sind, so dass geringf&#252;gig weniger als die angestrebten 5&#37; bzw. 10&#37; der Messdaten au&#223;erhalb der Konfidenzintervalle liegen. Auch bei Verwendung aller 20 Testlisten kann die Testlistenvarianz, die zur Modellierung aus den Messdaten der NH gewonnen wurde, bei verschiedenen Probandengruppen oder Messkonfigurationen unterschiedlich sein und zu schmaleren oder breiteren Konfidenzintervallen f&#252;hren. F&#252;r die Messdaten der SH konnte jedoch die Aussage von Dillon <TextLink reference="9"></TextLink> best&#228;tigt werden, dass SH die gleiche Test-Retest-Reliabilit&#228;t aufweisen wie Normalh&#246;rende.</Pgraph><Pgraph>Der Vergleich der Messergebnisse mit den modellierten Konfidenzgrenzen best&#228;tigt ebenfalls die Schlussfolgerung von Dillon <TextLink reference="9"></TextLink>, dass die Grenzen von Thornton und Raffin <TextLink reference="5"></TextLink> nach Methode 1, also bei Verwendung der einfachen Binomialverteilung, relativ gut die gemessene Test-Retest-Reliabilit&#228;t nachbilden k&#246;nnen. Diese Grenzen wurden bereits f&#252;r den FBE von Winkler und Holube <TextLink reference="7"></TextLink> f&#252;r <Mark2>n</Mark2>&#61;20 angegeben. Durch die Verwendung der allgemeinen Binomialverteilung bei den Methoden 2 und 3 werden die Konfidenzintervalle schmaler, nach Ber&#252;cksichtigung der Testlistenvarianz bei den Methoden 4 und 5 jedoch wieder breiter, so dass ann&#228;hernd die Grenzen von Methode 1 erreicht werden. Dabei ist jedoch zu ber&#252;cksichtigen, dass die von Dillon <TextLink reference="9"></TextLink> diskutierte Variabilit&#228;t zwischen den Probanden in der vorliegenden Untersuchung nicht integriert wurde. Ein m&#246;glicher Grund f&#252;r die Vernachl&#228;ssigbarkeit der Probandenvarianz k&#246;nnte der Vergleich mit Wiederholungsmessungen zum gleichen Termin sein, so dass nur die Kurzzeit-Reliabilit&#228;t f&#252;r Test und Retest &#252;berpr&#252;ft wurde. Diese vermutlich kleine intraindividuelle Varianz der Probanden innerhalb eines Termins liegt m&#246;glicherweise unterhalb der Testlistenvarianz, so dass sie hier vernachl&#228;ssigt werden kann. Nicht untersucht wurde die Reliabilit&#228;t &#252;ber einen l&#228;ngeren Zeitraum, d.h. &#252;ber mehrere Termine, die sich durch die variable Tagesform der Probanden &#228;ndern k&#246;nnte. Ein anderer Erkl&#228;rungsansatz f&#252;r die Vernachl&#228;ssigbarkeit der Probandenvarianz k&#246;nnte darin liegen, dass individuelle Unterschiede nicht gen&#252;gend ber&#252;cksichtigt wurden <TextLink reference="9"></TextLink>: Zur Modellierung der verallgemeinerten Binomialverteilung wurden nur die Mittelwerte im Sprachverstehen f&#252;r die einzelnen W&#246;rter verwendet. F&#252;r einzelne Probanden kann sich das Sprachverstehen der W&#246;rter noch deutlicher unterscheiden, so dass die Methoden 2 und 3 zu noch schmaleren Konfidenzintervallen f&#252;hren w&#252;rden. Dann w&#228;re eine zus&#228;tzliche Varianzquelle, z.B. die intraindividuelle Varianz, notwendig, um die zu den Messdaten passenden Konfidenzintervalle zu modellieren.</Pgraph><Pgraph>Zum Vergleich mit den Satztestverfahren wurden die Konfidenzintervalle von Methode 5 f&#252;r Trefferraten von 50&#37; und 80&#37; in Konfidenzintervalle f&#252;r den Sprachpegel transformiert. Bei Verwendung von Einzellisten (<Mark2>n</Mark2>&#61;20) bei einem Sprachverstehen von 50&#37; hat das 90&#37;-Konfidenzintervall eine Breite von &#177;6 dB. Das Konfidenzintervall f&#252;r den FBE ist damit wesentlich breiter als die Konfidenzintervalle f&#252;r die adaptiven Satzteste mit ca. &#177;1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). H&#246;rger&#228;te m&#252;ssten den Sprachpegel f&#252;r ein Sprachverstehen von 50&#37; um mehr als 6 dB verbessern, um einen signifikanten Effekt zu erzielen. Wenn das H&#246;rger&#228;t den Sprachpegel z.B. nur um 3 dB verbessern w&#252;rde, dann w&#252;rden die Satzteste zwar zu einem signifikanten Unterschied und damit zu einem Wirksamkeitsunterschied f&#252;hren, jedoch nicht der FBE. Dieses Ziel von einer Verbesserung um mehr als 6 dB erscheint f&#252;r das Sprachverstehen in Ruhe leicht erreichbar. Ob jedoch diese Anforderung auf eine Verbesserung von 6 dB im Signal-Rausch-Verh&#228;ltnis f&#252;r den FBE im St&#246;rger&#228;usch &#252;bertragen werden kann, ist noch ungekl&#228;rt. Im St&#246;rger&#228;usch werden zwar die gleichen Listen mit <Mark2>n</Mark2>&#61;20 bzw. <Mark2>n</Mark2>&#61;40 W&#246;rtern verwendet, die Varianz im Wortverstehen und im Listenverstehen kann sich jedoch von dem FBE in Ruhe unterscheiden, so dass sich abweichende Konfidenzgrenzen ergeben k&#246;nnen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>Modeling speech recognition as  a Bernoulli experiment,  with different word recognition scores within the test lists, the Poisson binomial distribution was used to calculate the 90&#37; and 95&#37; confidence intervals using different methods. The methods of Thornton and Raffin <TextLink reference="5"></TextLink> and Altman et al. <TextLink reference="12"></TextLink> led to similar results. These two methods were extended by additional consideration of the test-list variance. With this approach, the methods met the criteria that approximately 5&#37; and 10&#37; of the measured data are outside the limits of the calculated confidence intervals.</Pgraph><Pgraph>Depending on the variant (single or double test lists, 90&#37; or 95&#37; confidence interval, all 20 or only 16 selected test lists), the confidence intervals at a percentage score <Mark2>p</Mark2><Subscript>mess1</Subscript>&#61;50&#37; for the first measurement have a width of &#177;15&#37; to &#177;25&#37;. The guideline for assistive devices <TextLink reference="4"></TextLink> requires an improvement of at least 20 percentage points for a hearing-aid fitting compared to the unaided measurement. At a percentage score of <Mark2>p</Mark2><Subscript>mess1</Subscript>&#61;50&#37; for the first measurement, an improvement of 20 percentage points in the second measurement is only statistically significant if double test lists are used. When using 20 words per test list, an increase of the percentage score of 20 percentage points by hearing aids is not statistically significant, because the error probability for the decision that the hearing aids improve speech recognition is more than 5&#37;. For a significant improvement to be inferred from a difference of 20 percentage points, both the unaided and the aided condition would have to be determined using double test lists. When using single test lists, an improvement of 20 percentage points in the second measurement can only be regarded as significantly different for a percentage score of 75&#37; or above for the first measurement.</Pgraph><Pgraph>To narrow the confidence bounds, the four test lists that were conspicuous in Baljic et al. <TextLink reference="11"></TextLink> may be omitted. Thus, the test-list variance would be reduced. However, there is no guarantee that for HI, in other German-speaking regions, or in other measurement configurations (e.g., in background noise), the same four test lists would still be outliers. An indication for deviations in conspicuous test lists could be that the confidence-interval bounds determined from the measurement data of the 16 selected test lists for the group of HI tended to be too broad. Thus, slightly less than the targeted 5&#37; or 10&#37; of the measurement data lay outside the confidence intervals. Even if all 20 test lists were used, the test list variance obtained from NH measurement data for modeling may be different for different groups of listeners or measurement conditions, leading to narrower or wider confidence intervals. For the measurement data of HI, however, the statement of Dillon <TextLink reference="9"></TextLink>, that HI have the same test-retest reliability as NH, was confirmed.</Pgraph><Pgraph>A comparison of the measurement results with the modeled confidence bounds also confirmed the conclusion of Dillon <TextLink reference="9"></TextLink> that the bounds of Thornton und Raffin <TextLink reference="5"></TextLink> according to method 1, i.e. when using the simple binomial distribution, can mimic the measured test-retest reliability relatively well. These bounds had already been specified for the FBE by Winkler and Holube <TextLink reference="7"></TextLink> for <Mark2>n</Mark2>&#61;20. By using the Poisson binomial distribution in methods 2 and 3, however, the confidence intervals became narrower. After considering test-list variance in methods 4 and 5, widths became wider again, so that the limits of method 1 are approached. It should be noted, however, that the variability between the participants discussed by Dillon <TextLink reference="9"></TextLink> was not incorporated in the present study. A possible reason for the negligible variability of the participants could be that two measurements within the same session were compared. Therefore, only the short-term reliability for test and retest was examined. The probably small intra-individual variance of participants within one session may be below test-list variance and might have been negligible here. Reliability has not been studied over an extended period, i.e., over several sessions, so that changes due to the variables &#8220;physical and mental state&#8221; of the participants were not measured.  Another explanation for the negligibile variability between the participants could be that individual differences were not sufficiently considered <TextLink reference="9"></TextLink>: To apply the Poisson binomial distribution, only the mean speech-recognition values of each single word were used. In individual participants, speech recognition of the words may have differed even more clearly, and methods 2 and 3 would have led to even narrower confidence intervals. In that case, an additional source of variance, e.g., the intra-individual variance, would be necessary to model the confidence intervals matching the measurement data.</Pgraph><Pgraph>For comparison with the sentence tests, the confidence intervals obtained from method 5 for percentage scores of 50&#37; and 80&#37; were transformed to confidence intervals for speech level. Using single test lists (<Mark2>n</Mark2>&#61;20) with a speech recognition score of 50&#37;, the 90&#37; confidence interval has a width of &#177;6 dB. The confidence interval for the FBE is thus considerably wider than the confidence intervals for the adaptive sentence tests of about &#177;1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). Hearing aids would need to improve the speech level by more than 6 dB at a speech recognition score of 50&#37; in order to achieve a significant effect. For example, if the hearing aid only improved the speech level by 3 dB, then the sentence tests would result in a significant difference, and thus in a difference in efficacy, but not the FBE. The goal of an improvement of more than 6 dB appears to be easily achievable for speech recognition tests in quiet. However, whether this requirement can be transferred to an improvement by 6 dB in signal-to-noise ratio for FBE in noise is still unclear. Even if  the same lists with <Mark2>n</Mark2>&#61;20 and <Mark2>n</Mark2>&#61;40 words would be used in noise, the variance in word recognition and in test-list recognition may differ from the FBE in quiet, and, therefore, deviating confidence bounds may result.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Schlussfolgerungen">
      <MainHeadline>Schlussfolgerungen</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Kritische Differenzen k&#246;nnen allein aus der Anzahl der Messitems mit Methode 1 von Thornton und Raffin relativ gut abgesch&#228;tzt werden. </ListItem><ListItem level="1">Bei weiteren Kenntnissen &#252;ber den Sprachtest zur Verteilung des Verstehens einzelner Items und der Varianz der Testlisten bieten die Methoden 4 und 5 eine genauere Modellierung der Test-Retest-Reliabilit&#228;t.</ListItem><ListItem level="1">Bei Publikation von Sprachtestergebnissen sollten die Konfidenzintervallgrenzen immer mit angegeben werden. Dabei ist zu beachten, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt.</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusions">
      <MainHeadline>Conclusions</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Critical differences can be estimated relatively well solely from the number of measurement items, using method 1 proposed by Thornton und Raffin. </ListItem><ListItem level="1">With further knowlege about the speech test, i.e. the distribution of recognition of single items and the variance of test lists, methods 4 and 5 provide a more accurate model of the test-retest reliability. </ListItem><ListItem level="1">Confidence intervals should always be stated when publishing speech test results. It should also be noted whether a one-sided or a two-sided test was considered. </ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph><SubHeadline>Danksagung</SubHeadline><Pgraph>Die Untersuchungen wurden vom Promotionsprogramm Jade2Pro der Jade Hochschule sowie aus dem Projekt VIBHear mit Mitteln des Europ&#228;ischen Fonds f&#252;r regionale Entwicklung (EFRE) und Mitteln des Landes Niedersachsen gef&#246;rdert.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Notes">
      <MainHeadline>Notes</MainHeadline><SubHeadline>Competing interests</SubHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph><SubHeadline>Acknowledgement</SubHeadline><Pgraph>This analysis was funded by the doctoral program Jade2Pro of Jade University of Applied Sciences. Additional funds were provided by the European Regional Development Fund (ERDF-Project Innovation network for integrated, binaural hearing system technology &#91;VIBHear&#93;), together with funds from the State of Lower Saxony. <LineBreak></LineBreak>Manuscript language services were provided by <Hyperlink href="http:&#47;&#47;stels-ol.de&#47;">http:&#47;&#47;stels-ol.de&#47;</Hyperlink>.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Hahlbrock KH</RefAuthor>
        <RefTitle>Uber Sprachaudiometrie und neue W&#246;rterteste</RefTitle>
        <RefYear>1953</RefYear>
        <RefJournal>Arch Ohren Nasen Kehlkopfheilkd</RefJournal>
        <RefPage>394-431</RefPage>
        <RefTotal>Hahlbrock KH. Uber Sprachaudiometrie und neue W&#246;rterteste &#91;Speech audiometry and new word-tests&#93;. Arch Ohren Nasen Kehlkopfheilkd. 1953;162(5):394-431. DOI: 10.1007&#47;BF02105664</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;BF02105664</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Holube I</RefAuthor>
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Nolte-Holube R</RefAuthor>
        <RefTitle>Modellierung der Reliabilit&#228;t des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Z Audiol</RefJournal>
        <RefPage>6-17</RefPage>
        <RefTotal>Holube I, Winkler A, Nolte-Holube R. Modellierung der Reliabilit&#228;t des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung. Z Audiol. 2018;57(1):6-17.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Gemeinsamer Bundesausschuss</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Richtlinie des gemeinsamen Bundesausschusses &#252;ber die Verordnung von Hilfsmitteln in der vertrags&#228;rztlichen Versorgung. Hilfsmittelrichtlinie</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gemeinsamer Bundesausschuss. Richtlinie des gemeinsamen Bundesausschusses &#252;ber die Verordnung von Hilfsmitteln in der vertrags&#228;rztlichen Versorgung. Hilfsmittelrichtlinie. 2018 &#91;accessed 13. Dezember 2018&#93;. Available from https:&#47;&#47;www.g-ba.de&#47;downloads&#47;62-492-1666&#47;HilfsM-RL&#95;2018-07-19&#95;iK-2018-10-03.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.g-ba.de&#47;downloads&#47;62-492-1666&#47;HilfsM-RL&#95;2018-07-19&#95;iK-2018-10-03.pdf</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Thornton AR</RefAuthor>
        <RefAuthor>Raffin MJ</RefAuthor>
        <RefTitle>Speech-discrimination scores modeled as a binomial variable</RefTitle>
        <RefYear>1978</RefYear>
        <RefJournal>J Speech Hear Res</RefJournal>
        <RefPage>507-18</RefPage>
        <RefTotal>Thornton AR, Raffin MJ. Speech-discrimination scores modeled as a binomial variable. J Speech Hear Res. 1978 Sep;21(3):507-18. DOI: 10.1044&#47;jshr.2103.507</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1044&#47;jshr.2103.507</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Carney E</RefAuthor>
        <RefAuthor>Schlauch RS</RefAuthor>
        <RefTitle>Critical difference table for word recognition testing derived using computer simulation</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>J Speech Lang Hear Res</RefJournal>
        <RefPage>1203-9</RefPage>
        <RefTotal>Carney E, Schlauch RS. Critical difference table for word recognition testing derived using computer simulation. J Speech Lang Hear Res. 2007 Oct;50(5):1203-9. DOI: 10.1044&#47;1092-4388(2007&#47;084)</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1044&#47;1092-4388(2007&#47;084)</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Holube I</RefAuthor>
        <RefTitle>Test-Retest-Reliabilit&#228;t des Freiburger Einsilbertests</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>HNO</RefJournal>
        <RefPage>564-71</RefPage>
        <RefTotal>Winkler A, Holube I. Test-Retest-Reliabilit&#228;t des Freiburger Einsilbertests &#91;Test-retest reliability of the Freiburg monosyllabic speech test&#93;. HNO. 2016 Aug;64(8):564-71. DOI: 10.1007&#47;s00106-016-0166-2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00106-016-0166-2</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Steffens T</RefAuthor>
        <RefTitle>Test-Retest-Differenz der Regensburger Variante des OLKI-Reimtests im sprachsimulierenden St&#246;rger&#228;usch bei Kindern mit H&#246;rger&#228;ten</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Z Audiol</RefJournal>
        <RefPage>88-99</RefPage>
        <RefTotal>Steffens T. Test-Retest-Differenz der Regensburger Variante des OLKI-Reimtests im sprachsimulierenden St&#246;rger&#228;usch bei Kindern mit H&#246;rger&#228;ten. Z Audiol. 2006;45(3):88-99.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Dillon H</RefAuthor>
        <RefTitle>A quantitative examination of the sources of speech discrimination test score variability</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>Ear Hear</RefJournal>
        <RefPage>51-8</RefPage>
        <RefTotal>Dillon H. A quantitative examination of the sources of speech discrimination test score variability. Ear Hear. 1982 Mar-Apr;3(2):51-8. DOI: 10.1097&#47;00003446-198203000-00001</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;00003446-198203000-00001</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Hagerman B</RefAuthor>
        <RefTitle>Reliability in the determination of speech discrimination</RefTitle>
        <RefYear>1976</RefYear>
        <RefJournal>Scand Audiol</RefJournal>
        <RefPage>219-28</RefPage>
        <RefTotal>Hagerman B. Reliability in the determination of speech discrimination. Scand Audiol. 1976;5:219-28. DOI: 10.3109&#47;01050397609044991</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;01050397609044991</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Balji&#263; I</RefAuthor>
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Schmidt T</RefAuthor>
        <RefAuthor>Holube I</RefAuthor>
        <RefTitle>Untersuchungen zur perzeptiven &#196;quivalenz der Testlisten im Freiburger Einsilbertest</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>HNO</RefJournal>
        <RefPage>572-83</RefPage>
        <RefTotal>Balji&#263; I, Winkler A, Schmidt T, Holube I. Untersuchungen zur perzeptiven &#196;quivalenz der Testlisten im Freiburger Einsilbertest &#91;Evaluation of the perceptual equivalence of test lists in the Freiburg monosyllabic speech test&#93;. HNO. 2016 Aug;64(8):572-83. DOI: 10.1007&#47;s00106-016-0192-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00106-016-0192-0</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Newcombe RG</RefAuthor>
        <RefAuthor>Altman DG</RefAuthor>
        <RefTitle>Proportions and Their Differences</RefTitle>
        <RefYear>2000</RefYear>
        <RefBookTitle>Statistics with Confidence: Confidence Intervals and Statistical Guidelines</RefBookTitle>
        <RefPage>45-56</RefPage>
        <RefTotal>Newcombe RG, Altman DG. Proportions and Their Differences. In: Altman DG, Machin D, Bryant TN, Gardner MJ, editors. Statistics with Confidence: Confidence Intervals and Statistical Guidelines. 2nd Edition. London: British Medical Journal Books; 2000. p. 45-56.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Newcombe RG</RefAuthor>
        <RefTitle>Interval estimation for the difference between independent proportions: comparison of eleven methods</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>873-90</RefPage>
        <RefTotal>Newcombe RG. Interval estimation for the difference between independent proportions: comparison of eleven methods. Stat Med. 1998 Apr;17(8):873-90. DOI: 10.1002&#47;(sici)1097-0258(19980430)17:8&#60;873::aid-sim779&#62;3.0.co;2-i</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;(sici)1097-0258(19980430)17:8&#60;873::aid-sim779&#62;3.0.co;2-i</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Wilson EB</RefAuthor>
        <RefTitle>Probable Inference, the Law of Succession, and Statistical Interference</RefTitle>
        <RefYear>1927</RefYear>
        <RefJournal>J Am Stat Assoc</RefJournal>
        <RefPage>209-12</RefPage>
        <RefTotal>Wilson EB. Probable Inference, the Law of Succession, and Statistical Interference. J Am Stat Assoc. 1927;22(158):209-12. DOI: 10.1080&#47;01621459.1927.10502953</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;01621459.1927.10502953</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Wagener KC</RefAuthor>
        <RefAuthor>K&#252;hnel V</RefAuthor>
        <RefAuthor>Kollmeier B</RefAuthor>
        <RefTitle>Entwicklung und Evaluation eines Satztests f&#252;r die deutsche Sprache I: Design des Oldenburger Satztests</RefTitle>
        <RefYear>1999a</RefYear>
        <RefJournal>Z Audiol</RefJournal>
        <RefPage>4-15</RefPage>
        <RefTotal>Wagener KC, K&#252;hnel V, Kollmeier B. Entwicklung und Evaluation eines Satztests f&#252;r die deutsche Sprache I: Design des Oldenburger Satztests. Z Audiol. 1999a;38:4-15.</RefTotal>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Kollmeier B</RefAuthor>
        <RefAuthor>Wesselkamp M</RefAuthor>
        <RefTitle>Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>J Acoust Soc Am</RefJournal>
        <RefPage>2412-21</RefPage>
        <RefTotal>Kollmeier B, Wesselkamp M. Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment. J Acoust Soc Am. 1997 Oct;102(4):2412-21. DOI: 10.1121&#47;1.419624</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1121&#47;1.419624</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Wagener KC</RefAuthor>
        <RefAuthor>Brand T</RefAuthor>
        <RefTitle>Sentence intelligibility in noise for listeners with normal hearing and hearing impairment: influence of measurement procedure and masking parameters</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Int J Audiol</RefJournal>
        <RefPage>144-56</RefPage>
        <RefTotal>Wagener KC, Brand T. Sentence intelligibility in noise for listeners with normal hearing and hearing impairment: influence of measurement procedure and masking parameters. Int J Audiol. 2005 Mar;44(3):144-56. DOI: 10.1080&#47;14992020500057517</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;14992020500057517</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Brand T</RefAuthor>
        <RefAuthor>Kollmeier B</RefAuthor>
        <RefTitle>Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>J Acoust Soc Am</RefJournal>
        <RefPage>2801-10</RefPage>
        <RefTotal>Brand T, Kollmeier B. Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests. J Acoust Soc Am. 2002 Jun;111(6):2801-10. DOI: 10.1121&#47;1.1479152</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1121&#47;1.1479152</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Holube I</RefAuthor>
        <RefAuthor>Winkler A</RefAuthor>
        <RefAuthor>Nolte-Holube R</RefAuthor>
        <RefTitle>Modeling the reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution. Does the Freiburg monosyllabic speech test contain 29 words per list&#63;</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>GMS Z Audiol (Audiol Acoust)</RefJournal>
        <RefPage>Doc01</RefPage>
        <RefTotal>Holube I, Winkler A, Nolte-Holube R. Modeling the reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution. Does the Freiburg monosyllabic speech test contain 29 words per list&#63; GMS Z Audiol (Audiol Acoust). 2020;2:Doc01. DOI: 10.3205&#47;zaud000005</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;zaud000005</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="de">2de</MediaID>
          <MediaID language="en">2en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Aus dem Einzelwortverstehen ermittelte effektive W&#246;rterzahlen f&#252;r die Listenl&#228;ngen </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20 und </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;40. </Mark1><LineBreak></LineBreak>Wie in der rechten Spalte angezeigt, wurde die Berechnung von <Mark2>&#241;</Mark2> je einmal f&#252;r alle Listen des FBE durchgef&#252;hrt und je einmal ohne Ber&#252;cksichtigung der auff&#228;lligen Listen 5, 11, 12, 15. Der Parameter <Mark2>c</Mark2><Superscript>2</Superscript> aus der Gleichung 16 ist zus&#228;tzlich angegeben.</Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 2: Effective number of words calculated from the recognition of single words for the test-list lengths </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20 and </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;40</Mark1><LineBreak></LineBreak>As shown in the right column,  <Mark2>&#241;</Mark2> was calculated for all test lists of the Freiburg monosyllabic speech test and, additionally, with the exclusion of the outlier test lists 5, 11, 12, and 15. The parameter <Mark2>c</Mark2><Superscript>2</Superscript> from Equation 16 is also given.</Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="de">3de</MediaID>
          <MediaID language="en">3en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Grenzen der 95&#37;-Konfidenzintervalle f&#252;r die Trefferrate der zweiten Testliste </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess2</Subscript></Mark1><Mark1> bei gegebener Trefferrate f&#252;r die erste Testliste </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess1</Subscript></Mark1><Mark1> bei </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20. Die Grenzen ergeben sich nach den Methoden 1&#8211;5, siehe Text. Die genau berechneten Werte (siehe Abbildung 2) wurden in der Tabelle konservativ auf Vielfache von 5&#37; gerundet.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 3: Bounds of the 95&#37;-confidence interval for </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20  for the score of the second test list </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess2</Subscript></Mark1><Mark1> when the score of the first test list </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess1</Subscript></Mark1><Mark1> is given. The bounds were calculated with the methods 1&#8211;5 (see text). The precise values (see Figure 2) were conservatively rounded to multiples of 5&#37;.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Anzahl der verwendeten Datenpunkte und Prozentsatz der Daten au&#223;erhalb des berechneten 95&#37;-Konfidenzintervalls</Mark1><LineBreak></LineBreak> Angaben f&#252;r Normalh&#246;rende (NH) und Schwerh&#246;rige (SH) mit <Mark2>n</Mark2>&#61;20 und <Mark2>n</Mark2>&#61;40 W&#246;rtern pro Liste f&#252;r die Methoden 1&#8211;5</Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 1: Number of data points and percentage of data outside the calculated 95&#37;-confidence intervals</Mark1><LineBreak></LineBreak>Results for normal-hearing (NH) and hearing-impaired (HI) participants with <Mark2>n</Mark2>&#61;20 and <Mark1>n</Mark1>&#61;40 words per test list for the methods 1&#8211;5</Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="de">4de</MediaID>
          <MediaID language="en">4en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Anzahl der verwendeten Datenpunkte und Prozentsatz der Daten au&#223;erhalb des 90&#37;-Konfidenzintervalls</Mark1></Pgraph><Pgraph>Angaben f&#252;r Normalh&#246;rende (NH) und Schwerh&#246;rige (SH) mit <Mark2>n</Mark2>&#61;20 und <Mark2>n</Mark2>&#61;40 W&#246;rtern pro Liste f&#252;r die Methoden 1&#8211;5</Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 4: Number of data points and percentage of data outside the calculated 90&#37;-confidence intervals</Mark1></Pgraph><Pgraph>Results for normal-hearing (NH) and hearing-impaired (HI) participants with <Mark2>n</Mark2>&#61;20 and <Mark2>n</Mark2>&#61;40 words per test list for the methods 1&#8211;5</Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>5</MediaNo>
          <MediaID language="de">5de</MediaID>
          <MediaID language="en">5en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 5: Mit Gleichung 18 berechnete 95&#37;- und 90&#37;-Konfidenzintervalle in dB SPL f&#252;r Methode 5 f&#252;r </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20  und </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;40 bei Trefferraten von 50&#37; und 80&#37;</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 5: 95&#37; and 90&#37; confidence intervals in dB SPL from method 5 for </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20 and </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;40 for scores 50&#37; and 80&#37;, calculated with Equation 18</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>5</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="377" width="739">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Varianz der Testlistenmittelwerte der gemessenen Trefferrate als Funktion der Trefferrate </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Die Varianzen wurden zur besseren Vergleichbarkeit jeweils mit der Wortanzahl </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1> pro Liste multipliziert (siehe Gleichung 13). Die Symbole zeigen die Varianzen, die sich f&#252;r unterschiedliche Zusammenstellungen der W&#246;rter zu Listen ergeben. F&#252;r jede Zusammenstellung wurde der Mittelwert (10) der Trefferrate aller beteiligten W&#246;rter als Abszissenwert </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1> verwendet. Weil die Messwerte zu vier unterschiedlichen Pegeln geh&#246;ren, gruppieren sich die Symbole um die vier entsprechenden Trefferraten </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Die eingezeichneten Linien zeigen die angepassten Parabeln nach Gleichung 14. Zur Zuordnung der Zahlenwerte f&#252;r </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1> zu den Zusammenstellungen siehe Tabelle 2. Der Wert </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1>&#61;0,332 resultiert aus der Anpassung an die Varianz des Einzelwortverstehens (</Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;1) aller W&#246;rter.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Variance of the test-list mean values as a function of the score p. To improve comparability, the variances were multiplied by the number of words </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1> per test list (see Equation 13). The symbols show the variances for different combinations of words in test lists. For each combination, the mean score (10) of all words involved is used as the abscissa </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Since the scores belong to four different sound pressure levels, the symbols are grouped around the four respective mean scores </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. The plotted lines show the fitted parabolas according to Equation 14 To relate the values for </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1>  to the combinations, see Table 2. The value </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1>&#61;0.332 results from fitting to the variance of single-word recognition scores (</Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;1) of all words.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="518" width="567">
          <MediaNo>2</MediaNo>
          <MediaID language="de">2de</MediaID>
          <MediaID language="en">2en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Vergleich der 95&#37;-Konfidenzintervalle f&#252;r die Test-Retest-Reliabilit&#228;t f&#252;r Testlisten mit 20 W&#246;rtern (oben) und mit 40 W&#246;rtern (unten) bei Verwendung der f&#252;nf Berechnungsmethoden. Rechts ist jeweils der mittlere Bereich der linken Abbildungen f&#252;r einen besseren Vergleich vergr&#246;&#223;ert dargestellt. Schwarz: Methode 1, dunkelblau: Methode 2, magenta gestrichelt: Methode 3, rot gestrichelt: Methode 4, hellblau: Methode 5.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Comparison of the 95&#37;-confidence intervals for test-retest reliability for test lists with 20 words (top) and with 40 words (bottom) when applying the five calculation methods. To improve comparability, the right side shows an enlargement of the central sector of the left figures, respectively. Black: method 1, dark blue: method 2, magenta dashed: method 3, red dashed: method 4, light blue: method 5.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="479" width="567">
          <MediaNo>3</MediaNo>
          <MediaID language="de">3de</MediaID>
          <MediaID language="en">3en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Datenpunkte (blau) und 95&#37;-Konfidenzintervall (magenta) f&#252;r Testlisten mit 20 W&#246;rtern (oben) und mit 40 W&#246;rtern (unten) f&#252;r Normalh&#246;rende (links) und Schwerh&#246;rige (rechts) bei Verwendung von Methode 5 und zweiseitige Fragestellung.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Data points (blue) and 95&#37;-confidence interval (magenta) for test lists with 20 words (top) and with 40 words (bottom) for normal-hearing (left) and hearing-impaired (right) participants using method 5 and two-sided test.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="509" width="567">
          <MediaNo>4</MediaNo>
          <MediaID language="de">4de</MediaID>
          <MediaID language="en">4en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 4: Datenpunkte (blau) und 90&#37;-Konfidenzintervall (magenta) f&#252;r Testlisten mit 20 W&#246;rtern (oben) und mit 40 W&#246;rtern (unten) f&#252;r Normalh&#246;rende (links) und Schwerh&#246;rige (rechts) bei Verwendung von Methode 5 und einseitige Fragestellung.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 4: Data points (blue) and 90&#37;-confidence interval (magenta) for test lists with 20 words (top) and with 40 words (bottom) for normal-hearing (left) and hearing-impaired (right) participants using method 5 and one-sided test.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>4</NoOfPictures>
      </Figures>
      <InlineFigures>
        <Figure format="png" height="26" width="74">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <AltText language="de">F1_in text</AltText>
          <AltText language="en">F1_in text</AltText>
        </Figure>
        <Figure format="png" height="25" width="85">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <AltText language="de">F2_in text</AltText>
          <AltText language="en">F2_in text</AltText>
        </Figure>
        <Figure format="png" height="34" width="219">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <AltText language="de">F3_in text</AltText>
          <AltText language="en">F3_in text</AltText>
        </Figure>
        <Figure format="png" height="67" width="309">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <AltText language="de">F4_Gleichung 1</AltText>
          <AltText language="en">F4_Gleichung 1</AltText>
        </Figure>
        <Figure format="png" height="41" width="106">
          <MediaNo>5</MediaNo>
          <MediaID>5</MediaID>
          <AltText language="de">F5_in text a</AltText>
          <AltText language="en">F5_in text a</AltText>
        </Figure>
        <Figure format="png" height="33" width="106">
          <MediaNo>6</MediaNo>
          <MediaID>6</MediaID>
          <AltText language="de">F5_in text b</AltText>
          <AltText language="en">F5_in text b</AltText>
        </Figure>
        <Figure format="png" height="26" width="154">
          <MediaNo>7</MediaNo>
          <MediaID>7</MediaID>
          <AltText language="de">F6_in text</AltText>
          <AltText language="en">F6_in text</AltText>
        </Figure>
        <Figure format="png" height="33" width="114">
          <MediaNo>8</MediaNo>
          <MediaID>8</MediaID>
          <AltText language="de">F7_in text a</AltText>
          <AltText language="en">F7_in text a</AltText>
        </Figure>
        <Figure format="png" height="33" width="113">
          <MediaNo>9</MediaNo>
          <MediaID>9</MediaID>
          <AltText language="de">F7_in text b</AltText>
          <AltText language="en">F7_in text b</AltText>
        </Figure>
        <Figure format="png" height="43" width="466">
          <MediaNo>10</MediaNo>
          <MediaID language="de">10de</MediaID>
          <MediaID language="en">10en</MediaID>
          <AltText language="de">F8_Gleichung 2</AltText>
          <AltText language="en">F8_Gleichung 2</AltText>
        </Figure>
        <Figure format="png" height="44" width="461">
          <MediaNo>11</MediaNo>
          <MediaID language="de">11de</MediaID>
          <MediaID language="en">11en</MediaID>
          <AltText language="de">F9_Gleichung 3</AltText>
          <AltText language="en">F9_Gleichung 3</AltText>
        </Figure>
        <Figure format="png" height="43" width="145">
          <MediaNo>12</MediaNo>
          <MediaID>12</MediaID>
          <AltText language="de">F10_Gleichung 4</AltText>
          <AltText language="en">F10_Gleichung 4</AltText>
        </Figure>
        <Figure format="png" height="38" width="111">
          <MediaNo>13</MediaNo>
          <MediaID>13</MediaID>
          <AltText language="de">F11_in text a</AltText>
          <AltText language="en">F11_in text a</AltText>
        </Figure>
        <Figure format="png" height="35" width="35">
          <MediaNo>14</MediaNo>
          <MediaID>14</MediaID>
          <AltText language="de">F11_in text b</AltText>
          <AltText language="en">F11_in text b</AltText>
        </Figure>
        <Figure format="png" height="45" width="145">
          <MediaNo>15</MediaNo>
          <MediaID>15</MediaID>
          <AltText language="de">F12_Gleichung 5</AltText>
          <AltText language="en">F12_Gleichung 5</AltText>
        </Figure>
        <Figure format="png" height="47" width="239">
          <MediaNo>16</MediaNo>
          <MediaID>16</MediaID>
          <AltText language="de">F13_Gleichung 6</AltText>
          <AltText language="en">F13_Gleichung 6</AltText>
        </Figure>
        <Figure format="png" height="27" width="318">
          <MediaNo>17</MediaNo>
          <MediaID>17</MediaID>
          <AltText language="de">F14_Gleichung 7</AltText>
          <AltText language="en">F14_Gleichung 7</AltText>
        </Figure>
        <Figure format="png" height="27" width="318">
          <MediaNo>18</MediaNo>
          <MediaID>18</MediaID>
          <AltText language="de">F15_Gleichung 8</AltText>
          <AltText language="en">F15_Gleichung 8</AltText>
        </Figure>
        <Figure format="png" height="35" width="67">
          <MediaNo>19</MediaNo>
          <MediaID>19</MediaID>
          <AltText language="de">F16_in text</AltText>
          <AltText language="en">F16_in text</AltText>
        </Figure>
        <Figure format="png" height="51" width="304">
          <MediaNo>20</MediaNo>
          <MediaID>20</MediaID>
          <AltText language="de">F17_Gleichung 9</AltText>
          <AltText language="en">F17_Gleichung 9</AltText>
        </Figure>
        <Figure format="png" height="34" width="121">
          <MediaNo>21</MediaNo>
          <MediaID>21</MediaID>
          <AltText language="de">F18_in text</AltText>
          <AltText language="en">F18_in text</AltText>
        </Figure>
        <Figure format="png" height="67" width="68">
          <MediaNo>22</MediaNo>
          <MediaID>22</MediaID>
          <AltText language="de">F19_Gleichung 10</AltText>
          <AltText language="en">F19_Gleichung 10</AltText>
        </Figure>
        <Figure format="png" height="70" width="198">
          <MediaNo>23</MediaNo>
          <MediaID>23</MediaID>
          <AltText language="de">F20_Gleichung 11</AltText>
          <AltText language="en">F20_Gleichung 11</AltText>
        </Figure>
        <Figure format="png" height="70" width="255">
          <MediaNo>24</MediaNo>
          <MediaID>24</MediaID>
          <AltText language="de">F21_Gleichung 12</AltText>
          <AltText language="en">F21_Gleichung 12</AltText>
        </Figure>
        <Figure format="png" height="45" width="130">
          <MediaNo>25</MediaNo>
          <MediaID language="de">25de</MediaID>
          <MediaID language="en">25en</MediaID>
          <AltText language="de">F22_Gleichung 13</AltText>
          <AltText language="en">F22_Gleichung 13</AltText>
        </Figure>
        <Figure format="png" height="47" width="155">
          <MediaNo>26</MediaNo>
          <MediaID>26</MediaID>
          <AltText language="de">F23_Gleichung 14</AltText>
          <AltText language="en">F23_Gleichung 14</AltText>
        </Figure>
        <Figure format="png" height="44" width="240">
          <MediaNo>27</MediaNo>
          <MediaID>27</MediaID>
          <AltText language="de">F24_Gleichung 15</AltText>
          <AltText language="en">F24_Gleichung 15</AltText>
        </Figure>
        <Figure format="png" height="47" width="95">
          <MediaNo>28</MediaNo>
          <MediaID>28</MediaID>
          <AltText language="de">F25_Gleichung 16</AltText>
          <AltText language="en">F25_Gleichung 16</AltText>
        </Figure>
        <Figure format="png" height="24" width="16">
          <MediaNo>29</MediaNo>
          <MediaID>29</MediaID>
          <AltText language="de">F26_in text</AltText>
          <AltText language="en">F26_in text</AltText>
        </Figure>
        <Figure format="png" height="36" width="152">
          <MediaNo>31</MediaNo>
          <MediaID>31</MediaID>
          <AltText language="de">F27_in text</AltText>
          <AltText language="en">F27_in text</AltText>
        </Figure>
        <Figure format="png" height="44" width="139">
          <MediaNo>32</MediaNo>
          <MediaID>32</MediaID>
          <AltText language="de">F28_Gleichung 17</AltText>
          <AltText language="en">F28_Gleichung 17</AltText>
        </Figure>
        <Figure format="png" height="66" width="183">
          <MediaNo>33</MediaNo>
          <MediaID>33</MediaID>
          <AltText language="de">F29_Gleichung 18</AltText>
          <AltText language="en">F29_Gleichung 18</AltText>
        </Figure>
        <Figure format="png" height="23" width="53">
          <MediaNo>30</MediaNo>
          <MediaID>30</MediaID>
          <AltText language="de">F26-2_in text</AltText>
          <AltText language="en">F26-2_in text</AltText>
        </Figure>
        <NoOfPictures>33</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="zaud000007.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;1.pdf" size="182062" url="">1de</MediaID>
          <MediaID filename="zaud000007.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;1.pdf" size="181574" url="">1en</MediaID>
          <AttachmentTitle language="de">Anhang: Konfidenzintervalle</AttachmentTitle>
          <AttachmentTitle language="en">Appendix: Confidence intervals</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>1</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>