Modellierung und Verifizierung der Test-Retest-Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung

zaud000007 10.3205/zaud000007 urn:nbn:de:0183-zaud0000070 Originalarbeit Research Article Modellierung und Verifizierung der Test-Retest-Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung Modeling and verifying the test-retest reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution Holube Holube Inga I Prof. Dr.

Jade Hochschule, Institut für Hörtechnik und Audiologie, Ofener Str. 16/19, 26121 Oldenburg, Deutschland, Tel. +49-441-7708-3723Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, DeutschlandExzellenzcluster “Hearing4All”, Oldenburg, Deutschland

Jade University of Applied Sciences, Institute of Hearing Technology and Audiology, Ofener Str. 16/19, 26121 Oldenburg, Germany, Phone. +49-441-7708-3723Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, GermanyCluster of Excellence “Hearing4All”, Oldenburg, Germany

Inga.Holube@jade-hs.de author Winkler Winkler Alexandra A

Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland Exzellenzcluster “Hearing4All”, Oldenburg, Deutschland

Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany Cluster of Excellence “Hearing4All”, Oldenburg, Germany

author Nolte-Holube Nolte-Holube Ralph R

Institut für Hörtechnik und Audiologie, Jade Hochschule, Oldenburg, Deutschland

Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany

author German Medical Science GMS Publishing House

Düsseldorf

610 Freiburg monosyllabic test speech intelligibility binomial distribution test-retest reliability confidence Freiburger Einsilbertest Sprachverstehen Binomialverteilung Test-Retest-Reliabilität Konfidenz 20200327 germ engl This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 2628-9083 2 GMS Zeitschrift für Audiologie - Audiological Acoustics GMS Z Audiol (Audiol Acoust) 03 Die Test-Retest-Reliabilität des Freiburger Einsilbertests wurde mit verschiedenen Methoden modelliert und mit Messdaten von Probanden mit und ohne Hörbeeinträchtigung verglichen. Die Methoden bauen auf den Verfahren von Thornton und Raffin sowie Altman et al. auf. Sie berücksichtigen durch die Verwendung der verallgemeinerten Binomialverteilung die Unterschiede im Wortverstehen innerhalb der Testlisten und beinhalten die Varianz der Testlisten. Die Methoden ermöglichen die Bestimmung der Grenzen für die 90%- und 95%-Konfidenzintervalle bei Verwendung von Testlisten mit 20 Wörtern und von Doppellisten mit 40 Wörtern. Diese Grenzen wurden durch die Messdaten bestätigt. Bei einem Sprachverstehen von 50% sind die Konfidenzintervalle am breitesten. Dort hat für Testlisten mit 20 Wörtern das 90%-Konfidenzintervall eine Breite von ±20% bzw. ±6,0 dB und das 95%-Konfidenzintervall eine Breite von ±25% bzw. ±7,4 dB. Für die Hörgeräte-Anpasspraxis bedeutet dies, dass erst Unterschiede, die diese Spanne übersteigen, als signifikant unterschiedlich gewertet werden können. The test-retest reliability of the Freiburg monosyllabic speech test was modeled using different methods. The results were compared to measurements from listeners with and without hearing impairment. The methods are based on the models of Thornton and Raffin as well as Altman et al. Both papers took into account differences in word recognition within the test lists by applying the Poisson binomial distribution and included the variance of the test-list results. The methods allow calculating the bounds of the 90% and 95% confidence intervals when using test lists with 20 words and double lists with 40 words. The data in the current report confirm these bounds. The confidence intervals are broadest for speech recognition scores of 50%. At this score and for test lists with 20 words, the 90% confidence interval has a width of ±20%, corresponding to ±6.0 dB, and the 95% confidence interval has a width of ±25%, corresponding to ±7.4 dB. Thus when evaluating hearing-aid fittings, only differences exceeding this range can be regarded as significantly different. EinleitungIn Heft 1/2018 wurde die Modellierung der Reliabilität des Freiburger Einsilbertests (FBE) in Ruhe mit der verallgemeinerten Binomialverteilung vorgestellt , . Die Verwendung dieser Verteilung ermöglicht die Berücksichtigung der Unterschiede im Wortverstehen innerhalb einer Testliste. Dies führt zu einem kleineren Konfidenzintervall für die Messwerte als die Verwendung der einfachen Binomialverteilung, die für jedes Wort einer Liste die gleiche Erkennungswahrscheinlichkeit annimmt. Die Varianz der verallgemeinerten Binomialverteilung für Testlisten mit 20 Wörtern konnte durch die Varianz einer einfachen Binomialverteilung angenähert werden, die auf Testlisten mit 29 Wörtern mit gleichem Wortverstehen beruht.Die Untersuchungen bei Holube et al. , beschränken sich auf die Berechnung des 95%-Konfidenzintervalls für die Abweichung des Messwertes für eine Testliste vom wahren Wert und alternativ für die Abweichung des wahren Wertes von dem Messwert für eine Testliste. Die publizierten Konfidenzintervalle sind jedoch nicht für die Abschätzung der Test-Retest-Reliabilität oder bei Untersuchungen mit zwei Testlisten zum Vergleich von zwei Messbedingungen anwendbar. Genau dieser Fall liegt jedoch bei der Überprüfung von Hörgeräten oder anderen Therapiemaßnahmen vor. Das Ergebnis zweier Messungen (z.B. mit und ohne Hörgeräte), d.h. zweier Trefferraten, wird verglichen, und aus der Differenz der beiden Trefferraten wird der Erfolg der Maßnahme abgeleitet. In der Hilfsmittelrichtlinie wird z.B. mit dem FBE in Ruhe eine Verbesserung des Sprachverstehens von mindestens 20 Prozentpunkten mit Hörgeräten im Vergleich zur unversorgten Kondition gefordert.Thornton und Raffin berechneten das 95%-Konfidenzintervall für die Differenz zwischen zwei Messungen, indem sie die Trefferraten in eine Skala mit homogenen Varianzen für alle Testergebnisse transformierten und dann die Varianzen der zwei Testergebnisse addierten. Carney und Schlauch bestätigten im Wesentlichen die Ergebnisse dieser Methode durch einen anderen Ansatz. Sie berechneten die Varianz der Differenz zweier Trefferraten unter der Annahme binomialverteilter Testergebnisse. Für jeden Wert für die Trefferrate aus der ersten Messung berücksichtigten sie dabei alle möglichen Werte für die zweite Messung. Die Ergebnisse der Methode von Thornton und Raffin , die gleiches Verstehen aller 20 Wörter einer Testliste voraussetzt, wurden von Winkler und Holube basierend auf Steffens angegeben und mit Ergebnissen wiederholter Messungen verglichen. Dillon legte einerseits dar, dass bei Annahme der gleichen Wahrscheinlichkeit für das Verstehen jedes Wortes die Breite des 95%-Konfidenzintervalls für die Test-Retest-Kondition durch die Verwendung der Methode von Thornton und Raffin überschätzt wird, wenn die Testlisten gleich verständlich sind und sich die Probanden immer gleich verhalten. Diese Annahme wird durch die Analyse in Winkler und Holube gestützt, da nur 3,2% der Messdaten, d.h. weniger als die erwarteten 5% der Messdaten außerhalb des Konfidenzintervalls nach Thornton und Raffin lagen. Andererseits wies Dillon darauf hin, dass die Methode von Thornton und Raffin trotzdem zur Abschätzung des 95%-Konfidenzintervalls verwendet werden kann, da sich zwei Effekte gegenseitig aufheben: Bei Berücksichtigung unterschiedlichen Wortverstehens und Anwendung der verallgemeinerten Binomialverteilung nach Hagerman werden die 95%-Konfidenzintervalle schmaler. Durch intraindividuelle Variabilität (z.B. durch Aufmerksamkeitsschwankungen) vor allem bei einem größeren zeitlichen Abstand der Messungen werden sie jedoch wieder breiter. Als zusätzliche Varianzquelle weist Dillon auf mögliche Unterschiede zwischen den Testlisten hin. In der Sprachaudiometrie werden, im Gegensatz zu Winkler und Holube , im Allgemeinen nicht die gleichen Listen bei wiederholten Messungen verwendet. Das 95%-Konfidenzintervall für die Test-Retest-Reliabilität verbreitert sich bei Verwendung unterschiedlicher Testlisten infolge der unterschiedlichen mittleren Trefferraten der Testlisten.Für die vorliegende Analyse wurden die Messungen aus Baljic et al. und Holube et al. , die für jeden Probanden die Ergebnisse von fünf Testlisten bei jedem von vier Pegeln beinhalten, im Sinne eines Test-Retest-Experiments interpretiert und die Test-Retest-Reliabilität ausgewertet. Alle Messungen wurden innerhalb eines Termins durchgeführt, so dass lediglich die Kurzzeit-Test-Retest-Reliabilität untersucht wurde, nicht jedoch die Test-Retest-Reliablität über einen längeren Zeitraum, die nach Dillon vermutlich zu breiteren Konfidenzintervallen führen würde. Zum Vergleich mit den Messdaten wurden die Grenzen für das 95%- und das 90%-Konfidenzintervall mit verschiedenen Methoden modelliert. Die Methoden bauen auf der in Holube et al. , verwendeten verallgemeinerten Binomialverteilung auf und modellieren zusätzlich die Variabilität der Testlisten. Intraindividuelle Varianzen der Probanden wurden aufgrund der geringen zeitlichen Abstände zwischen den Messungen vernachlässigt. IntroductionIn issue 1/2018, modeling of the reliability of the Freiburg monosyllabic test (FBE) in quiet with the Poisson binomial distribution was presented , . The use of this distribution allows attention to differences in word recognition within a test list. This results in a smaller confidence interval for the measurement results than when using the simple binomial distribution that assumes the same probability of recognition for each word in a list. The variance of the Poisson binomial distribution for 20-word test lists could be approximated by the variance of a simple binomial distribution based on 29-word test lists with the same degree of word recognition.The studies in Holube et al. , were limited to the calculation of the 95% confidence interval for the deviation from the true value of the measured value for a test list and, alternatively, for the deviation of the true value from the measured value for a test list. However, the published confidence intervals are not applicable for estimating test-retest reliability or to studies with two test lists used to compare two measurement conditions. Exactly this case exists when verifying hearing aids or other therapeutic treatments. The results of two measurements (e.g., with and without hearing aids), i.e. two scores, are compared, and the success of the treatment is derived from the difference between the two scores. The guideline for assistive devices (Hilfsmittelrichtlinie in German) requires, e.g., for the FBE in quiet, an improvement in speech recognition of at least 20 percentage points with hearing aids as compared to the condition without hearing aids.Thornton and Raffin calculated the 95% confidence interval for the difference between two measurements by transforming the scores into a scale with homogeneous variance for all test results and then adding the variances of the two test results. Carney and Schlauch essentially confirmed the results of this method using a different approach. They calculated the variance of the difference between two scores assuming binomially distributed scores. For each value for the score from the first measurement, they considered all possible score values for the second measurement. Results using the method of Thornton and Raffin , which requires the same recognition probability for all 20 words of a test list, were given by Winkler and Holube based on Steffens and compared with results of repeated measurements.On the one hand, Dillon argued that if test lists are equally recognizable and the listeners always behave similarly, and assuming the same recognition probability for each word, the width of the 95% confidence interval for the test-retest condition is overestimated when using the method of Thornton and Raffin . This assumption is supported by the analysis in Winkler and Holube since only 3.2% of the measurement data, i.e. less than the expected 5%, were outside the confidence interval according to Thornton and Raffin . On the other hand, Dillon pointed out that Thornton and Raffin’s method can nevertheless be used to estimate the 95% confidence interval, since two effects cancel each other out: Considering different word recognition and applying the Poisson binomial distribution according to Hagerman , the 95% confidence intervals become narrower. By intra-individual variability (e.g., by attention fluctuations), especially with a longer time interval between the measurements, they become wider again. As an additional source of variance, Dillon pointed out possible differences among test lists. In speech audiometry, in contrast to Winkler and Holube , the same test lists are generally not used in repeated measurements. The 95% confidence interval for the test-retest reliability widens when using different test lists, due to the different mean scores of the test lists.For the present analysis, measurements from Baljic et al. and Holube et al. , , which for each subject included the results of five test lists at each of four levels, were interpreted in terms of a test-retest experiment, and the test-retest reliability was evaluated. All measurements were performed within one session. Therefore, only the short-term test-retest reliability was investigated, but not the test-retest reliability over a longer period of time that according to Dillon , would probably result in broader confidence intervals. For comparison with the measurement data, the bounds for the 95% and the 90% confidence intervals were modeled using different methods. The methods are based on the Poisson binomial distribution used in Holube et al. , . Additionally, the variabi</PlainText></TextGroup>lity of the test lists was modeled. Intra-individual variances of the participants were neglected due to the short time intervals between the measurements.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Methoden"> <MainHeadline>Methoden</MainHeadline><SubHeadline>Experimentelle Daten</SubHeadline><Pgraph>Die Messmethoden werden hier nur kurz zusammengefasst. Für eine ausführliche Beschreibung sei auf Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> verwiesen. </Pgraph><Pgraph>Bei 80 jungen Probanden mit normalem Hörvermögen (im Folgenden als Normalhörende bezeichnet), wurde das Sprachverstehen als Trefferrate für die Freiburger Einsilber in Ruhe bei vier Pegeln (17,5, 23,5, 29,5 und 35,5 dB SPL) mit jeweils fünf Testlisten à 20 Wörtern (<Mark2>n</Mark2>=20) bestimmt. Bei 40 älteren Probanden mit Hörbeeinträchtigung (im Folgenden als Schwerhörige bezeichnet) wurden bei sonst gleichem Verfahren die Pegel 65, 80, 90 und 95 dB SPL verwendet. In die Analyse wurden jedoch nur die Pegel 65 und 80 dB SPL einbezogen, da bei den beiden höheren Pegeln viele Trefferraten bei 100% lagen. Alle Messungen eines Probanden wurden innerhalb eines Termins durchgeführt.</Pgraph><Pgraph>Die fünf Testlisten-Trefferraten bei festem Pegel für jeden Probanden wurden als Test-Retest-Kombinationen in Paaren interpretiert. Die Paare setzten sich jeweils aus einer präsentierten Testliste und einer der danach präsentierten weiteren Testliste zusammen, d.h. (1; 2), (1<TextGroup><PlainText>; 3</PlainText></TextGroup>), (1; 4), (1; 5), (2; 3), (2; 4), (2; 5), (3; 4), (3; 5), (4; 5). Dadurch ergaben sich 3.200 Test-Retest-Paare für die Normalhörenden und 800 Test-Retest-Paare für die Schwerhörigen. Die Anzahl der Test-Retest-Paare verringerte sich, wenn die bei Baljic et al. <TextLink reference="11"></TextLink> auffälligen Testlisten ausgeschlossen wurden (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). In einer weiteren Variante wurden jeweils aus zwei Testlisten Doppellisten mit <Mark2>n</Mark2>=40 Wörtern gebildet. Für die Analyse der Test-Retest-Reliabilität wurden alle Doppellisten zu Test-Retest-Paaren kombiniert, so dass keine Einzelliste doppelt vorkam, d.h. (1+2; 3+4), (1+2; 3+5), (1+2; 4+5), (1+3; 2+4), (1+3; 2+5), (1+3; 4+5), (1+4; 2+3), (1+4; 2+5), (1+4; 3+5), (1+5; 2+3), (1+5; 2+4), (1+5; 3+4), (2+3; 4+5), (2+4; 3+5) und (2+5; 3+4). Daraus ergaben sich bei Verwendung aller Testlisten 4.800 Test-Retest-Paare für die Normalhörenden und 1.200 Test-Retest-Paare für die Schwerhörigen. Auch für diese Doppellisten wurden die nach <TextLink reference="11"></TextLink> auffälligen Testlisten als Variante ausgeschlossen (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><SubHeadline>Berechnungsmethoden</SubHeadline><Pgraph>Bei gegebener Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript> (Test) ist die Frage, in welchem kritischen Bereich die Retest-Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript> liegt, sodass die Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> bei zweiseitiger Fragestellung auf dem <Mark2>α</Mark2>=5%-Niveau gerade noch nicht signifikant von Null verschieden ist. Eine zweiseitige Fragestellung bedeutet dabei, dass die Retest-Trefferrate kleiner oder größer als die erste Trefferrate sein kann und 2,5% der Retest-Trefferraten unterhalb sowie 2,5% der Retest-Trefferraten oberhalb des 95%-Konfidenzintervalls um die erste Trefferrate liegen. Zur Berechnung des 95%-Konfidenzintervalls existieren in der Literatur unterschiedliche Methoden, von denen zwei (Thornton und Raffin <TextLink reference="5"></TextLink> und Altman et al. <TextLink reference="12"></TextLink>) in der vorliegenden Arbeit betrachtet werden. Beide Methoden werden zunächst reproduziert und dann für die vorliegenden Messdaten mit <Mark2>n</Mark2>=20 bzw. <Mark2>n</Mark2>=40 Worten pro Testliste (d.h. einfache Testlisten und Doppellisten) angewendet. Danach werden Modifikationen dieser Methoden vorgestellt, die die Variabilität des Einzelwortverstehens sowie die Variabilität des mittleren Verstehens der unterschiedlichen Testlisten berücksichtigen. </Pgraph><SubHeadline2>Methode 1: Kritische Differenzen nach Thornton und Raffin</SubHeadline2><Pgraph>Thornton und Raffin <TextLink reference="5"></TextLink> schlugen die Berechnung eines 95%-Konfidenzintervalls zur Beurteilung der Test-Retest-Reliabilität nach folgender Methode vor: Die Anzahl <Mark2>X</Mark2> richtiger Antworten bei <Mark2>n</Mark2> angebotenen Worten einer Liste wird als Zufallsgröße angesehen. Sie wird als binomialverteilt nach <Mark2>B(n,p,X=k)</Mark2> angenommen. Dabei ist <Mark2>p</Mark2> die Wahrscheinlichkeit dafür, dass ein Wort der Liste richtig verstanden wird. Hier und im Folgenden werden Wahrscheinlichkeiten in Prozent angegeben. Der Erwartungswert von <Mark2>X</Mark2> ist somit <Mark1><ImgLink imgNo="1" imgType="inlineFigure"/></Mark1>. Das Sprachverstehen in Prozent (Trefferrate) ist mit diesen Bezeichnungen die Zufallsgröße <Mark1><ImgLink imgNo="2" imgType="inlineFigure"/></Mark1>. Ihr Erwartungswert beträgt E(<Mark2>p</Mark2><Mark2><Subscript>mess</Subscript></Mark2>)=<Mark2>p</Mark2>, ihre Varianz ist <ImgLink imgNo="3" imgType="inlineFigure"/>. Diese Varianz nimmt ihr Maximum bei <Mark2>p</Mark2>=50% an. An den Rändern bei <Mark2>p</Mark2>=0 und <Mark2>p</Mark2>=100% ist die Varianz Null. </Pgraph><Pgraph>Für die Test-Retest-Reliabilität ist die Abschätzung eines Konfidenzintervalls für die Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> zweier Trefferraten von Interesse. Dazu werden die Zufallsgrößen <Mark2>X</Mark2><Subscript>1</Subscript> und <Mark2>X</Mark2><Subscript>2</Subscript> zunächst (nach Gleichung 3 in <TextLink reference="5"></TextLink>) gemäß Gleichung 1 in einen Winkelbereich <Mark2>θ</Mark2>(<Mark2>X,n</Mark2>) transformiert.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 1</Mark1></Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die so definierte Zufallsgröße<Mark2> θ </Mark2>hat näherungsweise eine von <Mark2>p</Mark2> unabhängige Varianz Var(<Mark2>θ</Mark2>). Thornton und Raffin <TextLink reference="5"></TextLink> wählten die Näherungen <ImgLink imgNo="5" imgType="inlineFigure"/> für <Mark2>n</Mark2>≥50 bzw. <ImgLink imgNo="6" imgType="inlineFigure"/> für 10<<Mark2>n</Mark2><50. Die beiden Zufallsgrößen <Mark2>θ</Mark2><Subscript>1</Subscript>=<Mark2>θ</Mark2>(<Mark2>X</Mark2><Subscript>1</Subscript>,<Mark2>n</Mark2>) und <Mark2>θ</Mark2><Subscript>2</Subscript>=<Mark2>θ</Mark2>(<Mark2>X</Mark2><Subscript>2</Subscript>,<Mark2>n</Mark2>) haben im Rahmen dieser Näherung die gleiche Varianz Var(<Mark2>θ</Mark2>). Unter der Annahme, dass <Mark2>θ</Mark2><Subscript>1</Subscript> und <Mark2>θ</Mark2><Subscript>2</Subscript> statistisch unabhängig sind, ist die Varianz der Zufallsgröße <Mark2>Δθ</Mark2>=<Mark2>θ</Mark2><Subscript>1</Subscript>–<Mark2>θ</Mark2><Subscript>2</Subscript> die Summe der Varianzen, also Var(<Mark2>Δ</Mark2>θ)=2Var(<Mark2>θ</Mark2>) . Für <Mark2>Δθ</Mark2> wird nun eine Normalverteilung mit der Varianz 2Var(<Mark2>θ</Mark2>) angenommen. Das 95%-Konfidenzintervall für <Mark2>θ</Mark2><Subscript>2</Subscript> bei einer Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript> ergibt sich somit zu <ImgLink imgNo="7" imgType="inlineFigure"/>. Die so berechneten <Mark2>θ</Mark2><Subscript>2</Subscript>-Grenzen des 95%-Konfidenzintervalls werden zu <Mark2>X</Mark2><Subscript>2</Subscript>-Grenzen zurücktransformiert, um dann die entsprechenden <TextGroup><Mark2>p</Mark2><Subscript>mess2</Subscript><PlainText> -Grenzen</PlainText></TextGroup> zu erhalten. </Pgraph><Pgraph>Bezeichnen also <ImgLink imgNo="8" imgType="inlineFigure"/> und <ImgLink imgNo="9" imgType="inlineFigure"/> die Trefferrate in der Test- und in der Retest-Messung, so kann diese Methode wie folgt zusammengefasst werden:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 2</Mark1></Pgraph><Pgraph><Mark1><ImgLink imgNo="10" imgType="inlineFigure"/></Mark1><LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak><Mark1>Gleichung 3</Mark1></Pgraph><Pgraph><ImgLink imgNo="11" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak>mit</Pgraph><Pgraph><Mark1>Gleichung 4</Mark1></Pgraph><Pgraph><ImgLink imgNo="12" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Diese Grenzen wurden für alle interessierenden Trefferraten <Mark2>p</Mark2><Subscript>mess1</Subscript> zwischen 0 und 100% berechnet. Die Berechnung der Umkehrfunktion <Mark2>X</Mark2>=<Mark2>θ</Mark2><Superscript>–1</Superscript>(<Mark2>θ, n</Mark2>) von Gleichung 1 erfolgte dabei numerisch. </Pgraph><SubHeadline2>Methode 2: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen</SubHeadline2><Pgraph>Sind die einzelnen Worte einer Liste unterschiedlich gut zu verstehen, genügt die gleiche Trefferwahrscheinlichkeit <Mark2>p</Mark2> für jedes Wort nicht mehr zur Beschreibung. Jedes Wort hat eine eigene Trefferwahrscheinlichkeit, und die Binomialverteilung wird durch die verallgemeinerte Binomialverteilung ersetzt <TextLink reference="10"></TextLink>. Um die Verschmälerung der Verteilung von <Mark2>X</Mark2> bei der verallgemeinerten Binomialverteilung gegenüber der einfachen Binomialverteilung zu berücksichtigen, soll nun in der Berechnung im <Mark2>θ</Mark2>-Bereich die Varianz von <Mark2>θ</Mark2> zu <ImgLink imgNo="13" imgType="inlineFigure"/> anstelle von <ImgLink imgNo="14" imgType="inlineFigure"/> angenommen werden. Der Wert für <Mark2>n'</Mark2> wurde aus <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> übernommen, also <Mark2>n'</Mark2>=29 für <Mark2>n</Mark2>=20 und <Mark2>n'</Mark2>=58 für <Mark2>n</Mark2>=40. Die Method<TextGroup><PlainText>e 2</PlainText></TextGroup> wird somit durch die Gleichung 2 und <TextGroup><PlainText>Gleichung 3</PlainText></TextGroup> mit <LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 5</Mark1></Pgraph><Pgraph><ImgLink imgNo="15" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>anstelle von Gleichung 4 beschrieben.</Pgraph><SubHeadline2>Methode 3: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen</SubHeadline2><Pgraph>Altman et al. <TextLink reference="12"></TextLink> empfehlen einen Ansatz, der der Methode 10 von <TextLink reference="13"></TextLink> entspricht. Diese Methode wird hier zunächst unverändert vorgestellt. Danach wird sie modifiziert, um die Variabilität des Wortverstehens innerhalb einer Liste zu berücksichtigen. </Pgraph><Pgraph>Liegt eine Trefferrate <Mark2>p</Mark2><Subscript>mess</Subscript> für eine einzelne Testliste vor, kann nach dem 95%-Konfidenzintervall für den wahren Wert <Mark2>p</Mark2> gefragt werden. Wilson <TextLink reference="14"></TextLink> machte dazu den folgenden Ansatz: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 6</Mark1></Pgraph><Pgraph><ImgLink imgNo="16" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit <Mark2>z</Mark2>=1,96. Dies ist eine quadratische Gleichung für <Mark2>p</Mark2>. Ihre beiden Lösungen <Mark2>u</Mark2> und <Mark2>o</Mark2> geben die untere bzw. die obere Grenze für das gesuchte Konfidenzintervall an (siehe <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>). Liegen zwei Trefferraten <Mark2>p</Mark2><Subscript>mess1</Subscript> und <Mark2>p</Mark2><Subscript>mess2</Subscript> vor, so ergeben sich die zugehörigen Untergrenzen <Mark2>u</Mark2><Subscript>1</Subscript> und <Mark2>u</Mark2><Subscript>2</Subscript> sowie die Obergrenzen <Mark2>o</Mark2><Subscript>1</Subscript> und <Mark2>o</Mark2><Subscript>2</Subscript>. Nach <TextLink reference="12"></TextLink> wird die Signifikanz der Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> wie folgt beurteilt: Wenn die erste Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript> größer ist als die zweite Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript>, dann muss die Differenz <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> der beiden Trefferraten größer sein als <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 7</Mark1></Pgraph><Pgraph><ImgLink imgNo="17" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>um auf dem 5%-Niveau signifikant unterschiedlich zu sein. Zur Berechnung des 95%-Konfidenzintervalls für die Differenz zwischen den beiden Trefferraten werden also die Varianz für die obere Trefferrate nach unten und die Varianz für die untere Trefferrate nach oben addiert. Für den anderen Fall, dass nämlich die zweite Trefferrate größer ist als die erste Trefferrate, muss die Differenz <Mark2>p</Mark2><Subscript>mess2</Subscript>–<Mark2>p</Mark2><Subscript>mess1</Subscript> entsprechend größer sein als<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 8</Mark1></Pgraph><Pgraph><ImgLink imgNo="18" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Dieses Verfahren liefert für jeden der interessierenden Werte von <Mark2>p</Mark2><Subscript>mess1</Subscript> zwischen 0 und 100 % ein 95%-Konfidenzintervall für die Differenz <Mark2>p</Mark2><Subscript>mess2</Subscript>–<Mark2>p</Mark2><Subscript>mess1</Subscript>. Bei gegebenem <Mark2>p</Mark2><Subscript>mess1</Subscript> (Test) liegt <Mark2>p</Mark2><Subscript>mess2</Subscript> (Retest) mit einer Wahrscheinlichkeit von 95% zwischen <Mark2>p</Mark2><Subscript>mess1</Subscript>–δ<Subscript>u</Subscript> und <Mark2>p</Mark2><Subscript>mess1</Subscript>+δ<Mark2><Subscript>o.</Subscript></Mark2> Die sechs Gleichungen, d.h. die Gleichungen für <Mark2>u</Mark2><Subscript>1</Subscript>, <Mark2>u</Mark2><Mark2><Subscript>2</Subscript></Mark2>, <Mark2>o</Mark2><Subscript>1</Subscript> und <Mark2>o</Mark2><Subscript>2</Subscript> sowie die Gleichung 7 und Gleichung 8, müssen für gegebenes <Mark2>p</Mark2><Subscript>mess1</Subscript> gelöst werden. Geschlossene Lösungen lassen sich nicht angeben, daher wurden sie numerisch durch Fixpunktiteration gelöst.</Pgraph><Pgraph>Die bisher beschriebene Berechnungsmethode geht von gleichem Einzelwortverstehen innerhalb einer Testliste aus. Die Variabilität des Einzelwortverstehens führt wie schon für Methode 2 beschrieben zu einer Verkleinerung der Varianz <ImgLink imgNo="19" imgType="inlineFigure"/> auf der rechten Seite von Gleichun<TextGroup><PlainText>g 6</PlainText></TextGroup>. Hier soll dies durch die Ersetzung von <Mark2>n</Mark2> durch <Mark2>n'</Mark2> berücksichtigt werden. Dabei wird der Wert für <Mark2>n'</Mark2> wieder aus <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> übernommen, also <Mark2>n'</Mark2>=29 anstelle von <Mark2>n</Mark2>=20 und <Mark2>n'</Mark2>=58 anstelle von <Mark2>n</Mark2>=40. </Pgraph><SubHeadline2>Methode 4: Kritische Differenzen nach Altmann et al. mit variablem Einzelwortverstehen und variablem Testlistenverstehen</SubHeadline2><Pgraph>Ausgehend von variablem Einzelwortverstehen unter gleichen Bedingungen variiert bei einem Sprachtest der Mittelwert zwischen den Testlisten aufgrund der unterschiedlichen Wortzusammensetzungen der Testlisten. Wäre für jede Testliste der Testlistenmittelwert unter gegebenen Messbedingungen genau ermittelbar, hätte dieser Mittelwert daher eine Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>. Diese hängt von der Anzahl <Mark2>n</Mark2> der Wörter pro Testliste sowie vom wahren Wert <Mark2>p</Mark2> ab. Die Varianz trägt zur Unsicherheit des wahren Wertes von <Mark2>p</Mark2> in Gleichung 6 bei. Wird also in dieser Gleichung sowohl das variable Einzelwortverstehen (Ersetzung von <Mark2>n</Mark2> durch <Mark2>n'</Mark2>) als auch das variable Testlistenverstehen (Addition von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> zur Varianz von <Mark2>p</Mark2>) berücksichtigt, wird der Ansatz von Gleichung 6 zu: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 9</Mark1></Pgraph><Pgraph><ImgLink imgNo="20" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit <Mark2>z</Mark2>=1,96. Wenn die Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> bekannt ist, können die weiteren Schritte der Methode nach <TextLink reference="12"></TextLink>, wie für Method<TextGroup><PlainText>e 3</PlainText></TextGroup> beschrieben, durchgeführt werden.</Pgraph><Pgraph>Zur Ermittlung von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> wird die Stichprobenvarianz der gemessenen Testlistenmittelwerte berechnet. Betrachtet werden <Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2> Testlisten aus je <Mark2>n</Mark2> Wörtern mit dem Einzelwortverstehen <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2>, <Mark2>i</Mark2>=1…<Mark2>n</Mark2>, <Mark2>j</Mark2>=1…<Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2>. Die Trefferrate der Testliste <Mark2>j</Mark2> ist damit der Mittelwert <ImgLink imgNo="21" imgType="inlineFigure"/> . Mit den über alle Wörter in allen Testlisten gemittelten Trefferraten<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 10</Mark1></Pgraph><Pgraph><ImgLink imgNo="22" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>ist dann <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> die Stichprobenvarianz der Testlistenmittelwerte gemäß: <LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleic</Mark1><Mark1>hung 11</Mark1></Pgraph><Pgraph><ImgLink imgNo="23" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die Varianz des Einzelwortverstehens ist<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 12</Mark1></Pgraph><Pgraph><ImgLink imgNo="24" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Zwischen der Varianz des Verstehens eines einzelnen Wortes und der Varianz der Mittelwerte aus <Mark2>n</Mark2> zufällig zu Testlisten zusammengestellten Einzelwörtern besteht die Beziehung<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 13</Mark1></Pgraph><Pgraph><ImgLink imgNo="25" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Die Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> zeigt, dass diese Beziehung im Mittel für zufällig aus den Wörtern des FBE zusammengestellte Testlisten mit <Mark2>n</Mark2>=1, 20, 40 erfüllt ist. Die dargestellten Varianzen wurden aus 10<Superscript>6</Superscript> Realisierungen von zufällig zusammengestellten Testlisten gemittelt. Sie zeigt aber auch, dass die Varianzen der konkreten Testlisten des FBE deutlich von dem mittleren Ergebnis einer zufälligen Wortzusammenstellung abweichen. Darüber hinaus zeigt Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> erwartungsgemäß, dass <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> in der Nähe von <Mark2>p</Mark2>=0% (fast kein Wort wird verstanden) und <Mark2>p</Mark2>=100% (fast alle Wörter werden verstanden) kleiner ist als im mittleren Bereich um <Mark2>p</Mark2>=50%. Der genaue Verlauf von <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> als Funktion von <Mark2>p</Mark2> ist nicht bekannt. Als Ansatz wird hier eine Parabel<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 14</Mark1></Pgraph><Pgraph><ImgLink imgNo="26" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit einem noch zu bestimmenden Parameter <Mark2>c</Mark2><Superscript>2</Superscript> gewählt, so dass sich Gleichung 9 als<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 15</Mark1></Pgraph><Pgraph><ImgLink imgNo="27" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>mit</Pgraph><Pgraph><Mark1>Gleichung 16</Mark1></Pgraph><Pgraph><ImgLink imgNo="28" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>schreiben lässt. Wird also in der Methode 3 die Gleichun<TextGroup><PlainText>g 6</PlainText></TextGroup> durch Gleichung 15 ersetzt, dann werden sowohl die Variabilität des Einzelwortverstehens als auch die Variabilität der Testlistenmittelwerte berücksichtigt.</Pgraph><Pgraph>Der Parameter <Mark2>c</Mark2><Superscript>2</Superscript> wurde aus dem gemessenen Einzelwortverstehen <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2> wie folgt berechnet. Für jeden der vier verwendeten Pegel werden der Mittelwert <ImgLink imgNo="29" imgType="inlineFigure"/> des Einzelwortverstehens nach Gleichung 10 und die Varianz <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> nach Gleichung 11 berechnet. Die Werte der vier Paare <ImgLink imgNo="30" imgType="inlineFigure"/> hängen von der Auswahl und von der Wortzusammenstellung der zugrunde liegenden Testlisten sowie von ihrer Länge <Mark2>n</Mark2> ab. An die vier Wertepaare <ImgLink imgNo="30" imgType="inlineFigure"/> wird nach der Methode der kleinsten Quadrate eine Parabel <ImgLink imgNo="31" imgType="inlineFigure"/> angepasst. Dies liefert den gesuchten Wert für <Mark2>c</Mark2><Superscript>2</Superscript>. Drei der so resultierenden Parabeln sind in der Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> eingezeichnet. Mit dem nun bekannten Wert für <Mark2>c</Mark2><Superscript>2</Superscript> wird die effektive Listenlänge <Mark2>ñ</Mark2> mit Hilfe von Gleichung 16 berechnet. Die Tabelle 2 <ImgLink imgNo="2" imgType="table"/> zeigt die Ergebnisse für <Mark2>n</Mark2>=20 und für <Mark2>n</Mark2>=40. Da der FBE 20 Wörter pro Liste hat, wurden für die Berechnungen mit <Mark2>n</Mark2>=40 alle Kombinationen aus Paaren unterschiedlicher Listen berücksichtigt.</Pgraph><SubHeadline2>Methode 5: Kritische Differenzen nach Thornton und Raffin mit variablem Einzelwortverstehen und variablem Listenverstehen</SubHeadline2><Pgraph>Durch die Berücksichtigung der Einzelwortvariabilität verringert sich die Varianz von Gleichung 4 zu Gleichun<TextGroup><PlainText>g 5</PlainText></TextGroup>. Es liegt also nahe, die Variabilität des Listenverstehens durch die Ersetzung von Gleichung 5 durch <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Gleichung 17</Mark1></Pgraph><Pgraph><ImgLink imgNo="32" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>zu modellieren. </Pgraph><SubHeadline>Kritische Differenzen bei einseitiger Fragestellung</SubHeadline><Pgraph>Bisher wurde das 95%-Konfidenzintervall bei zweiseitiger Fragestellung betrachtet. Bei der Anwendung des FBE in der Hörgeräteanpassung wird jedoch vorausgesetzt, dass Hörgeräte das Sprachverstehen verbessern, dass also bei der zweiten Messung (mit Hörgerät) eine höhere Trefferrate erreicht wird als bei der ersten Messung (ohne Hörgerät). Der statistische Test zur Ermittlung eines signifikanten Unterschieds zwischen den beiden Trefferraten würde dann untersuchen, ob die Irrtumswahrscheinlichkeit für die Hypothese, dass die zweite Trefferrate größer als die erste Trefferrate ist, kleiner als 5% ist. Das entspricht der Grenze des 90%-Konfidenzintervalls. Dies kann mit den gleichen fünf Methoden berechnet werden, indem <Mark2>z</Mark2>=1,96 durch <Mark2>z</Mark2>=1,645 ersetzt wird. Obwohl die Fragestellung einseitig ist, werden die Grenzen des 90%-Konfidenzintervalls für die zweite Trefferrate der Vollständigkeit halber symmetrisch um die erste Trefferrate angegeben.</Pgraph><SubHeadline>Kritische Differenzen im Pegelbereich</SubHeadline><Pgraph>Mit dem FBE wird das Sprachverstehen für einen gegebenen Sprachpegel bestimmt und das Konfidenzintervall für die Trefferraten angegeben. Die adaptiven Verfahren wie der Oldenburger Satztest (OLSA, <TextLink reference="15"></TextLink>) oder der Göttinger Satztest <TextLink reference="16"></TextLink> ermitteln dagegen das Signal-Rausch-Verhältnis oder den Sprachpegel für ein gegebenes Sprachverstehen von zumeist 50% oder auch 80% (Speech Recognition Threshold, SRT). Die Genauigkeit der Satzteste beim SRT wird mit ca. ±1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>) angegeben. Zum Vergleich wurden die mit Methode 5 berechneten Konfidenzintervalle für die Trefferrate <Mark2>p</Mark2> in Konfidenzintervalle für den Sprachpegel <Mark2>L</Mark2> umgerechnet. Dazu wurde die in <TextLink reference="18"></TextLink> gegebene Diskriminationsfunktion nach dem Sprachpegel aufgelöst:</Pgraph><Pgraph><Mark1>Gleichung 18</Mark1></Pgraph><Pgraph><ImgLink imgNo="33" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Für den Pegel<Mark2> L</Mark2><Subscript>50</Subscript> bei einer Trefferrate von 50% und die Steigung <Mark2>s</Mark2><Subscript>50</Subscript> in diesem Punkt wurden die in <TextLink reference="11"></TextLink> angegebenen medianen Werte<Mark2> L</Mark2><Subscript>50</Subscript>=24,7 dB und <Mark2>s</Mark2><Subscript>50</Subscript>=0,045/dB verwendet.</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Methods"> <MainHeadline>Methods</MainHeadline><SubHeadline>Experimental data</SubHeadline><Pgraph>The measurement methods are summarized here only briefly. For a detailed description refer to Holube et al. <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>In 80 young participants having normal hearing abilities (hereinafter named normal-hearing participants), speech recognition was determined as the percentage score for the Freiburg monosyllables in quiet and at four levels (17.5, 23.5, 29.5, and 35.5 dB SPL), with each of five test lists comprising 20 words (<Mark2>n</Mark2>=20). In 40 older participants with hearing impairment (hereinafter named hearing-impaired participants), the levels 65, 80, 90, and 95 dB SPL were used in the same procedure. However, only 65 and 80 dB SPL were included in the analysis, because at the two higher levels, many scores achieved 100%. All measurements of a given participant were performed within one session.</Pgraph><Pgraph>The five fixed-level test-list hit rates for each participant were interpreted as test-retest combinations in pairs. The pairs each consisted of a presented test list and another, subsequently presented, list, i.e. (1; 2), (1; 3), (1; 4), (1<TextGroup><PlainText>; 5</PlainText></TextGroup>), (2; 3), (2; 4), (2; 5), (3; 4), (3; 5), (4; 5). This resulted in 3,200 test-retest pairs for the normal-hearing and 800 test-retest pairs for the hearing-impaired participants. The number of test-retest pairs decreased when the conspicuous test lists of Baljic et al. <TextLink reference="11"></TextLink> were excluded (see Table 1 <ImgLink imgNo="1" imgType="table"/>). In another variant, two test lists each with double lists of <Mark2>n</Mark2>=40 words were formed. For the analysis of test-retest reliability, all double lists were combined into test-retest pairs so that no single list was duplicated, i.e. (1+2; 3+4), (1+2; 3+5), (1+2; 4+5), (1+3; 2+4), (1+3; 2+5), (1+3; 4+5), (1+4; 2+3), (1+4; 2+5), (1+4; 3+5), (1+5; 2+3), (1+5; 2+4), (1+5; 3+4), (2+3; 4+5), (2+4; 3+5), and (2+5; 3+4). This resulted in 4,800 test-retest pairs for the normal-hearing and 1,200 test-retest pairs for the hearing-impaired participants when all 20 test lists were used. As a variant, the conspicuous test lists of <TextLink reference="11"></TextLink> were also excluded for these double lists (see Table 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><SubHeadline>Calculation methods</SubHeadline><Pgraph>For a given percentage score <Mark2>p</Mark2><Subscript>mess1</Subscript> (test), the question was: In which critical range did the retest percentage score <Mark2>p</Mark2><Subscript>mess2</Subscript> lie, so that the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> for a two-sided test was not significantly different from zero at the <Mark2>α</Mark2>=5% level. A two-sided test means that the retest score may be less than or greater than the first score. Thus 2.5% of the retest scores are below and 2.5% of the retest scores are above the 95% confidence interval around the first score. Different methods exist in the literature for calculating the 95% confidence interval, two of which (Thornton and Raffin <TextLink reference="5"></TextLink> and Altman et al. <TextLink reference="12"></TextLink>) are considered in the current contribution. Both methods were first reproduced and then applied to the available measurement data with <Mark2>n</Mark2>=20 and <Mark2>n</Mark2>=40 words per test list (i.e. simple test lists and double lists). Afterwards, modifications of these methods are presented that took into account the variability of single word recognition, as well as the variability of the mean recognition of different test lists.</Pgraph><SubHeadline2>Method 1: Critical differences according to Thornton and Raffin</SubHeadline2><Pgraph>Thornton and Raffin <TextLink reference="5"></TextLink> proposed calculating a 95% confidence interval for the assessment of test-retest reliability by the following method: The number <Mark2>X</Mark2> of correct responses for <Mark2>n</Mark2> presented words in a test list is considered to be a random variable. It is assumed to be binomially distributed with <Mark2>B</Mark2>(<Mark2>n,p,X=k</Mark2>). Here p is the probability that one word in the list will be correctly recognized. Here and below, probabilities are given in percent. The expected value of <Mark2>X</Mark2> is thus <ImgLink imgNo="1" imgType="inlineFigure"/>. Speech recognition in percent (score) is the random variable <ImgLink imgNo="2" imgType="inlineFigure"/>. Its expected value is E(<Mark2>p</Mark2><Subscript>mess</Subscript>)=<Mark2>p</Mark2> and its variance is <ImgLink imgNo="3" imgType="inlineFigure"/>. This variance reaches its maximum at <Mark2>p</Mark2>=50%. At the borders <Mark2>p</Mark2>=0 and <Mark2>p</Mark2>=100%, the variance is zero.</Pgraph><Pgraph>For the test-retest reliability, estimating a confidence interval for the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> of two scores is of interest. For this purpose, the random variables <Mark2>X</Mark2><Subscript>1</Subscript> and <Mark2>X</Mark2><Subscript>2</Subscript> are first transformed (according to Equation 3 in <TextLink reference="5"></TextLink>) using Equation 1 to an angle <Mark2>θ</Mark2>(<Mark2>X,n</Mark2>).<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 1</Mark1></Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>The random variable <Mark2>θ </Mark2>thus defined has approximately a variance Var(<Mark2>θ</Mark2>) that is independent of <Mark2>p</Mark2>. Thornton and Raffin <TextLink reference="5"></TextLink> chose the approximations <ImgLink imgNo="5" imgType="inlineFigure"/> for n≥50 and <ImgLink imgNo="6" imgType="inlineFigure"/> for 10<<Mark2>n</Mark2><50. The two random variables <Mark2>θ</Mark2><Subscript>1</Subscript>=<Mark2>θ</Mark2>(<Mark2>X</Mark2><Subscript>1</Subscript>,<Mark2>n</Mark2>) and <Mark2>θ</Mark2><Subscript>2</Subscript>=<Mark2>θ(X</Mark2><Subscript>2</Subscript>,<Mark2>n</Mark2>) have the same variance Var(<Mark2>θ</Mark2>) within this approximation. Assuming that <Mark2>θ</Mark2><Subscript>1</Subscript> and <Mark2>θ</Mark2><Subscript>2</Subscript> are statistically independent, the variance of the random variable <Mark2>Δθ</Mark2>=<Mark2>θ</Mark2><Subscript>1</Subscript>–<Mark2>θ</Mark2><Subscript>2</Subscript> is the sum of the variances, i.e. Var(<Mark2>Δθ</Mark2>)=2Var(<Mark2>θ</Mark2>). For <Mark2>Δθ</Mark2>, a normal distribution with the variance 2Var(θ) is assumed. The 95% confidence interval for <Mark2>θ</Mark2><Subscript>2</Subscript> at the score <Mark2>p</Mark2><Subscript>mess1</Subscript> thus results in <ImgLink imgNo="7" imgType="inlineFigure"/>.The thus calculated <Mark2>θ</Mark2><Subscript>2</Subscript> bounds of the 95% confidence interval are transformed back to <Mark2>X</Mark2><Subscript>2</Subscript> bounds to obtain the <Mark2>p</Mark2><Subscript>mess2</Subscript> bounds. Thus, if <ImgLink imgNo="8" imgType="inlineFigure"/> and <ImgLink imgNo="9" imgType="inlineFigure"/> indicate the scores in the test and in the retest measurement, respectively, this method can be summarized as follows:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 2</Mark1></Pgraph><Pgraph><Mark1><ImgLink imgNo="10" imgType="inlineFigure"/></Mark1><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 3</Mark1></Pgraph><Pgraph><ImgLink imgNo="11" imgType="inlineFigure"/></Pgraph><Pgraph>with</Pgraph><Pgraph><Mark1>Equation 4</Mark1></Pgraph><Pgraph><ImgLink imgNo="12" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>These bounds were calculated for all scores <Mark2>p</Mark2><Subscript>mess1</Subscript> of interest between 0 and 100%. The inverse function <Mark2>X</Mark2>=<Mark2>θ</Mark2><Superscript>–1</Superscript>(<Mark2>θ,n</Mark2>) of Equation 1 was calculated numerically.</Pgraph><SubHeadline2>Method 2: Critical differences according to Thornton und Raffin, with variable word recognition</SubHeadline2><Pgraph>If the individual words of a test list are recognized differently, the same recognition probability <Mark2>p</Mark2> for each word is no longer sufficient for the description. Each word has its own recognition probability, and the binomial distribution is replaced by the Poisson binomial distribution <TextLink reference="10"></TextLink>. In order to consider the narrowing of the distribution of <Mark2>X</Mark2> in the Poisson binomial distribution relative to the simple binomial distribution, the variance of <Mark2>θ</Mark2> is now set to <ImgLink imgNo="13" imgType="inlineFigure"/> instead of <ImgLink imgNo="14" imgType="inlineFigure"/>. The value for <Mark2>n'</Mark2> is taken from <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, hence, <Mark2>n'</Mark2>=29 for <Mark2>n</Mark2>=20 and <Mark2>n'</Mark2>=58 for <Mark2>n</Mark2>=40. </Pgraph><Pgraph>Thus, method 2 is described by Equation 2 and Equation 3 together with<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 5</Mark1></Pgraph><Pgraph><ImgLink imgNo="15" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>instead of Equation 4.</Pgraph><SubHeadline2>Method 3: Critical differences according to Altmann et al., with variable word recognition</SubHeadline2><Pgraph>Altman et al. <TextLink reference="12"></TextLink> recommended an approach that corresponds to method 10 of <TextLink reference="13"></TextLink>. This method will initially be presented unchanged. Then it is modified to take into account the variability of word recognition within a test list.</Pgraph><Pgraph>If a percentage score <Mark2>p</Mark2><Subscript>mess</Subscript> for a single test list was measured, the 95% confidence interval for the true value <Mark2>p</Mark2> is in question. Wilson <TextLink reference="14"></TextLink> made the following approach:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 6</Mark1></Pgraph><Pgraph><ImgLink imgNo="16" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with <Mark2>z</Mark2>=1,96. This is a quadratic equation for <Mark2>p</Mark2>. Its solutions <Mark2>u</Mark2> and o specify the lower and upper bounds, respectively, of the required confidence interval (see <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>). If there are two hit rates <Mark2>p</Mark2><Subscript>mess1</Subscript> and <Mark2>p</Mark2><Subscript>mess2</Subscript>, then the associated lower bounds <Mark2>u</Mark2><Subscript>1</Subscript> and <Mark2>u</Mark2><Subscript>2</Subscript> and the upper bounds <Mark2>o</Mark2><Subscript>1</Subscript> and <Mark2>o</Mark2><Subscript>2</Subscript> result. According to <TextLink reference="12"></TextLink>, the significance of the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> is assessed as follows: If the first score <Mark2>p</Mark2><Subscript>mess1</Subscript> is greater than the second score <Mark2>p</Mark2><Subscript>mess2</Subscript>, then to be significantly different at the 5% level, the difference <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>p</Mark2><Subscript>mess2</Subscript> of the two scores must be larger than <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 7</Mark1></Pgraph><Pgraph><ImgLink imgNo="17" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>To calculate the 95% confidence interval for the difference between the two scores, the variance for the higher score is added downwards and the variance for the lower score is added upwards. For the other case, namely that the second score is larger than the first score, the difference <Mark2>p</Mark2><Subscript>mess2</Subscript>–<Mark2>p</Mark2><Subscript>mess1</Subscript> must be correspondingly larger than <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 8</Mark1></Pgraph><Pgraph><ImgLink imgNo="18" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>For each of the values of <Mark2>p</Mark2><Subscript>mess1</Subscript> of interest between 0 and 100%, this method provides a 95% confidence interval for the difference <Mark2>p</Mark2><Subscript>mess2</Subscript>–<Mark2>p</Mark2><Subscript>mess1</Subscript>. For a given <Mark2>p</Mark2><Subscript>mess1</Subscript> (test), the score <Mark2>p</Mark2><Subscript>mess2</Subscript> (retest) lies with a probability of 95% between <Mark2>p</Mark2><Subscript>mess1</Subscript>–<Mark2>δ</Mark2><Mark2><Subscript>u</Subscript></Mark2> and <Mark2>p</Mark2><Subscript>mess1</Subscript>+<Mark2>δ</Mark2><Mark2><Subscript>o</Subscript></Mark2>. The six equations, i.e. the equations for <Mark2>u</Mark2><Subscript>1</Subscript>, <Mark2>u</Mark2><Subscript>2</Subscript>, <Mark2>o</Mark2><Subscript>1</Subscript>, and <Mark2>o</Mark2><Subscript>2</Subscript> and the Equation 7 and Equation 8, must be solved for a given <Mark2>p</Mark2><Subscript>mess1</Subscript>. There is no closed solution. Therefore, the equations were solved numerically by fixed point iteration. </Pgraph><Pgraph>The calculation method described so far is based on the same single-word recognition within a test list. The variability of the single-word recognition leads to a reduction of the variance <Mark1><ImgLink imgNo="19" imgType="inlineFigure"/></Mark1> on the right side of Equation 6, as already described for method 2. This is now taken into account by replacing n by <Mark2>n'</Mark2>. The value for n' is taken again from <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, i.e. <Mark2>n'</Mark2>=29 instead of <Mark2>n</Mark2>=20 and <Mark2>n'</Mark2>=58 instead of <Mark2>n</Mark2>=40. </Pgraph><SubHeadline2>Method 4: Critical differences according to Altmann et al., with variable word recognition and variable test list recognition</SubHeadline2><Pgraph>Starting from variable single-word recognition under the same conditions, in a speech test, the mean scores of the lists vary due to different word compositions of lists. If the test-list mean value for each test list could be exactly determined under given measurement conditions, this mean value would have a variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>. This depends on the number <Mark2>n</Mark2> of words per test list and on the true value <Mark2>p</Mark2>. This variance contributes to the uncertainty of the true value of <Mark2>p</Mark2> in Equation 6. Thus, taking into account both variable single-word recognition (replacing <Mark2>n</Mark2> by <Mark2>n'</Mark2>) and variable test-list recognition (adding <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> to the variance of <Mark2>p</Mark2>), Equation 6 becomes: <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 9</Mark1></Pgraph><Pgraph><ImgLink imgNo="20" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with <Mark2>z</Mark2>=1,96. If the variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> is known, the further steps of the method according to <TextLink reference="12"></TextLink>, as described for metho<TextGroup><PlainText>d 3</PlainText></TextGroup>, can be carried out.</Pgraph><Pgraph>To determine <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2>, the sample variance of the measured test list mean values is calculated. <Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2> test lists of <Mark2>n</Mark2> words are considered with the single-word recognition <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2>, <Mark2>i</Mark2>=1…<Mark2>n</Mark2>, <Mark2>j</Mark2>=1…<Mark2>n</Mark2><Mark2><Subscript>L</Subscript></Mark2>. The percentage score of the test list <Mark2>j</Mark2> is thus the mean value <ImgLink imgNo="21" imgType="inlineFigure"/>. With the scores averaged over all words in all test lists <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 10</Mark1></Pgraph><Pgraph><ImgLink imgNo="22" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>the sample variance <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> of the test list means is:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 11</Mark1></Pgraph><Pgraph><ImgLink imgNo="23" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak><LineBreak></LineBreak>The variance of single-word recognition is<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 12 </Mark1></Pgraph><Pgraph><ImgLink imgNo="24" imgType="inlineFigure"/>. <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>The relationship between the variance of the recognition of a single word and the variance of the mean value of <Mark2>n</Mark2> words randomly assembled into test lists is <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 13</Mark1></Pgraph><Pgraph><ImgLink imgNo="25" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>Figure 1 <ImgLink imgNo="1" imgType="figure"/> shows that this relationship is satisfied for randomly composed test lists with <Mark2>n</Mark2>=1, 20, 40 from the words of the FBE. The variances shown were averaged out of 10<Superscript>6</Superscript> realizations of randomly assembled test lists. However, the variances of the specific test lists of the FBE deviate significantly from the average result of a random combination of words. In addition, Figure 1 <ImgLink imgNo="1" imgType="figure"/> shows, as expected, that <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> is smaller in the vicinity of <Mark2>p</Mark2>=0 (almost no word is understood) and <Mark2>p</Mark2>=100% (almost all words are understood) than it is in the middle range around <Mark2>p</Mark2>=50%. The exact dependence of <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> as a function of p is unknown. The approach chosen here is a parabola<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 14</Mark1></Pgraph><Pgraph><ImgLink imgNo="26" imgType="inlineFigure"/>,<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>with a parameter<Mark2> c</Mark2><Superscript>2</Superscript> to be determined. Thus Equation 9 can be written as<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 15</Mark1></Pgraph><Pgraph><ImgLink imgNo="27" imgType="inlineFigure"/><LineBreak></LineBreak><LineBreak></LineBreak> </Pgraph><Pgraph>with</Pgraph><Pgraph><Mark1>Equation 16</Mark1></Pgraph><Pgraph><ImgLink imgNo="28" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>If, in method 3, Equation 6 is replaced by Equation 15, then both the variability of the single-word recognition and the variability of the test-list mean values are taken into account.</Pgraph><Pgraph>The parameter <Mark2>c</Mark2><Superscript>2</Superscript> was calculated from the measured single-word recognition <Mark2>p</Mark2><Mark2><Subscript>ji</Subscript></Mark2> as follows. For each of the four levels used, the average <ImgLink imgNo="29" imgType="inlineFigure"/> of single-word recognition was calculated according to Equation 10 and the variance of <Mark2>f</Mark2><Mark2><Subscript>n</Subscript></Mark2><Mark2><Superscript>2</Superscript></Mark2> according to Equation 11. The values of the four pairs <ImgLink imgNo="30" imgType="inlineFigure"/> depend on the selection of the test lists and the word composition of the test lists and on the test-list length <Mark2>n</Mark2>. For the four pairs of values <ImgLink imgNo="30" imgType="inlineFigure"/>, a parabola <ImgLink imgNo="31" imgType="inlineFigure"/> was fitted according to the method of least squares. This yielded the value for <Mark2>c</Mark2><Superscript>2</Superscript>. Three of the resulting parabolas are shown in Figure 1 <ImgLink imgNo="1" imgType="figure"/>. With the now-known value of <Mark2>c</Mark2><Superscript>2</Superscript>, the effective list length <Mark2>ñ</Mark2> was calculated using Equation 16. Table 2 <ImgLink imgNo="2" imgType="table"/> shows the results for <Mark2>n</Mark2>=20 and for <Mark2>n</Mark2>=40. Since the FBE has 20 words per list, for calculations with <Mark2>n</Mark2>=40, all combinations of pairs of different lists were considered. </Pgraph><SubHeadline2>Method 5: Critical differences according to Thornton and Raffin, with variable word recognition and variable test-list recognition</SubHeadline2><Pgraph>To incorporate single-word variability, the variance in Equation 4 decreases to that in Equation 5. Consequently, the variability of test-list recognition is now included by replacing Equation 5 with <LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 17</Mark1></Pgraph><Pgraph><ImgLink imgNo="32" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><SubHeadline>Critical differences in a one-sided test</SubHeadline><Pgraph>So far, the 95% confidence interval has been considered for two-sided tests. However, when using the FBE in hearing-aid fitting, it is assumed that hearing aids improve speech recognition, i.e. that a higher score is achieved in the second measurement (with hearing aids) than in the first measurement (without hearing aids). <LineBreak></LineBreak>The statistical test for determining a significant difference between the two scores would then examine whether the error probability for the hypothesis that the second score is larger than the first score is less than 5%. This corresponds to the bounds of the 90% confidence interval and can be calculated using the same five methods by replacing <Mark2>z</Mark2>=1,96 with <Mark2>z</Mark2>=1,645. Although the problem is one-sided, for the sake of completeness, the limits of the 90% confidence interval for the second score are given symmetrically around the first score.</Pgraph><SubHeadline>Critical differences in the level domain</SubHeadline><Pgraph>The FBE determines speech recognition for a given speech level. Its accuracy is provided by the corresponding confidence interval for percentage scores. In contrast, adaptive methods such as the Oldenburg sentence test (OLSA, <TextLink reference="15"></TextLink>) or the Göttingen sentence test <TextLink reference="16"></TextLink> determine the signal-to-noise ratio or speech level for a given speech recognition score of (mostly) 50%, or even 80% (Speech Recognition Threshold, SRT). The accuracy of the sentence tests in the SRT is given as approx. ±1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). For comparison, the confidence intervals for the percentage score <Mark2>p</Mark2> obtained from method 5 were converted into confidence intervals for the speech level <Mark2>L</Mark2>. For this purpose, the discrimination function given in <TextLink reference="18"></TextLink> was solved for the speech level:<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph><Mark1>Equation 18</Mark1></Pgraph><Pgraph><ImgLink imgNo="33" imgType="inlineFigure"/>.<LineBreak></LineBreak><LineBreak></LineBreak></Pgraph><Pgraph>For the level <Mark2>L</Mark2><Subscript>50</Subscript> at <Mark2>p</Mark2>=50% and the slope <Mark2>s</Mark2><Subscript>50</Subscript> at this point, the median values <Mark2>L</Mark2><Subscript>50</Subscript>=24.7 dB and <Mark2>s</Mark2><Subscript>50</Subscript>=0.045/dB given in <TextLink reference="11"></TextLink> were used.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Ergebnisse"> <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Vergleich der Berechnungsmethoden</SubHeadline><Pgraph>Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt einen Vergleich der Methoden 1–5 für das 95%-Konfidenzintervall der zweiten Trefferrate <Mark2>p</Mark2><Subscript>mess2</Subscript> bei gegebenem Ergebnis für die erste Trefferrate <Mark2>p</Mark2><Subscript>mess1</Subscript>. Die Grenzen nach Methode 1, die auf dem gleichen Wortverstehen für jedes Wort einer Liste beruht, liegen am weitesten außen, geben also das breiteste 95%-Konfidenzintervall an. Durch die Einbeziehung unterschiedlichen Wortverstehens in den Methoden 2 und 3 werden die 95%-Konfidenzintervalle schmaler, die Kurven liegen am weitesten innen. Im letzten Schritt wurde für die Methoden 4 und 5 die Varianz der Testlisten berücksichtigt, so dass die 95%-Konfidenzintervalle wieder weiter außen liegen und nahezu mit Methode 1 zur Deckung kommen. Zwischen den Ergebnissen der Berechnungsvarianten nach <TextLink reference="5"></TextLink> und <TextLink reference="12"></TextLink> bestehen nur geringe Unterschiede. Dies zeigen die Vergleiche der Grenzen aus den Methoden 2 und 3 sowie aus den Methoden 4 und 5.</Pgraph><Pgraph>Trefferraten des FBE sind bei 20 Wörtern pro Liste nur in Abständen von 5% möglich. Deshalb ist es sinnvoll, die Grenzen der 95%-Konfidenzintervalle konservativ auf Vielfache von 5% zu runden. Diese Grenzen für <Mark2>n</Mark2>=20 sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> angegeben. In Tab. A. 1 im Anhang 1 <AttachmentLink attachmentNo="1"/> befinden sich die entsprechenden Grenzen für <Mark2>n</Mark2>=40. Durch die Rundungen werden die Unterschiede zwischen den Methoden z.T. vergrößert. Sie betragen jedoch sowohl für <Mark2>n</Mark2>=20 als auch für <Mark2>n</Mark2>=40 höchstens 5%. Die einzige Ausnahme davon ist die Differenz zwischen den Methode<TextGroup><PlainText>n 1</PlainText></TextGroup> und 3 bei <Mark2>p</Mark2>=75% für die untere Grenze und <Mark2>p</Mark2>=25% für die obere Grenze bei<Mark2> n</Mark2>=20. Die Differenz nimmt hier einen Wert von 10% an.</Pgraph><Pgraph>Für die Methoden 4 und 5 sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> und Tab. A<TextGroup><PlainText>. 1</PlainText></TextGroup> im Anhang 1 <AttachmentLink attachmentNo="1"/> zwei Varianten angegeben. Bei der Einbeziehung von allen 20 Listen (Bezeichnungen 4 bzw. 5) wurde <Mark2>ñ</Mark2>=21,4 verwendet (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Durch Streichen der Listen 5, 11, 12 und 15, d.h. nur mit 16 Listen, erhöht sich die effektive Listenlänge auf <Mark2>ñ</Mark2>=24,4. Die entsprechenden Grenzen sind in den Spalten 4/16 bzw. 5/16 angegeben. Durch das Weglassen der vier Listen reduziert sich die Varianz der Testlisten, so dass die 95%-Konfidenzintervalle etwas schmaler werden.</Pgraph><SubHeadline>Vergleich mit Messdaten</SubHeadline><Pgraph>Die prozentualen Anteile der Messergebnisse außerhalb der 95%-Konfidenzintervalle sind in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> angegeben. Das Ziel, dass 5% der Messdaten außerhalb des Konfidenzintervalls liegen sollten, wird von Methode 1 sowohl für Normalhörende (NH) als auch für Schwerhörige (SH) und bei Verwendung von 20 oder 40 Wörtern pro Liste annähernd erreicht. Jedoch berücksichtigt Methode 1 weder die Unterschiede im Verstehen der Wörter noch diejenigen zwischen den Testlisten und überschätzt tendenziell die Breite des Konfidenzintervalls. Für die Methoden 2 und 3, die die Unterschiede im Wortverstehen berücksichtigen, liegen ca. 9% der Messwerte außerhalb des 95%-Konfidenzintervalls. Die angegebenen Grenzen sind also zu schmal. Die Methoden 4 und 5 berücksichtigen im Gegensatz zu den Methoden 2 und 3 die Variabilität der Testlisten und erreichen das 5%-Ziel in den verschiedenen Messdatenvarianten für alle 20 Testlisten bis auf eine maximale Abweichung von 0,5% und für die 16 Testlisten bis auf eine maximale Abweichung von 1,1% für Schwerhörige mit Doppellisten. </Pgraph><Pgraph>Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> zeigt die Messdaten zusammen mit den kritischen Differenzen nach Methode 5. Für eine Trefferrate von 50% liegt das 95%-Konfidenzintervall zwischen 25% und 75% (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>, Spalten „5“). Bei Verwendung von Doppellisten (<Mark2>n</Mark2>=40) reduziert sich das 95%-Konfidenzintervall auf den Bereich zwischen 30% und 70% (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 1, Spalten „5“).</Pgraph><SubHeadline>Einseitige Fragestellung</SubHeadline><Pgraph>Im Anhang 1 <AttachmentLink attachmentNo="1"/> sind in Tab. A. 2 und Tab. A. 3 die gerundeten 90%-Konfidenzintervalle für <Mark2>n</Mark2>=20 und <Mark2>n</Mark2>=40 für alle Methoden angegeben. Den Prozentsatz der Daten außerhalb dieser Konfidenzintervalle für NH und SH für alle Varianten zeigt Tabelle 4 <ImgLink imgNo="4" imgType="table"/>. Das Kriterium für die Güte der Berechnungsmethode ist hierbei, dass 10% der Daten außerhalb des berechneten Konfidenzintervalls liegen. Die Ergebnisse entsprechen qualitativ denjenigen in <TextGroup><PlainText>Tabelle 1</PlainText></TextGroup>. <ImgLink imgNo="1" imgType="table"/> Während die Grenzen nach Methode 1 tendenziell zu breit sind, so dass weniger als 10% der Daten außerhalb des 90%-Konfidenzintervalls liegen, fassen die Methoden 2 und 3 das Intervall zu eng. Mit den Methoden 4 und 5 können die Messergebnisse für Normalhörende und Schwerhörige besser als mit den Methode<TextGroup><PlainText>n 2</PlainText></TextGroup> und 3 angenähert werden.</Pgraph><Pgraph>Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> zeigt entsprechend die Messdaten zusammen mit dem 90%-Konfidenzintervall für Methode 5. Für <Mark2>n</Mark2>=20 umfasst das 90%-Konfidenzintervall bei einer Trefferrate von 50% nach Methode 5 den Bereich zwischen 30% und 70% (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 2). Bei Verwendung von Doppellisten (<Mark2>n</Mark2>=40) reduziert sich das 90%-Konfidenzintervall an dieser Stelle auf den Bereich zwischen 35% und 65% (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> Tab. A. 3).</Pgraph><SubHeadline>Kritische Differenzen im Pegelbereich</SubHeadline><Pgraph>Zum Vergleich mit der Genauigkeit von Satztestverfahren sind in Tabelle 5 <ImgLink imgNo="5" imgType="table"/> die Grenzen der Konfidenzintervalle im Pegelbereich bei einem Sprachverstehen von 50% und von 80% für einzelne Listen (<Mark2>n</Mark2>=20) und Doppellisten (<Mark2>n</Mark2>=40) angegeben. Die Konfidenzintervalle sind für <Mark2>n</Mark2>=40 schmaler im Vergleich zu <Mark2>n</Mark2>=20 und für das 90%-Konfidenzintervall schmaler im Vergleich zum 95%-Konfidenzintervall. Bei einem Sprachverstehen von 80% sind die Konfidenzintervalle breiter als bei einem Sprachverstehen von 50%. Die Breite der Konfidenzintervalle reicht von ±4,0 dB für <Mark2>n</Mark2>=40 bei einem Sprachverstehen von 50% (90%-Konfidenzintervall) bis zu ±11,3 dB für <Mark2>n</Mark2>=20 bei einem Sprachverstehen von 80% (95%-Konfidenzintervall). </Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Results"> <MainHeadline>Results</MainHeadline><SubHeadline>Comparison of calculation methods</SubHeadline><Pgraph>In a comparison of the results from methods 1–5, <TextGroup><PlainText>Figure 2</PlainText></TextGroup> <ImgLink imgNo="2" imgType="figure"/> shows the 95% confidence interval of the second percentage score <Mark2>p</Mark2><Subscript>mess2</Subscript> , given the value for the first percentage score <Mark2>p</Mark2><Mark2><Subscript>mess1</Subscript></Mark2>. The bounds from method 1, which are based on the same word recognition for each word in a test list, are farthest out, indicating the widest 95% confidence interval. By including variable word recognition in methods 2 and 3, the 95% confidence intervals become narrower, the curves are closest to the center. In method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5, the variability of the test lists was taken into account. Thus, the 95% confidence intervals are again farther outside and almost coincide with those of <TextGroup><PlainText>method 1</PlainText></TextGroup>. There are only minor differences between the results of <TextLink reference="5"></TextLink> and <TextLink reference="12"></TextLink>. This is reflected in Figure 2, in which the bounds from methods 2 and 3, and from methods 4 and 5, lie close together. </Pgraph><Pgraph>Percentage scores of the FBE with 20 words per test list are possible only at intervals of 5%. Therefore, it is useful to conservatively round the bounds of the calculated 95% confidence intervals to multiples of 5%. These bounds for <Mark2>n</Mark2>=20 are given in Table 3 <ImgLink imgNo="3" imgType="table"/>. Tab. A. 1 in the <TextGroup><PlainText>Attachment 1 </PlainText></TextGroup><AttachmentLink attachmentNo="1"/>, contains the corresponding bounds for<Mark2> n</Mark2>=40. The rounding partially increases the differences between the methods. However, the differences are at most 5% for both <Mark2>n</Mark2>=20 and <Mark2>n</Mark2>=40. The only exception is the difference between methods 1 and 3 at <Mark2>p</Mark2>=75% for the lower bound and <Mark2>p</Mark2>=25% for the upper bound at <Mark2>n</Mark2>=20, where the difference is 10%.</Pgraph><Pgraph>For methods 4 and 5, two variants are given in Table 3 <ImgLink imgNo="3" imgType="table"/> and Tab. A. 1 in the Attachment 1 <AttachmentLink attachmentNo="1"/>. When including all 20 test lists (designations 4 and 5), <Mark2>ñ</Mark2>=21.4 was used (see <TextGroup><PlainText>Table 2</PlainText></TextGroup> <ImgLink imgNo="2" imgType="table"/>). By omitting lists 5, 11, 12, and 15, i.e. with only 16 test lists, the effective list length increases to <Mark2>ñ</Mark2>=24.4. The corresponding bounds are given in columns 4/16 and 5/16. Omitting these four test lists reduces the variance of the test lists, and, consequently, the 95% confidence intervals become somewhat narrower.</Pgraph><SubHeadline>Comparison with measurement data</SubHeadline><Pgraph>The percentages of the measurements outside the 95% confidence intervals are given in Table 1 <ImgLink imgNo="1" imgType="table"/>. The goal that 5% of the measurement data should be outside the confidence interval is closely approached by method 1 for both normal hearing (NH) and hearing-impaired (HI) participants and when using 20 or 40 words per test list. However, method 1 does not take into account the differences in word recognition, nor those among test lists, and thus tends to overestimate the width of the confidence interval. For methods 2 and 3, which account for differences in word recognition, approximately 9% of the measurements are outside the 95% confidence interval. The specified bounds are therefore too narrow. Method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5, in contrast to methods 2 and 3, take the variability of the test lists into account and achieve the 5% target in the various measurement data variants for all 20 test lists up to a maximum deviation of 0.5%, and for the <TextGroup><PlainText>16 test</PlainText></TextGroup> lists up to a maximum deviation of 1.1% for the hearing-impaired participants with double test lists.</Pgraph><Pgraph>Figure 3 <ImgLink imgNo="3" imgType="figure"/> shows the measurement data, together with the critical differences according to method 5. For a percentage score of 50%, the 95% confidence interval lies between 25% and 75% (see Table 3 <ImgLink imgNo="3" imgType="table"/>, columns „5“). When double test lists are used (<Mark2>n</Mark2>=40), the 95% confidence interval is reduced to 30 % and 70 % (see Tab. A. 1, columns „5“ in the Attachment 1 <AttachmentLink attachmentNo="1"/>).</Pgraph><SubHeadline>One-sided test</SubHeadline><Pgraph>In the Attachment 1 <AttachmentLink attachmentNo="1"/>, Tab. A. 2 and Tab. A. 3 show the rounded 90% confidence intervals for <Mark2>n</Mark2>=20 and <Mark2>n</Mark2>=40 for all methods. The percentage of data outside of these confidence intervals for NH and HI for all variants is shown in Table 4 <ImgLink imgNo="4" imgType="table"/>. The criterion for the quality of the calculation method is that 10% of the data lies outside the calculated confidence interval. The results are qualitatively similar to those in Table 1 <ImgLink imgNo="1" imgType="table"/>. While the bounds according to method 1 tend to be too wide, leading to less than 10% of the data outside the 90% confidence interval, method<TextGroup><PlainText>s 2</PlainText></TextGroup> and 3 make the interval too narrow. The measurement results for normal hearing and hearing impaired participants can be better approximated using the method<TextGroup><PlainText>s 4</PlainText></TextGroup> and 5 than when using the methods 2 and 3.</Pgraph><Pgraph>Figure 4 <ImgLink imgNo="4" imgType="figure"/> shows the measured data together with the 90% confidence interval for metho<TextGroup><PlainText>d 5</PlainText></TextGroup>. According to method 5 and for <Mark2>n</Mark2>=20, the 90% confidence interval at a hit rate of 50% covers the range between 30% and 70% (see Tab. A. 2 in the Attachment 1 <AttachmentLink attachmentNo="1"/>). When using double test lists (<Mark2>n</Mark2>=40), the 90% confidence interval at this point is reduced and ranges between 35% and 65% (see Tab. A. 3 in the Attachment 1 <AttachmentLink attachmentNo="1"/>).</Pgraph><SubHeadline>Critical differences in the level domain</SubHeadline><Pgraph>For comparison with the accuracy of sentence tests, <TextGroup><PlainText>Table 5</PlainText></TextGroup> <ImgLink imgNo="5" imgType="table"/> shows the limits of the confidence intervals transformed to the level domain with a speech recognition score of 50% and of 80% for single test lists (<Mark2>n</Mark2>=20) and for double test lists (<Mark2>n</Mark2>=40). The confidence intervals are narrower for <Mark2>n</Mark2>=40 compared to <Mark2>n</Mark2>=20, and narrower for the 90% confidence interval compared to the 95% <TextGroup><PlainText>confidence</PlainText></TextGroup> interval. With 80% speech-recognition rate, confidence intervals are wider than for a speech recognition rate of 50%. The width of the confidence intervals ranges from ±4.0 dB for <Mark2>n</Mark2>=40 with a speech recognition rate of 50% (90% confidence interval) to ±11.3 dB for <Mark2>n</Mark2>=20 with a speech recognition rate of 80% (95% confidence interval). </Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Diskussion"> <MainHeadline>Diskussion</MainHeadline><Pgraph>Mit der Annahme eines Bernoulli-Experiments für das Sprachverstehen mit unterschiedlichem Wortverstehen innerhalb der Testlisten wurden mit Hilfe der verallgemeinerten Binomialverteilung die 90%- und die 95%-Konfidenzintervalle modelliert. Die Methoden von Thornton und Raffin <TextLink reference="5"></TextLink> und Altman et al. <TextLink reference="12"></TextLink> führten dabei zu ähnlichen Ergebnissen. Diese beiden Methoden wurden durch zusätzliche Berücksichtigung der Testlistenvarianz erweitert. Damit erfüllen sie die Kriterien, dass ca. 5% bzw. 10% der Messdaten außerhalb der Grenzen der berechneten Konfidenzintervalle liegen. </Pgraph><Pgraph>Je nach Variante (einzelne Listen oder Doppellisten, 90%- oder 95%-Konfidenzintervall, alle 20 oder nur 16 ausgewählte Testlisten) haben die Konfidenzintervalle bei einer Trefferrate für die erste Messung <Mark2>p</Mark2><Subscript>mess1</Subscript>=50% eine Breite von ±15% bis ±25%. Die Hilfsmittelrichtlinie <TextLink reference="4"></TextLink> fordert eine Verbesserung von mindestens 20 Prozentpunkten für eine Hörgeräteversorgung im Vergleich zur unversorgten Messung. Bei einer Trefferrate von <Mark2>p</Mark2><Subscript>mess1</Subscript>=50% für die erste Messung ist eine Verbesserung um 20 Prozentpunkte in der zweiten Messung nur bei Nutzung von Doppellisten statistisch signifikant. Bei Verwendung von 20 Wörtern pro Liste ist eine Erhöhung der Trefferrate um 20 Prozentpunkte durch die Hörgeräte statistisch nicht signifikant, da die Irrtumswahrscheinlichkeit für die Entscheidung, dass durch die Hörgeräte das Sprachverstehen verbessert wird, bei mehr als 5% liegt. Damit aus einem Unterschied von 20 Prozentpunkten eine signifikante Verbesserung gefolgert werden kann, müsste sowohl die unversorgte als auch die versorgte Kondition mit Doppellisten ermittelt werden. Bei Verwendung von Einzellisten kann erst ab einer Trefferrate für die erste Messung von 75% eine Verbesserung um 20 Prozentpunkte in der zweiten Messung als signifikant unterschiedlich angesehen werden.</Pgraph><Pgraph>Zur Reduktion der Konfidenzgrenzen könnte auf die Nutzung derjenigen vier Testlisten, die in Baljic et al. <TextLink reference="11"></TextLink> auffällig waren, verzichtet werden, sodass sich die Testlistenvarianz verringert. Allerdings besteht keine Gewähr dafür, dass bei SH, in anderen deutschsprechenden Regionen oder in anderen Messkonfigurationen (z.B. im Störgeräusch), die gleichen vier Testlisten zu auffällig abweichenden Trefferraten führen. Ein Indiz für Abweichungen in den auffälligen Testlisten könnte sein, dass die aus den Messdaten der 16 ausgewählten Listen für die Gruppe der SH ermittelten Konfidenzintervallgrenzen tendenziell etwas zu weit gefasst sind, so dass geringfügig weniger als die angestrebten 5% bzw. 10% der Messdaten außerhalb der Konfidenzintervalle liegen. Auch bei Verwendung aller 20 Testlisten kann die Testlistenvarianz, die zur Modellierung aus den Messdaten der NH gewonnen wurde, bei verschiedenen Probandengruppen oder Messkonfigurationen unterschiedlich sein und zu schmaleren oder breiteren Konfidenzintervallen führen. Für die Messdaten der SH konnte jedoch die Aussage von Dillon <TextLink reference="9"></TextLink> bestätigt werden, dass SH die gleiche Test-Retest-Reliabilität aufweisen wie Normalhörende.</Pgraph><Pgraph>Der Vergleich der Messergebnisse mit den modellierten Konfidenzgrenzen bestätigt ebenfalls die Schlussfolgerung von Dillon <TextLink reference="9"></TextLink>, dass die Grenzen von Thornton und Raffin <TextLink reference="5"></TextLink> nach Methode 1, also bei Verwendung der einfachen Binomialverteilung, relativ gut die gemessene Test-Retest-Reliabilität nachbilden können. Diese Grenzen wurden bereits für den FBE von Winkler und Holube <TextLink reference="7"></TextLink> für <Mark2>n</Mark2>=20 angegeben. Durch die Verwendung der allgemeinen Binomialverteilung bei den Methoden 2 und 3 werden die Konfidenzintervalle schmaler, nach Berücksichtigung der Testlistenvarianz bei den Methoden 4 und 5 jedoch wieder breiter, so dass annähernd die Grenzen von Methode 1 erreicht werden. Dabei ist jedoch zu berücksichtigen, dass die von Dillon <TextLink reference="9"></TextLink> diskutierte Variabilität zwischen den Probanden in der vorliegenden Untersuchung nicht integriert wurde. Ein möglicher Grund für die Vernachlässigbarkeit der Probandenvarianz könnte der Vergleich mit Wiederholungsmessungen zum gleichen Termin sein, so dass nur die Kurzzeit-Reliabilität für Test und Retest überprüft wurde. Diese vermutlich kleine intraindividuelle Varianz der Probanden innerhalb eines Termins liegt möglicherweise unterhalb der Testlistenvarianz, so dass sie hier vernachlässigt werden kann. Nicht untersucht wurde die Reliabilität über einen längeren Zeitraum, d.h. über mehrere Termine, die sich durch die variable Tagesform der Probanden ändern könnte. Ein anderer Erklärungsansatz für die Vernachlässigbarkeit der Probandenvarianz könnte darin liegen, dass individuelle Unterschiede nicht genügend berücksichtigt wurden <TextLink reference="9"></TextLink>: Zur Modellierung der verallgemeinerten Binomialverteilung wurden nur die Mittelwerte im Sprachverstehen für die einzelnen Wörter verwendet. Für einzelne Probanden kann sich das Sprachverstehen der Wörter noch deutlicher unterscheiden, so dass die Methoden 2 und 3 zu noch schmaleren Konfidenzintervallen führen würden. Dann wäre eine zusätzliche Varianzquelle, z.B. die intraindividuelle Varianz, notwendig, um die zu den Messdaten passenden Konfidenzintervalle zu modellieren.</Pgraph><Pgraph>Zum Vergleich mit den Satztestverfahren wurden die Konfidenzintervalle von Methode 5 für Trefferraten von 50% und 80% in Konfidenzintervalle für den Sprachpegel transformiert. Bei Verwendung von Einzellisten (<Mark2>n</Mark2>=20) bei einem Sprachverstehen von 50% hat das 90%-Konfidenzintervall eine Breite von ±6 dB. Das Konfidenzintervall für den FBE ist damit wesentlich breiter als die Konfidenzintervalle für die adaptiven Satzteste mit ca. ±1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). Hörgeräte müssten den Sprachpegel für ein Sprachverstehen von 50% um mehr als 6 dB verbessern, um einen signifikanten Effekt zu erzielen. Wenn das Hörgerät den Sprachpegel z.B. nur um 3 dB verbessern würde, dann würden die Satzteste zwar zu einem signifikanten Unterschied und damit zu einem Wirksamkeitsunterschied führen, jedoch nicht der FBE. Dieses Ziel von einer Verbesserung um mehr als 6 dB erscheint für das Sprachverstehen in Ruhe leicht erreichbar. Ob jedoch diese Anforderung auf eine Verbesserung von 6 dB im Signal-Rausch-Verhältnis für den FBE im Störgeräusch übertragen werden kann, ist noch ungeklärt. Im Störgeräusch werden zwar die gleichen Listen mit <Mark2>n</Mark2>=20 bzw. <Mark2>n</Mark2>=40 Wörtern verwendet, die Varianz im Wortverstehen und im Listenverstehen kann sich jedoch von dem FBE in Ruhe unterscheiden, so dass sich abweichende Konfidenzgrenzen ergeben können.</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Discussion"> <MainHeadline>Discussion</MainHeadline><Pgraph>Modeling speech recognition as a Bernoulli experiment, with different word recognition scores within the test lists, the Poisson binomial distribution was used to calculate the 90% and 95% confidence intervals using different methods. The methods of Thornton and Raffin <TextLink reference="5"></TextLink> and Altman et al. <TextLink reference="12"></TextLink> led to similar results. These two methods were extended by additional consideration of the test-list variance. With this approach, the methods met the criteria that approximately 5% and 10% of the measured data are outside the limits of the calculated confidence intervals.</Pgraph><Pgraph>Depending on the variant (single or double test lists, 90% or 95% confidence interval, all 20 or only 16 selected test lists), the confidence intervals at a percentage score <Mark2>p</Mark2><Subscript>mess1</Subscript>=50% for the first measurement have a width of ±15% to ±25%. The guideline for assistive devices <TextLink reference="4"></TextLink> requires an improvement of at least 20 percentage points for a hearing-aid fitting compared to the unaided measurement. At a percentage score of <Mark2>p</Mark2><Subscript>mess1</Subscript>=50% for the first measurement, an improvement of 20 percentage points in the second measurement is only statistically significant if double test lists are used. When using 20 words per test list, an increase of the percentage score of 20 percentage points by hearing aids is not statistically significant, because the error probability for the decision that the hearing aids improve speech recognition is more than 5%. For a significant improvement to be inferred from a difference of 20 percentage points, both the unaided and the aided condition would have to be determined using double test lists. When using single test lists, an improvement of 20 percentage points in the second measurement can only be regarded as significantly different for a percentage score of 75% or above for the first measurement.</Pgraph><Pgraph>To narrow the confidence bounds, the four test lists that were conspicuous in Baljic et al. <TextLink reference="11"></TextLink> may be omitted. Thus, the test-list variance would be reduced. However, there is no guarantee that for HI, in other German-speaking regions, or in other measurement configurations (e.g., in background noise), the same four test lists would still be outliers. An indication for deviations in conspicuous test lists could be that the confidence-interval bounds determined from the measurement data of the 16 selected test lists for the group of HI tended to be too broad. Thus, slightly less than the targeted 5% or 10% of the measurement data lay outside the confidence intervals. Even if all 20 test lists were used, the test list variance obtained from NH measurement data for modeling may be different for different groups of listeners or measurement conditions, leading to narrower or wider confidence intervals. For the measurement data of HI, however, the statement of Dillon <TextLink reference="9"></TextLink>, that HI have the same test-retest reliability as NH, was confirmed.</Pgraph><Pgraph>A comparison of the measurement results with the modeled confidence bounds also confirmed the conclusion of Dillon <TextLink reference="9"></TextLink> that the bounds of Thornton und Raffin <TextLink reference="5"></TextLink> according to method 1, i.e. when using the simple binomial distribution, can mimic the measured test-retest reliability relatively well. These bounds had already been specified for the FBE by Winkler and Holube <TextLink reference="7"></TextLink> for <Mark2>n</Mark2>=20. By using the Poisson binomial distribution in methods 2 and 3, however, the confidence intervals became narrower. After considering test-list variance in methods 4 and 5, widths became wider again, so that the limits of method 1 are approached. It should be noted, however, that the variability between the participants discussed by Dillon <TextLink reference="9"></TextLink> was not incorporated in the present study. A possible reason for the negligible variability of the participants could be that two measurements within the same session were compared. Therefore, only the short-term reliability for test and retest was examined. The probably small intra-individual variance of participants within one session may be below test-list variance and might have been negligible here. Reliability has not been studied over an extended period, i.e., over several sessions, so that changes due to the variables “physical and mental state” of the participants were not measured. Another explanation for the negligibile variability between the participants could be that individual differences were not sufficiently considered <TextLink reference="9"></TextLink>: To apply the Poisson binomial distribution, only the mean speech-recognition values of each single word were used. In individual participants, speech recognition of the words may have differed even more clearly, and methods 2 and 3 would have led to even narrower confidence intervals. In that case, an additional source of variance, e.g., the intra-individual variance, would be necessary to model the confidence intervals matching the measurement data.</Pgraph><Pgraph>For comparison with the sentence tests, the confidence intervals obtained from method 5 for percentage scores of 50% and 80% were transformed to confidence intervals for speech level. Using single test lists (<Mark2>n</Mark2>=20) with a speech recognition score of 50%, the 90% confidence interval has a width of ±6 dB. The confidence interval for the FBE is thus considerably wider than the confidence intervals for the adaptive sentence tests of about ±1 dB (<TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>). Hearing aids would need to improve the speech level by more than 6 dB at a speech recognition score of 50% in order to achieve a significant effect. For example, if the hearing aid only improved the speech level by 3 dB, then the sentence tests would result in a significant difference, and thus in a difference in efficacy, but not the FBE. The goal of an improvement of more than 6 dB appears to be easily achievable for speech recognition tests in quiet. However, whether this requirement can be transferred to an improvement by 6 dB in signal-to-noise ratio for FBE in noise is still unclear. Even if the same lists with <Mark2>n</Mark2>=20 and <Mark2>n</Mark2>=40 words would be used in noise, the variance in word recognition and in test-list recognition may differ from the FBE in quiet, and, therefore, deviating confidence bounds may result.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Schlussfolgerungen"> <MainHeadline>Schlussfolgerungen</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Kritische Differenzen können allein aus der Anzahl der Messitems mit Methode 1 von Thornton und Raffin relativ gut abgeschätzt werden. </ListItem><ListItem level="1">Bei weiteren Kenntnissen über den Sprachtest zur Verteilung des Verstehens einzelner Items und der Varianz der Testlisten bieten die Methoden 4 und 5 eine genauere Modellierung der Test-Retest-Reliabilität.</ListItem><ListItem level="1">Bei Publikation von Sprachtestergebnissen sollten die Konfidenzintervallgrenzen immer mit angegeben werden. Dabei ist zu beachten, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt.</ListItem></UnorderedList></Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Conclusions"> <MainHeadline>Conclusions</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Critical differences can be estimated relatively well solely from the number of measurement items, using method 1 proposed by Thornton und Raffin. </ListItem><ListItem level="1">With further knowlege about the speech test, i.e. the distribution of recognition of single items and the variance of test lists, methods 4 and 5 provide a more accurate model of the test-retest reliability. </ListItem><ListItem level="1">Confidence intervals should always be stated when publishing speech test results. It should also be noted whether a one-sided or a two-sided test was considered. </ListItem></UnorderedList></Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Anmerkungen"> <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph><SubHeadline>Danksagung</SubHeadline><Pgraph>Die Untersuchungen wurden vom Promotionsprogramm Jade2Pro der Jade Hochschule sowie aus dem Projekt VIBHear mit Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE) und Mitteln des Landes Niedersachsen gefördert.</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Notes"> <MainHeadline>Notes</MainHeadline><SubHeadline>Competing interests</SubHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph><SubHeadline>Acknowledgement</SubHeadline><Pgraph>This analysis was funded by the doctoral program Jade2Pro of Jade University of Applied Sciences. Additional funds were provided by the European Regional Development Fund (ERDF-Project Innovation network for integrated, binaural hearing system technology [VIBHear]), together with funds from the State of Lower Saxony. <LineBreak></LineBreak>Manuscript language services were provided by <Hyperlink href="http://stels-ol.de/">http://stels-ol.de/</Hyperlink>.</Pgraph></TextBlock> <References linked="yes"> <Reference refNo="1"> <RefAuthor>Hahlbrock KH</RefAuthor> <RefTitle>Uber Sprachaudiometrie und neue Wörterteste</RefTitle> <RefYear>1953</RefYear> <RefJournal>Arch Ohren Nasen Kehlkopfheilkd</RefJournal> <RefPage>394-431</RefPage> <RefTotal>Hahlbrock KH. Uber Sprachaudiometrie und neue Wörterteste [Speech audiometry and new word-tests]. Arch Ohren Nasen Kehlkopfheilkd. 1953;162(5):394-431. DOI: 10.1007/BF02105664</RefTotal> <RefLink>https://doi.org/10.1007/BF02105664</RefLink> </Reference> <Reference refNo="2"> <RefAuthor>Holube I</RefAuthor> <RefAuthor>Winkler A</RefAuthor> <RefAuthor>Nolte-Holube R</RefAuthor> <RefTitle>Modellierung der Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung</RefTitle> <RefYear>2018</RefYear> <RefJournal>Z Audiol</RefJournal> <RefPage>6-17</RefPage> <RefTotal>Holube I, Winkler A, Nolte-Holube R. Modellierung der Reliabilität des Freiburger Einsilbertests in Ruhe mit der verallgemeinerten Binomialverteilung. Z Audiol. 2018;57(1):6-17.</RefTotal> </Reference> <Reference refNo="4"> <RefAuthor>Gemeinsamer Bundesausschuss</RefAuthor> <RefTitle></RefTitle> <RefYear>2018</RefYear> <RefBookTitle>Richtlinie des gemeinsamen Bundesausschusses über die Verordnung von Hilfsmitteln in der vertragsärztlichen Versorgung. Hilfsmittelrichtlinie</RefBookTitle> <RefPage></RefPage> <RefTotal>Gemeinsamer Bundesausschuss. Richtlinie des gemeinsamen Bundesausschusses über die Verordnung von Hilfsmitteln in der vertragsärztlichen Versorgung. Hilfsmittelrichtlinie. 2018 [accessed 13. Dezember 2018]. Available from https://www.g-ba.de/downloads/62-492-1666/HilfsM-RL_2018-07-19_iK-2018-10-03.pdf</RefTotal> <RefLink>https://www.g-ba.de/downloads/62-492-1666/HilfsM-RL_2018-07-19_iK-2018-10-03.pdf</RefLink> </Reference> <Reference refNo="5"> <RefAuthor>Thornton AR</RefAuthor> <RefAuthor>Raffin MJ</RefAuthor> <RefTitle>Speech-discrimination scores modeled as a binomial variable</RefTitle> <RefYear>1978</RefYear> <RefJournal>J Speech Hear Res</RefJournal> <RefPage>507-18</RefPage> <RefTotal>Thornton AR, Raffin MJ. Speech-discrimination scores modeled as a binomial variable. J Speech Hear Res. 1978 Sep;21(3):507-18. DOI: 10.1044/jshr.2103.507</RefTotal> <RefLink>https://doi.org/10.1044/jshr.2103.507</RefLink> </Reference> <Reference refNo="6"> <RefAuthor>Carney E</RefAuthor> <RefAuthor>Schlauch RS</RefAuthor> <RefTitle>Critical difference table for word recognition testing derived using computer simulation</RefTitle> <RefYear>2007</RefYear> <RefJournal>J Speech Lang Hear Res</RefJournal> <RefPage>1203-9</RefPage> <RefTotal>Carney E, Schlauch RS. Critical difference table for word recognition testing derived using computer simulation. J Speech Lang Hear Res. 2007 Oct;50(5):1203-9. DOI: 10.1044/1092-4388(2007/084)</RefTotal> <RefLink>https://doi.org/10.1044/1092-4388(2007/084)</RefLink> </Reference> <Reference refNo="7"> <RefAuthor>Winkler A</RefAuthor> <RefAuthor>Holube I</RefAuthor> <RefTitle>Test-Retest-Reliabilität des Freiburger Einsilbertests</RefTitle> <RefYear>2016</RefYear> <RefJournal>HNO</RefJournal> <RefPage>564-71</RefPage> <RefTotal>Winkler A, Holube I. Test-Retest-Reliabilität des Freiburger Einsilbertests [Test-retest reliability of the Freiburg monosyllabic speech test]. HNO. 2016 Aug;64(8):564-71. DOI: 10.1007/s00106-016-0166-2</RefTotal> <RefLink>https://doi.org/10.1007/s00106-016-0166-2</RefLink> </Reference> <Reference refNo="8"> <RefAuthor>Steffens T</RefAuthor> <RefTitle>Test-Retest-Differenz der Regensburger Variante des OLKI-Reimtests im sprachsimulierenden Störgeräusch bei Kindern mit Hörgeräten</RefTitle> <RefYear>2006</RefYear> <RefJournal>Z Audiol</RefJournal> <RefPage>88-99</RefPage> <RefTotal>Steffens T. Test-Retest-Differenz der Regensburger Variante des OLKI-Reimtests im sprachsimulierenden Störgeräusch bei Kindern mit Hörgeräten. Z Audiol. 2006;45(3):88-99.</RefTotal> </Reference> <Reference refNo="9"> <RefAuthor>Dillon H</RefAuthor> <RefTitle>A quantitative examination of the sources of speech discrimination test score variability</RefTitle> <RefYear>1982</RefYear> <RefJournal>Ear Hear</RefJournal> <RefPage>51-8</RefPage> <RefTotal>Dillon H. A quantitative examination of the sources of speech discrimination test score variability. Ear Hear. 1982 Mar-Apr;3(2):51-8. DOI: 10.1097/00003446-198203000-00001</RefTotal> <RefLink>https://doi.org/10.1097/00003446-198203000-00001</RefLink> </Reference> <Reference refNo="10"> <RefAuthor>Hagerman B</RefAuthor> <RefTitle>Reliability in the determination of speech discrimination</RefTitle> <RefYear>1976</RefYear> <RefJournal>Scand Audiol</RefJournal> <RefPage>219-28</RefPage> <RefTotal>Hagerman B. Reliability in the determination of speech discrimination. Scand Audiol. 1976;5:219-28. DOI: 10.3109/01050397609044991</RefTotal> <RefLink>https://doi.org/10.3109/01050397609044991</RefLink> </Reference> <Reference refNo="11"> <RefAuthor>Baljić I</RefAuthor> <RefAuthor>Winkler A</RefAuthor> <RefAuthor>Schmidt T</RefAuthor> <RefAuthor>Holube I</RefAuthor> <RefTitle>Untersuchungen zur perzeptiven Äquivalenz der Testlisten im Freiburger Einsilbertest</RefTitle> <RefYear>2016</RefYear> <RefJournal>HNO</RefJournal> <RefPage>572-83</RefPage> <RefTotal>Baljić I, Winkler A, Schmidt T, Holube I. Untersuchungen zur perzeptiven Äquivalenz der Testlisten im Freiburger Einsilbertest [Evaluation of the perceptual equivalence of test lists in the Freiburg monosyllabic speech test]. HNO. 2016 Aug;64(8):572-83. DOI: 10.1007/s00106-016-0192-0</RefTotal> <RefLink>https://doi.org/10.1007/s00106-016-0192-0</RefLink> </Reference> <Reference refNo="12"> <RefAuthor>Newcombe RG</RefAuthor> <RefAuthor>Altman DG</RefAuthor> <RefTitle>Proportions and Their Differences</RefTitle> <RefYear>2000</RefYear> <RefBookTitle>Statistics with Confidence: Confidence Intervals and Statistical Guidelines</RefBookTitle> <RefPage>45-56</RefPage> <RefTotal>Newcombe RG, Altman DG. Proportions and Their Differences. In: Altman DG, Machin D, Bryant TN, Gardner MJ, editors. Statistics with Confidence: Confidence Intervals and Statistical Guidelines. 2nd Edition. London: British Medical Journal Books; 2000. p. 45-56.</RefTotal> </Reference> <Reference refNo="13"> <RefAuthor>Newcombe RG</RefAuthor> <RefTitle>Interval estimation for the difference between independent proportions: comparison of eleven methods</RefTitle> <RefYear>1998</RefYear> <RefJournal>Stat Med</RefJournal> <RefPage>873-90</RefPage> <RefTotal>Newcombe RG. Interval estimation for the difference between independent proportions: comparison of eleven methods. Stat Med. 1998 Apr;17(8):873-90. DOI: 10.1002/(sici)1097-0258(19980430)17:8<873::aid-sim779>3.0.co;2-i</RefTotal> <RefLink>https://doi.org/10.1002/(sici)1097-0258(19980430)17:8<873::aid-sim779>3.0.co;2-i</RefLink> </Reference> <Reference refNo="14"> <RefAuthor>Wilson EB</RefAuthor> <RefTitle>Probable Inference, the Law of Succession, and Statistical Interference</RefTitle> <RefYear>1927</RefYear> <RefJournal>J Am Stat Assoc</RefJournal> <RefPage>209-12</RefPage> <RefTotal>Wilson EB. Probable Inference, the Law of Succession, and Statistical Interference. J Am Stat Assoc. 1927;22(158):209-12. DOI: 10.1080/01621459.1927.10502953</RefTotal> <RefLink>https://doi.org/10.1080/01621459.1927.10502953</RefLink> </Reference> <Reference refNo="15"> <RefAuthor>Wagener KC</RefAuthor> <RefAuthor>Kühnel V</RefAuthor> <RefAuthor>Kollmeier B</RefAuthor> <RefTitle>Entwicklung und Evaluation eines Satztests für die deutsche Sprache I: Design des Oldenburger Satztests</RefTitle> <RefYear>1999a</RefYear> <RefJournal>Z Audiol</RefJournal> <RefPage>4-15</RefPage> <RefTotal>Wagener KC, Kühnel V, Kollmeier B. Entwicklung und Evaluation eines Satztests für die deutsche Sprache I: Design des Oldenburger Satztests. Z Audiol. 1999a;38:4-15.</RefTotal> </Reference> <Reference refNo="16"> <RefAuthor>Kollmeier B</RefAuthor> <RefAuthor>Wesselkamp M</RefAuthor> <RefTitle>Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment</RefTitle> <RefYear>1997</RefYear> <RefJournal>J Acoust Soc Am</RefJournal> <RefPage>2412-21</RefPage> <RefTotal>Kollmeier B, Wesselkamp M. Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment. J Acoust Soc Am. 1997 Oct;102(4):2412-21. DOI: 10.1121/1.419624</RefTotal> <RefLink>https://doi.org/10.1121/1.419624</RefLink> </Reference> <Reference refNo="17"> <RefAuthor>Wagener KC</RefAuthor> <RefAuthor>Brand T</RefAuthor> <RefTitle>Sentence intelligibility in noise for listeners with normal hearing and hearing impairment: influence of measurement procedure and masking parameters</RefTitle> <RefYear>2005</RefYear> <RefJournal>Int J Audiol</RefJournal> <RefPage>144-56</RefPage> <RefTotal>Wagener KC, Brand T. Sentence intelligibility in noise for listeners with normal hearing and hearing impairment: influence of measurement procedure and masking parameters. Int J Audiol. 2005 Mar;44(3):144-56. DOI: 10.1080/14992020500057517</RefTotal> <RefLink>https://doi.org/10.1080/14992020500057517</RefLink> </Reference> <Reference refNo="18"> <RefAuthor>Brand T</RefAuthor> <RefAuthor>Kollmeier B</RefAuthor> <RefTitle>Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests</RefTitle> <RefYear>2002</RefYear> <RefJournal>J Acoust Soc Am</RefJournal> <RefPage>2801-10</RefPage> <RefTotal>Brand T, Kollmeier B. Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests. J Acoust Soc Am. 2002 Jun;111(6):2801-10. DOI: 10.1121/1.1479152</RefTotal> <RefLink>https://doi.org/10.1121/1.1479152</RefLink> </Reference> <Reference refNo="3"> <RefAuthor>Holube I</RefAuthor> <RefAuthor>Winkler A</RefAuthor> <RefAuthor>Nolte-Holube R</RefAuthor> <RefTitle>Modeling the reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution. Does the Freiburg monosyllabic speech test contain 29 words per list?</RefTitle> <RefYear>2020</RefYear> <RefJournal>GMS Z Audiol (Audiol Acoust)</RefJournal> <RefPage>Doc01</RefPage> <RefTotal>Holube I, Winkler A, Nolte-Holube R. Modeling the reliability of the Freiburg monosyllabic speech test in quiet with the Poisson binomial distribution. Does the Freiburg monosyllabic speech test contain 29 words per list? GMS Z Audiol (Audiol Acoust). 2020;2:Doc01. DOI: 10.3205/zaud000005</RefTotal> <RefLink>https://doi.org/10.3205/zaud000005</RefLink> </Reference> </References> <Media> <Tables> <Table format="png"> <MediaNo>2</MediaNo> <MediaID language="de">2de</MediaID> <MediaID language="en">2en</MediaID> <Caption language="de"><Pgraph><Mark1>Tabelle 2: Aus dem Einzelwortverstehen ermittelte effektive Wörterzahlen für die Listenlängen </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20 und </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=40. </Mark1><LineBreak></LineBreak>Wie in der rechten Spalte angezeigt, wurde die Berechnung von <Mark2>ñ</Mark2> je einmal für alle Listen des FBE durchgeführt und je einmal ohne Berücksichtigung der auffälligen Listen 5, 11, 12, 15. Der Parameter <Mark2>c</Mark2><Superscript>2</Superscript> aus der Gleichung 16 ist zusätzlich angegeben.</Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Table 2: Effective number of words calculated from the recognition of single words for the test-list lengths </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20 and </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=40</Mark1><LineBreak></LineBreak>As shown in the right column, <Mark2>ñ</Mark2> was calculated for all test lists of the Freiburg monosyllabic speech test and, additionally, with the exclusion of the outlier test lists 5, 11, 12, and 15. The parameter <Mark2>c</Mark2><Superscript>2</Superscript> from Equation 16 is also given.</Pgraph></Caption> </Table> <Table format="png"> <MediaNo>3</MediaNo> <MediaID language="de">3de</MediaID> <MediaID language="en">3en</MediaID> <Caption language="de"><Pgraph><Mark1>Tabelle 3: Grenzen der 95%-Konfidenzintervalle für die Trefferrate der zweiten Testliste </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess2</Subscript></Mark1><Mark1> bei gegebener Trefferrate für die erste Testliste </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess1</Subscript></Mark1><Mark1> bei </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20. Die Grenzen ergeben sich nach den Methoden 1–5, siehe Text. Die genau berechneten Werte (siehe Abbildung 2) wurden in der Tabelle konservativ auf Vielfache von 5% gerundet.</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Table 3: Bounds of the 95%-confidence interval for </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20 for the score of the second test list </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess2</Subscript></Mark1><Mark1> when the score of the first test list </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1><Subscript>mess1</Subscript></Mark1><Mark1> is given. The bounds were calculated with the methods 1–5 (see text). The precise values (see Figure 2) were conservatively rounded to multiples of 5%.</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>1</MediaNo> <MediaID language="de">1de</MediaID> <MediaID language="en">1en</MediaID> <Caption language="de"><Pgraph><Mark1>Tabelle 1: Anzahl der verwendeten Datenpunkte und Prozentsatz der Daten außerhalb des berechneten 95%-Konfidenzintervalls</Mark1><LineBreak></LineBreak> Angaben für Normalhörende (NH) und Schwerhörige (SH) mit <Mark2>n</Mark2>=20 und <Mark2>n</Mark2>=40 Wörtern pro Liste für die Methoden 1–5</Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Table 1: Number of data points and percentage of data outside the calculated 95%-confidence intervals</Mark1><LineBreak></LineBreak>Results for normal-hearing (NH) and hearing-impaired (HI) participants with <Mark2>n</Mark2>=20 and <Mark1>n</Mark1>=40 words per test list for the methods 1–5</Pgraph></Caption> </Table> <Table format="png"> <MediaNo>4</MediaNo> <MediaID language="de">4de</MediaID> <MediaID language="en">4en</MediaID> <Caption language="de"><Pgraph><Mark1>Tabelle 4: Anzahl der verwendeten Datenpunkte und Prozentsatz der Daten außerhalb des 90%-Konfidenzintervalls</Mark1></Pgraph><Pgraph>Angaben für Normalhörende (NH) und Schwerhörige (SH) mit <Mark2>n</Mark2>=20 und <Mark2>n</Mark2>=40 Wörtern pro Liste für die Methoden 1–5</Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Table 4: Number of data points and percentage of data outside the calculated 90%-confidence intervals</Mark1></Pgraph><Pgraph>Results for normal-hearing (NH) and hearing-impaired (HI) participants with <Mark2>n</Mark2>=20 and <Mark2>n</Mark2>=40 words per test list for the methods 1–5</Pgraph></Caption> </Table> <Table format="png"> <MediaNo>5</MediaNo> <MediaID language="de">5de</MediaID> <MediaID language="en">5en</MediaID> <Caption language="de"><Pgraph><Mark1>Tabelle 5: Mit Gleichung 18 berechnete 95%- und 90%-Konfidenzintervalle in dB SPL für Methode 5 für </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20 und </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=40 bei Trefferraten von 50% und 80%</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Table 5: 95% and 90% confidence intervals in dB SPL from method 5 for </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=20 and </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=40 for scores 50% and 80%, calculated with Equation 18</Mark1></Pgraph></Caption> </Table> <NoOfTables>5</NoOfTables> </Tables> <Figures> <Figure format="png" height="377" width="739"> <MediaNo>1</MediaNo> <MediaID language="de">1de</MediaID> <MediaID language="en">1en</MediaID> <Caption language="de"><Pgraph><Mark1>Abbildung 1: Varianz der Testlistenmittelwerte der gemessenen Trefferrate als Funktion der Trefferrate </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Die Varianzen wurden zur besseren Vergleichbarkeit jeweils mit der Wortanzahl </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1> pro Liste multipliziert (siehe Gleichung 13). Die Symbole zeigen die Varianzen, die sich für unterschiedliche Zusammenstellungen der Wörter zu Listen ergeben. Für jede Zusammenstellung wurde der Mittelwert (10) der Trefferrate aller beteiligten Wörter als Abszissenwert </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1> verwendet. Weil die Messwerte zu vier unterschiedlichen Pegeln gehören, gruppieren sich die Symbole um die vier entsprechenden Trefferraten </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Die eingezeichneten Linien zeigen die angepassten Parabeln nach Gleichung 14. Zur Zuordnung der Zahlenwerte für </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1> zu den Zusammenstellungen siehe Tabelle 2. Der Wert </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1>=0,332 resultiert aus der Anpassung an die Varianz des Einzelwortverstehens (</Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=1) aller Wörter.</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Figure 1: Variance of the test-list mean values as a function of the score p. To improve comparability, the variances were multiplied by the number of words </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1> per test list (see Equation 13). The symbols show the variances for different combinations of words in test lists. For each combination, the mean score (10) of all words involved is used as the abscissa </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. Since the scores belong to four different sound pressure levels, the symbols are grouped around the four respective mean scores </Mark1><Mark1><Mark2>p</Mark2></Mark1><Mark1>. The plotted lines show the fitted parabolas according to Equation 14 To relate the values for </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1> to the combinations, see Table 2. The value </Mark1><Mark1><Mark2>c</Mark2></Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1>=0.332 results from fitting to the variance of single-word recognition scores (</Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>=1) of all words.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="518" width="567"> <MediaNo>2</MediaNo> <MediaID language="de">2de</MediaID> <MediaID language="en">2en</MediaID> <Caption language="de"><Pgraph><Mark1>Abbildung 2: Vergleich der 95%-Konfidenzintervalle für die Test-Retest-Reliabilität für Testlisten mit 20 Wörtern (oben) und mit 40 Wörtern (unten) bei Verwendung der fünf Berechnungsmethoden. Rechts ist jeweils der mittlere Bereich der linken Abbildungen für einen besseren Vergleich vergrößert dargestellt. Schwarz: Methode 1, dunkelblau: Methode 2, magenta gestrichelt: Methode 3, rot gestrichelt: Methode 4, hellblau: Methode 5.</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Figure 2: Comparison of the 95%-confidence intervals for test-retest reliability for test lists with 20 words (top) and with 40 words (bottom) when applying the five calculation methods. To improve comparability, the right side shows an enlargement of the central sector of the left figures, respectively. Black: method 1, dark blue: method 2, magenta dashed: method 3, red dashed: method 4, light blue: method 5.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="479" width="567"> <MediaNo>3</MediaNo> <MediaID language="de">3de</MediaID> <MediaID language="en">3en</MediaID> <Caption language="de"><Pgraph><Mark1>Abbildung 3: Datenpunkte (blau) und 95%-Konfidenzintervall (magenta) für Testlisten mit 20 Wörtern (oben) und mit 40 Wörtern (unten) für Normalhörende (links) und Schwerhörige (rechts) bei Verwendung von Methode 5 und zweiseitige Fragestellung.</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Figure 3: Data points (blue) and 95%-confidence interval (magenta) for test lists with 20 words (top) and with 40 words (bottom) for normal-hearing (left) and hearing-impaired (right) participants using method 5 and two-sided test.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="509" width="567"> <MediaNo>4</MediaNo> <MediaID language="de">4de</MediaID> <MediaID language="en">4en</MediaID> <Caption language="de"><Pgraph><Mark1>Abbildung 4: Datenpunkte (blau) und 90%-Konfidenzintervall (magenta) für Testlisten mit 20 Wörtern (oben) und mit 40 Wörtern (unten) für Normalhörende (links) und Schwerhörige (rechts) bei Verwendung von Methode 5 und einseitige Fragestellung.</Mark1></Pgraph></Caption> <Caption language="en"><Pgraph><Mark1>Figure 4: Data points (blue) and 90%-confidence interval (magenta) for test lists with 20 words (top) and with 40 words (bottom) for normal-hearing (left) and hearing-impaired (right) participants using method 5 and one-sided test.</Mark1></Pgraph></Caption> </Figure> <NoOfPictures>4</NoOfPictures> </Figures> <InlineFigures> <Figure format="png" height="26" width="74"> <MediaNo>1</MediaNo> <MediaID>1</MediaID> <AltText language="de">F1_in text</AltText> <AltText language="en">F1_in text</AltText> </Figure> <Figure format="png" height="25" width="85"> <MediaNo>2</MediaNo> <MediaID>2</MediaID> <AltText language="de">F2_in text</AltText> <AltText language="en">F2_in text</AltText> </Figure> <Figure format="png" height="34" width="219"> <MediaNo>3</MediaNo> <MediaID>3</MediaID> <AltText language="de">F3_in text</AltText> <AltText language="en">F3_in text</AltText> </Figure> <Figure format="png" height="67" width="309"> <MediaNo>4</MediaNo> <MediaID>4</MediaID> <AltText language="de">F4_Gleichung 1</AltText> <AltText language="en">F4_Gleichung 1</AltText> </Figure> <Figure format="png" height="41" width="106"> <MediaNo>5</MediaNo> <MediaID>5</MediaID> <AltText language="de">F5_in text a</AltText> <AltText language="en">F5_in text a</AltText> </Figure> <Figure format="png" height="33" width="106"> <MediaNo>6</MediaNo> <MediaID>6</MediaID> <AltText language="de">F5_in text b</AltText> <AltText language="en">F5_in text b</AltText> </Figure> <Figure format="png" height="26" width="154"> <MediaNo>7</MediaNo> <MediaID>7</MediaID> <AltText language="de">F6_in text</AltText> <AltText language="en">F6_in text</AltText> </Figure> <Figure format="png" height="33" width="114"> <MediaNo>8</MediaNo> <MediaID>8</MediaID> <AltText language="de">F7_in text a</AltText> <AltText language="en">F7_in text a</AltText> </Figure> <Figure format="png" height="33" width="113"> <MediaNo>9</MediaNo> <MediaID>9</MediaID> <AltText language="de">F7_in text b</AltText> <AltText language="en">F7_in text b</AltText> </Figure> <Figure format="png" height="43" width="466"> <MediaNo>10</MediaNo> <MediaID language="de">10de</MediaID> <MediaID language="en">10en</MediaID> <AltText language="de">F8_Gleichung 2</AltText> <AltText language="en">F8_Gleichung 2</AltText> </Figure> <Figure format="png" height="44" width="461"> <MediaNo>11</MediaNo> <MediaID language="de">11de</MediaID> <MediaID language="en">11en</MediaID> <AltText language="de">F9_Gleichung 3</AltText> <AltText language="en">F9_Gleichung 3</AltText> </Figure> <Figure format="png" height="43" width="145"> <MediaNo>12</MediaNo> <MediaID>12</MediaID> <AltText language="de">F10_Gleichung 4</AltText> <AltText language="en">F10_Gleichung 4</AltText> </Figure> <Figure format="png" height="38" width="111"> <MediaNo>13</MediaNo> <MediaID>13</MediaID> <AltText language="de">F11_in text a</AltText> <AltText language="en">F11_in text a</AltText> </Figure> <Figure format="png" height="35" width="35"> <MediaNo>14</MediaNo> <MediaID>14</MediaID> <AltText language="de">F11_in text b</AltText> <AltText language="en">F11_in text b</AltText> </Figure> <Figure format="png" height="45" width="145"> <MediaNo>15</MediaNo> <MediaID>15</MediaID> <AltText language="de">F12_Gleichung 5</AltText> <AltText language="en">F12_Gleichung 5</AltText> </Figure> <Figure format="png" height="47" width="239"> <MediaNo>16</MediaNo> <MediaID>16</MediaID> <AltText language="de">F13_Gleichung 6</AltText> <AltText language="en">F13_Gleichung 6</AltText> </Figure> <Figure format="png" height="27" width="318"> <MediaNo>17</MediaNo> <MediaID>17</MediaID> <AltText language="de">F14_Gleichung 7</AltText> <AltText language="en">F14_Gleichung 7</AltText> </Figure> <Figure format="png" height="27" width="318"> <MediaNo>18</MediaNo> <MediaID>18</MediaID> <AltText language="de">F15_Gleichung 8</AltText> <AltText language="en">F15_Gleichung 8</AltText> </Figure> <Figure format="png" height="35" width="67"> <MediaNo>19</MediaNo> <MediaID>19</MediaID> <AltText language="de">F16_in text</AltText> <AltText language="en">F16_in text</AltText> </Figure> <Figure format="png" height="51" width="304"> <MediaNo>20</MediaNo> <MediaID>20</MediaID> <AltText language="de">F17_Gleichung 9</AltText> <AltText language="en">F17_Gleichung 9</AltText> </Figure> <Figure format="png" height="34" width="121"> <MediaNo>21</MediaNo> <MediaID>21</MediaID> <AltText language="de">F18_in text</AltText> <AltText language="en">F18_in text</AltText> </Figure> <Figure format="png" height="67" width="68"> <MediaNo>22</MediaNo> <MediaID>22</MediaID> <AltText language="de">F19_Gleichung 10</AltText> <AltText language="en">F19_Gleichung 10</AltText> </Figure> <Figure format="png" height="70" width="198"> <MediaNo>23</MediaNo> <MediaID>23</MediaID> <AltText language="de">F20_Gleichung 11</AltText> <AltText language="en">F20_Gleichung 11</AltText> </Figure> <Figure format="png" height="70" width="255"> <MediaNo>24</MediaNo> <MediaID>24</MediaID> <AltText language="de">F21_Gleichung 12</AltText> <AltText language="en">F21_Gleichung 12</AltText> </Figure> <Figure format="png" height="45" width="130"> <MediaNo>25</MediaNo> <MediaID language="de">25de</MediaID> <MediaID language="en">25en</MediaID> <AltText language="de">F22_Gleichung 13</AltText> <AltText language="en">F22_Gleichung 13</AltText> </Figure> <Figure format="png" height="47" width="155"> <MediaNo>26</MediaNo> <MediaID>26</MediaID> <AltText language="de">F23_Gleichung 14</AltText> <AltText language="en">F23_Gleichung 14</AltText> </Figure> <Figure format="png" height="44" width="240"> <MediaNo>27</MediaNo> <MediaID>27</MediaID> <AltText language="de">F24_Gleichung 15</AltText> <AltText language="en">F24_Gleichung 15</AltText> </Figure> <Figure format="png" height="47" width="95"> <MediaNo>28</MediaNo> <MediaID>28</MediaID> <AltText language="de">F25_Gleichung 16</AltText> <AltText language="en">F25_Gleichung 16</AltText> </Figure> <Figure format="png" height="24" width="16"> <MediaNo>29</MediaNo> <MediaID>29</MediaID> <AltText language="de">F26_in text</AltText> <AltText language="en">F26_in text</AltText> </Figure> <Figure format="png" height="36" width="152"> <MediaNo>31</MediaNo> <MediaID>31</MediaID> <AltText language="de">F27_in text</AltText> <AltText language="en">F27_in text</AltText> </Figure> <Figure format="png" height="44" width="139"> <MediaNo>32</MediaNo> <MediaID>32</MediaID> <AltText language="de">F28_Gleichung 17</AltText> <AltText language="en">F28_Gleichung 17</AltText> </Figure> <Figure format="png" height="66" width="183"> <MediaNo>33</MediaNo> <MediaID>33</MediaID> <AltText language="de">F29_Gleichung 18</AltText> <AltText language="en">F29_Gleichung 18</AltText> </Figure> <Figure format="png" height="23" width="53"> <MediaNo>30</MediaNo> <MediaID>30</MediaID> <AltText language="de">F26-2_in text</AltText> <AltText language="en">F26-2_in text</AltText> </Figure> <NoOfPictures>33</NoOfPictures> </InlineFigures> <Attachments> <Attachment> <MediaNo>1</MediaNo> <MediaID filename="zaud000007.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang_1.pdf" size="182062" url="">1de</MediaID> <MediaID filename="zaud000007.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment_1.pdf" size="181574" url="">1en</MediaID> <AttachmentTitle language="de">Anhang: Konfidenzintervalle</AttachmentTitle> <AttachmentTitle language="en">Appendix: Confidence intervals</AttachmentTitle> </Attachment> <NoOfAttachments>1</NoOfAttachments> </Attachments> </Media> </OrigData> </GmsArticle>