<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>mibe000206</Identifier>
    <IdentifierDoi>10.3205/mibe000206</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-mibe0002065</IdentifierUrn>
    <ArticleType language="en">Review Article</ArticleType>
    <ArticleType language="de">&#220;bersichtsarbeit</ArticleType>
    <TitleGroup>
      <Title language="en">Fisher&#8217;s significance test: A gentle introduction</Title>
      <TitleTranslated language="de">Fishers Signifikanztest: Eine sanfte Einf&#252;hrung</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Stang</Lastname>
          <LastnameHeading>Stang</LastnameHeading>
          <Firstname>Andreas</Firstname>
          <Initials>A</Initials>
          <AcademicTitle>Prof. Dr. med.</AcademicTitle>
          <AcademicTitleSuffix>MPH</AcademicTitleSuffix>
        </PersonNames>
        <Address language="en">Center of Clinical Epidemiology, Institute of Medical Informatics, Biometry and Epidemiology, University Hospital of Essen, Hufelandstr. 55, 45147 Essen, Germany, Phone: &#43;49 201-723-77-289, Fax: &#43;49 201-723-77-333<Affiliation>Institute of Medical Informatics, Biometry and Epidemiology; University Hospital of Essen, Germany</Affiliation><Affiliation>School of Public Health, Department of Epidemiology, Boston University, Boston, United States</Affiliation></Address>
        <Address language="de">Institut f&#252;r Medizinische Informatik, Biometrie und Epidemiologie, Universit&#228;tsklinikum Essen, Hufelandstr. 55, 45147 Essen, Deutschland, Tel.: 0201-723-77-289, Fax: 0201-723-77-333<Affiliation>Institut f&#252;r Medizinische Informatik, Biometrie und Epidemiologie, Universit&#228;tsklinikum Essen, Deutschland</Affiliation><Affiliation>School of Public Health, Department of Epidemiology, Boston University, Boston, Vereinigte Staaten</Affiliation></Address>
        <Email>andreas.stang&#64;uk-essen.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kowall</Lastname>
          <LastnameHeading>Kowall</LastnameHeading>
          <Firstname>Bernd</Firstname>
          <Initials>B</Initials>
          <AcademicTitle>PD Dr. Dr.</AcademicTitle>
        </PersonNames>
        <Address language="en">
          <Affiliation>Institute of Medical Informatics, Biometry and Epidemiology; University Hospital of Essen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Institut f&#252;r Medizinische Informatik, Biometrie und Epidemiologie, Universit&#228;tsklinikum Essen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">statistical models</Keyword>
      <Keyword language="en">statistical data interpretation</Keyword>
      <Keyword language="en">data analysis</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      
    <DatePublished>20200511</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1860-9171</ISSN>
        <Volume>16</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Medizinische Informatik, Biometrie und Epidemiologie</JournalTitle>
        <JournalTitleAbbr>GMS Med Inform Biom Epidemiol</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>03</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Der p-Wert wird h&#228;ufig missverstanden und beispielsweise als Wahrscheinlichkeit f&#252;r die Richtigkeit der Nullhypothese fehlinterpretiert. Ziel des vorliegenden Beitrags ist es, zun&#228;chst die Definition des p-Werts zu erl&#228;utern. Die Ermittlung des p-Werts erfordert die Kenntnis einer Wahrscheinlichkeitsfunktion. Wie ein geeignetes statistisches Modell ausgew&#228;hlt wird und anhand dieses Modells, der Nullhypothese und der empirischen Daten der p-Wert bestimmt wird, wird an der t-Verteilung erkl&#228;rt. Bei der Interpretation des so erhaltenen p-Werts stehen sich zwei nicht vereinbare statistische Denkschulen gegen&#252;ber: Der orthodoxe Neyman-Pearson Hypothesentest, der auf eine Entscheidung zwischen der Nullhypothese und einer komplement&#228;ren Alternativhypothese hinausl&#228;uft, und Fishers Signifikanztest, bei dem keine Alternativhypothese formuliert wird und in der die Evidenz gegen die Nullhypothese umso gr&#246;&#223;er ist, je kleiner der p-Wert ist. Der Beitrag endet mit einigen kritischen Bemerkungen zum Umgang mit p-Werten.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>The p-value is often misunderstood and, for example, misinterpreted as a probability for the correctness of the null hypothesis. The aim of this article is to first explain the definition of the p-value. Determining the p-value requires knowledge of a probability function. How an appropriate statistical model is selected and how the p-value is determined using this model, the null hypothesis and the empirical data is explained using the t-distribution. When interpreting the p-value obtained in this way, two incompatible statistical schools of thought are confronted: the orthodox Neyman-Pearson hypothesis test, which amounts to a decision between the null hypothesis and a complementary alternative hypothesis, and Fisher&#8217;s significance test, in which no alternative hypothesis is formulated and in which the smaller the p-value, the greater the evidence against the null hypothesis. The amount ends with some critical remarks about the handling of p-values.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>The p-value is often misunderstood and, for example, misinterpreted as a probability for the correctness of the null hypothesis. P-values play an important role in two schools of thought: Fisher&#8217;s significance test and Neyman and Pearson&#8217;s hypothesis test <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. While the significance test leads to a quantitative interpretation of the p-value, in which it is interpreted as a continuous measure of evidence against the null hypothesis, the p-value in the null hypothesis test merely serves a decision using predefined rules.</Pgraph><Pgraph>In 2016, the American Statistical Association (ASA) published a statement on the handling of p-values. Among other things it was stated: &#8220;The widespread use of &#8216;statistical significance&#8217; (generally interpreted as &#8216;p&#8804;0.05&#8217;) as a license for making a claim of a scientific finding (or implied truth) leads to considerable distortion of the scientific process&#8221; <TextLink reference="3"></TextLink>. In 2019 Amrhein et al. published an article entitled &#8220;Retire statistical significance&#8221; in Nature in which they draw attention to the many pitfalls in the dichotomization of p-values into &#8220;significant&#8221; (usually p&#8804;0.05) and &#8220;non-significant&#8221; (usually p&#62;0.05) and generally discourage this dichotomization of p-values, i.e. the categorization into two areas <TextLink reference="4"></TextLink>.</Pgraph><Pgraph>A dilemma in the application of the significance or hypothesis test remains the lack of understanding of what these methods can answer at all. The aim of this paper is to illustrate essential background information and the steps of the significance test by means of a fictive study in which two groups are compared with each other. Most biostatistics textbooks do not consistently provide this background information and steps of the significance test. The article is intended for people who can only vaguely describe what the procedure does. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Der p-Wert wird oft missverstanden und z.B. als Wahrscheinlichkeit f&#252;r die Richtigkeit der Nullhypothese missinterpretiert. P-Werte spielen in zwei Denkschulen eine wichtige Rolle: Dem Signifikanztest nach Fisher und dem Hypothesentest nach Neyman und Pearson <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. W&#228;hrend der Signifikanztest zu einer quantitativen Interpretation des p-Wertes f&#252;hrt, in der er als ein kontinuierliches Ma&#223; f&#252;r die Evidenz gegen die Nullhypothese interpretiert wird, dient der p-Wert im Nullhypothesentest lediglich einer Entscheidung anhand vordefinierter Regeln.</Pgraph><Pgraph>Im Jahr 2016 ver&#246;ffentlichte die American Statistical Association (ASA) eine Erkl&#228;rung &#252;ber die Handhabung von p-Werten. Darin wurde unter anderem erkl&#228;rt: &#8222;Die weit verbreitete Verwendung von statistischer Signifikanz&#8216; (im Allgemeinen als p&#8804;0,05 interpretiert) als Lizenz f&#252;r die Behauptung eines wissenschaftlichen Befundes (oder einer impliziten Wahrheit) f&#252;hrt zu einer erheblichen Verzerrung des wissenschaftlichen Prozesses&#8220; <TextLink reference="3"></TextLink>. Im Jahr 2019 ver&#246;ffentlichten Amrhein et al. in der Fachzeitschrift Nature einen Artikel mit dem Titel &#8222;Retire statistical significance&#8220;, in dem sie auf die vielen Fallstricke bei der Dichotomisierung von p-Werten in &#8222;signifikant&#8220; (&#252;blicherweise p&#8804;0,05) und &#8222;nicht-signifikant&#8220; (&#252;blicherweise p&#62;0,05) aufmerksam machen und generell von dieser Dichotomisierung von p-Werten, d.h. der Einteilung in zwei Bereiche, abraten <TextLink reference="4"></TextLink>.</Pgraph><Pgraph>Ein Dilemma bei der Anwendung des Signifikanz- oder Hypothesentests bleibt das mangelnde Verst&#228;ndnis daf&#252;r, was diese Methoden &#252;berhaupt beantworten k&#246;nnen. Das Ziel dieser Arbeit ist es, wesentliche Hintergrundinformationen und die Schritte des Signifikanztests anhand einer fiktiven Studie zu veranschaulichen, in der zwei Gruppen miteinander verglichen werden. Die meisten Biostatistik-Lehrb&#252;cher liefern diese Hintergrundinformationen und die Schritte des Signifikanztests nicht konsistent. Der Artikel richtet sich an Personen, die nur vage beschreiben k&#246;nnen, was das Verfahren bewirkt. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Fundamental statistical concepts &#8722; standard deviation, sampling error, and standard error">
      <MainHeadline>Fundamental statistical concepts &#8722; standard deviation, sampling error, and standard error</MainHeadline><SubHeadline>Basic understanding &#8211; random sampling from a target population (population model)</SubHeadline><Pgraph>The target population of a scientific question represents the totality of all observation units. If the target population is the resident population of the FRG, the total population in 2016 is 82.5 million. Interesting variables of this population could be mean values and scatters of characteristics (e.g. mean sleep latency, i.e. the average time from switching off the light in the bedroom to falling asleep in minutes). These characteristics of variables of the target population, which are usually unknown to us, are abbreviated with Greek letters in the sense of a statistical convention. For example, the Greek letter &#181; and &#963; are used for the mean value and the variance of a variable in the target population.</Pgraph><Pgraph>When conducting empirical studies, it is generally not possible to examine the whole target population. For this reason, only a sample from the target population is examined and information from the sample is used to make statements about the target population. The statistical inference of a sample to a target population represents an inductive conclusion and is referred to in statistics as inferential statistics.</Pgraph><Pgraph>When random samples are drawn from a target population, the so-called sampling error (sampling variability) occurs. Since only a part of the target population is examined, there is variability from sample to sample. This can easily be illustrated by the toss of a fair coin. One would expect that 50&#37; of all tosses would show head. This expected value, also called probability, is the prognosis of a relative frequency. If the coin were flipped <TextGroup><PlainText>10 t</PlainText></TextGroup>imes, head could appear 4 times. Flipping the coin <TextGroup><PlainText>10 t</PlainText></TextGroup>imes again would not necessarily result in 4 times head, but e.g. 6 times head. This variability is an expression of the sampling error. Thus there can be no certain conclusion from a sample to a target population. The law of large numbers states that with increasing study size the sampling error becomes smaller and smaller. </Pgraph><SubHeadline>Variability versus uncertainty</SubHeadline><Pgraph>If, for example, one undertakes a study on the basis of a sample of 30 adult women with sleep disorders aged 55&#8211;64 living in Germany with the aim of estimating the true mean value &#181; of the sleep latency of the target population, the sample provides a mean value <ImgLink imgNo="1" imgType="inlineFigure"/> of e.g. <TextGroup><PlainText>38 min</PlainText></TextGroup> and a corresponding empirical variance s<Superscript>2</Superscript>, which is calculated according to the following formula:</Pgraph><Pgraph><ImgLink imgNo="2" imgType="inlineFigure"/> </Pgraph><Pgraph>Assuming a normal distribution of the variable sleep latency, a suitable statistical measure describing the variability in the sample would be the standard deviation (SD), which is the square root of the variance, in addition to the variance. The standard deviation s for the sample would be 8.5 min. If this study were repeated, in which a random sample of 30 adult women with sleep disorders aged 55&#8211;64, resident in Germany, is again obtained, the mean value would be for example 33 min and the standard deviation would be for example 8.4 min. The standard error of the mean (SE) is not a measure that quantifies the variability of the measured values within the sample, but rather the uncertainty of the estimate of the mean &#181; of the target population <TextLink reference="5"></TextLink>. The standard error is calculated according to the following formula:</Pgraph><Pgraph><ImgLink imgNo="3" imgType="inlineFigure"/> </Pgraph><Pgraph>where <Mark2>n</Mark2> is the number of observations. It can be seen that the smaller the variability of the characteristic in the sample and the larger the sample, the smaller the SE becomes.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Statistische Grundbegriffe &#8722; Standardabweichung, Stichprobenfehler und Standardfehler">
      <MainHeadline>Statistische Grundbegriffe &#8722; Standardabweichung, Stichprobenfehler und Standardfehler</MainHeadline><SubHeadline>Grundlegendes Verst&#228;ndnis &#8211; Zufallsstichproben aus einer Zielpopulation (Bev&#246;lkerungsmodell)</SubHeadline><Pgraph>Die Zielpopulation einer wissenschaftlichen Frage stellt die Gesamtheit aller Beobachtungseinheiten dar. Wenn die Zielpopulation die Wohnbev&#246;lkerung der BRD ist, betr&#228;gt die Gesamtbev&#246;lkerung im Jahr 2016 82,5 Millionen. Interessante Variablen dieser Grundgesamtheit k&#246;nnten Mittelwerte und Streuungen von Merkmalen sein (z.B. die mittlere Schlaflatenz, d.h. die durchschnittliche Zeit vom Ausschalten des Lichts im Schlafzimmer bis zum Einschlafen in Minuten). Diese Merkmale von Variablen der Zielpopulation, die uns in der Regel unbekannt sind, werden im Sinne einer statistischen Konvention mit griechischen Buchstaben abgek&#252;rzt. Beispielsweise werden die griechischen Buchstaben &#181; und s f&#252;r den Mittelwert und die Varianz einer Variablen der Zielpopulation verwendet. </Pgraph><Pgraph>Bei der Durchf&#252;hrung empirischer Studien ist es im Allgemeinen nicht m&#246;glich, die gesamte Zielpopulation zu untersuchen. Aus diesem Grund wird nur eine Stichprobe aus der Zielpopulation untersucht und die Informationen aus der Stichprobe werden verwendet, um Aussagen &#252;ber die Zielpopulation zu treffen. Der statistische R&#252;ckschluss einer Stichprobe auf eine Zielpopulation stellt eine induktive Schlussfolgerung dar und wird in der Statistik als Inferenzstatistik bezeichnet.</Pgraph><Pgraph>Wenn aus einer Zielpopulation Zufallsstichproben gezogen werden, tritt der so genannte Stichprobenfehler (Stichprobenvariabilit&#228;t) auf. Da nur ein Teil der Zielpopulation untersucht wird, gibt es eine Variabilit&#228;t von Stichprobe zu Stichprobe. Dies kann leicht durch den Wurf einer ungezinkten M&#252;nze veranschaulicht werden. Man w&#252;rde erwarten, dass 50&#37; aller W&#252;rfe Kopf zeigen w&#252;rden. Dieser Erwartungswert, auch Wahrscheinlichkeit genannt, ist die Prognose einer relativen H&#228;ufigkeit. Wenn die M&#252;nze 10-mal geworfen w&#252;rde, k&#246;nnte Kopf 4-mal erscheinen. W&#252;rde man die M&#252;nze noch einmal 10-mal werfen, so w&#252;rde nicht unbedingt Kopf 4-mal, sondern z.B. 6-mal auftreten. Diese Variabilit&#228;t ist Ausdruck des Stichprobenfehlers. Es kann also keine sichere Schlussfolgerung aus einer Stichprobe auf eine Zielpopulation gezogen werden. Das Gesetz der gro&#223;en Zahlen besagt, dass mit zunehmender Studiengr&#246;&#223;e der Stichprobenfehler immer kleiner wird.</Pgraph><SubHeadline>Variabilit&#228;t versus Unsicherheit</SubHeadline><Pgraph>F&#252;hrt man z.B. eine Studie auf der Basis einer Stichprobe von 30 erwachsenen Frauen mit Schlafst&#246;rungen im Alter von 55&#8211;64 Jahren, die in Deutschland leben, durch, um den wahren Mittelwert &#181; der Schlaflatenz der Zielpopulation abzusch&#228;tzen, so liefert die Stichprobe einen Mittelwert  <ImgLink imgNo="1" imgType="inlineFigure"/> von z.B. 38 min und eine entsprechende empirische Varianz s<Superscript>2</Superscript>, die nach folgender Formel berechnet wird:</Pgraph><Pgraph><ImgLink imgNo="2" imgType="inlineFigure"/> </Pgraph><Pgraph>Unter der Annahme einer Normalverteilung der Variable Schlaflatenz w&#228;re ein geeignetes statistisches Ma&#223;, das die Variabilit&#228;t in der Stichprobe beschreibt, neben der Varianz die Standardabweichung (SD), die die Quadratwurzel der Varianz ist. Die Standardabweichung s f&#252;r die Stichprobe w&#252;rde 8,5 min betragen. W&#252;rde diese Studie wiederholt, bei der wiederum eine Zufallsstichprobe von 30 erwachsenen Frauen mit Schlafst&#246;rungen im Alter von 55&#8211;64 Jahren, die in Deutschland wohnen, gewonnen wird, so w&#252;rde der Mittelwert z.B. 33 min und die Standardabweichung z.B. 8,4 min betragen. Der Standardfehler des Mittelwertes (SE) ist kein Ma&#223;, das die Variabilit&#228;t der Messwerte innerhalb der Stichprobe quantifiziert, sondern vielmehr die Unsicherheit der Sch&#228;tzung des Mittelwertes &#181; der Zielpopulation <TextLink reference="5"></TextLink>. Der Standardfehler wird nach der folgenden Formel berechnet:</Pgraph><Pgraph><ImgLink imgNo="3" imgType="inlineFigure"/> </Pgraph><Pgraph>wobei n die Anzahl der Beobachtungen ist. Es ist zu erkennen, dass der Standardfehler umso kleiner wird, je kleiner die Variabilit&#228;t des Merkmals in der Stichprobe und je gr&#246;&#223;er die Stichprobe ist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="How does a statistical test work &#8211; the t-test as an example">
      <MainHeadline>How does a statistical test work &#8211; the t-test as an example</MainHeadline><SubHeadline>Two-group comparison</SubHeadline><Pgraph>In an example of two randomly sampled groups, we compare the effect of a new sleeping pill on sleep latency. The verum group includes 32 persons, the placebo group 30 persons (cf. Table 1 <ImgLink imgNo="1" imgType="table"/>). In both groups, sleep latency was determined after 7 days of treatment in the sleep laboratory (polysomnography). The null hypothesis is that the two groups do not differ with regard to sleep latency. Several tests have been suggested for such a group comparison. </Pgraph><Pgraph>In Table 2 <ImgLink imgNo="2" imgType="table"/>, we briefly explain the permutation test that is historically important. The permutation test is rarely used nowadays because the computing effort may be huge. In our example, there are 4.5 times 10<Superscript>17</Superscript> permutations. Therefore, in our case the t-test would be preferred which can be regarded as a good approximation of the permutation test and is most popular in the biomedical literature.</Pgraph><Pgraph>A comparison of the mean values of the two samples shows that the mean sleep latency in the verum group is 5 min lower than in the placebo group. In both groups, sleep latency varied, as can be seen from the standard deviations. Both samples are associated with random error due to sampling error.</Pgraph><Pgraph>The question that arises here is whether the difference of 5 min is only an expression of a random error or whether this difference is an expression of an actual effect of the sleeping pill. In the first case, both samples would come from identical populations (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>), in the second case, the two samples would come from different populations, i.e., populations with &#181;<Subscript>p</Subscript>&#8800;&#181;<Subscript>v</Subscript>. Figure 1 <ImgLink imgNo="1" imgType="figure"/> illustrates the problem: could it be that placebo and verum do not differ with respect to the true sleep latency averages, i.e. come from the same population with e.g. &#181;&#61;<TextGroup><PlainText>38 min</PlainText></TextGroup>, and the two sample averages (33 min and <TextGroup><PlainText>38 min</PlainText></TextGroup>) are merely an expression of the sampling error, similar to the coin toss of a fair coin&#63; Or could it be that the new sleep pill actually has an effect on sleep latency so that the true mean values come from target populations with different mean values (&#181;<Subscript>p</Subscript>&#8800;&#181;<Subscript>v</Subscript>)&#63;</Pgraph><SubHeadline>Expectation of statistical variability of study results due to random error</SubHeadline><Pgraph>A significance test can provide some, albeit imperfect, information on these central questions. To answer the above questions, the behavior of the mean difference due to the random error must first be determined, assuming that a null hypothesis H<Subscript>0</Subscript> were true. There is an infinite set of null hypotheses. In medicine, the nil hypothesis has prevailed, i.e. the null hypothesis of no association between treatment assignment (placebo or verum) and sleep latency (i.e. &#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>). The Greek letters indicate that this null hypothesis refers to the target population. Under this hypothesis, mean differences that are not equal to zero are an expression of the random error. Similar to how extreme outcomes of experiments are rarely observed when tossing a fair coin (e.g. 10 tosses and it appears 10 times head), the difference of the means rarely takes extreme values under the null hypothesis.</Pgraph><Pgraph>But how many permuted arrangements of patients split into two groups do exist and how would differences of the means in these arrangements behave if the null hypothesis &#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript> were true&#63; The difficulty in answering this question lies in the fact that the behavior of the difference of the means under the null hypothesis depends on the variability of the sleep latency within the samples and the size of the samples.</Pgraph><Pgraph>So in order to predict how the differences of the means would behave if the null hypothesis were true, one has to take these two influencing variables into account. Here a kind of normalization is helpful, which will be illustrated by the following example. A difference of means of <TextGroup><PlainText>3 s</PlainText></TextGroup>econds is observed for two groups of marathon runners (2 hours, 3 min, 40 seconds versus 2 hours, 3 min, <TextGroup><PlainText>43 s</PlainText></TextGroup>econds) and for two groups of 400 meters runners (<TextGroup><PlainText>46 s</PlainText></TextGroup>econds versus 49 seconds). For similar groups of runners, the differences of 3 seconds have a different meaning. For marathon runners, the difference is very small in relation to the average total duration of the run, while it is relatively larger for 400 meters runners. The relation to the average running time is a kind of normalization. The choice of statistical test, which ensures such standardization, determines which test statistics is chosen. If, for example, the t-test is selected for independent samples, the corresponding test variable is the t-statistic, for the Chi-square test it is the Chi-square-sta<TextGroup><PlainText>tist</PlainText></TextGroup>ic etc. The choice of the appropriate statistical test again depends on criteria, which are briefly explained in Table 3 <ImgLink imgNo="3" imgType="table"/>.</Pgraph><Pgraph>The t-statistic is defined as:</Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/> </Pgraph><Pgraph>The expected difference of means in the t-statistic formula is the value assumed under the null hypothesis H<Subscript>0</Subscript>. In the case of the nil hypothesis &#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript> a difference of zero minutes is expected. This simplifies the t-statistics:</Pgraph><Pgraph><ImgLink imgNo="5" imgType="inlineFigure"/> </Pgraph><Pgraph>In the case of unequal variances, the standard error of the difference of the means is calculated according to the following formula:</Pgraph><Pgraph><ImgLink imgNo="6" imgType="inlineFigure"/> </Pgraph><Pgraph>with</Pgraph><Pgraph>n<Subscript>1</Subscript>: number of patients in group 1 (placebo)<LineBreak></LineBreak>n<Subscript>2</Subscript>: number of patients in group 2 (verum)<LineBreak></LineBreak><ImgLink imgNo="7" imgType="inlineFigure"/>: variances of sleep latency in group 1<LineBreak></LineBreak><ImgLink imgNo="8" imgType="inlineFigure"/>: variances of sleep latency in group </Pgraph><Pgraph>The formula changes if the variances are equal (formula not shown). The standard error of the difference of the means depends on the variances of the variable (sleep latency) and the group sizes of the groups being compared. After determining the standard error, the t-statistic for two independent samples with unequal variances is:</Pgraph><Pgraph><ImgLink imgNo="9" imgType="inlineFigure"/> </Pgraph><Pgraph>Independence means that the two patient groups are independent of each other and also that patients within the groups are independent of each other. For example, independence is violated if the outcome of a patient would contribute statistically to both patient groups. Similarly, independence would be violated if patients in the same group influenced each other in terms of outcomes of interest. Independence is also violated when a characteristic is collected from a group of patients several times over time (e.g. before and after treatment). The data of the sleep study now have the following t-value:</Pgraph><Pgraph><ImgLink imgNo="10" imgType="inlineFigure"/> </Pgraph><Pgraph>The t-value for the concrete study is therefore &#43;2.33. This distribution can be determined by using the so-called degrees of freedom (df). The number of degrees of freedom is the number of values that can be freely varied without changing the mean values. If, for example, there are three numbers k, l and m and their sum is 100, it is clear that if two of the three numbers are known, the <TextGroup><PlainText>third n</PlainText></TextGroup>umber is automatically given. If k&#61;20 and l&#61;70, m must be 10. With 62 patients in the study one has n<Subscript>1</Subscript>&#8211;1&#43;n<Subscript>2</Subscript>&#8211;1&#61;30&#8211;1&#43;32&#8211;1&#61;60 degrees of freedom. If <TextGroup><PlainText>60 v</PlainText></TextGroup>alues were freely selected, then one has no further choice for the last two observations.</Pgraph><Pgraph>With the help of the 60 degrees of freedom, the appropriate distribution can now be displayed under the assumption of the null hypothesis. The illustration of the formula for creating the t-distribution is omitted for didactic reasons (it is the ratio of the standard normal variable z and the square root of a chi-square value with n degrees of freedom divided by n). The t-distribution is symmetrical and bell-shaped like the normal distribution (Figure 2 <ImgLink imgNo="2" imgType="figure"/>).  </Pgraph><Pgraph>The probability density function (PDF) supplies so-called density values depending on the t-values. In contrast to probabilities, which can only assume values between 0 and 1, densities can also assume values &#62;1.  </Pgraph><SubHeadline>Interpretation of the t-value</SubHeadline><Pgraph>A single density value of the PDF has no practical interpretation. The total area under the curve of the PDF is 1 so that (partial) areas under the probability density function have the interpretation of probabilities. In the context of the study, it is now possible to answer the question of how high the probability is that the t value assumes &#8805;&#43;2.33 under the null hypothesis (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>), i.e. t&#61;0.</Pgraph><Pgraph>The cumulative distribution function (CDF) returns the probability that a t-value is smaller than or equal to a concrete value t<Subscript>k</Subscript>. It is also possible to use the CDF to calculate the probability that t becomes &#8805;t<Subscript>k</Subscript> by subtracting the probability for t values &#60;t<Subscript>k</Subscript> from the value of one. The formula for this function is omitted at this point, but can easily be found on the Internet <TextLink reference="6"></TextLink>. In the case of the sleep study, t<Subscript>k</Subscript>&#61;&#43;2.33. Figure 3 <ImgLink imgNo="3" imgType="figure"/> shows the area under the curve for t&#8805;&#43;2.33 for a one-sided view and for the areas under the curve for t&#8804;&#8211;2.33 and t&#8805;&#43;2.33, a two-sided view.</Pgraph><Pgraph>The one-sided area has an amount of 0.01. This means that the probability that studies under the assumption of the null hypothesis (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>) generate a t value of &#8805;&#43;2.33 is 1&#37;. On a two-sided basis, the probability that studies assuming the null hypothesis (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>) generate a t value of &#8804;&#8211;2.33 or &#8805;&#43;2.33 is 2&#37;. The probability of 1&#37; corresponds to the one-sided p-value, while the probability of 2&#37; corresponds to the two-sided p-value.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Wie funktioniert ein statistischer Test &#8211; der t-Test als Beispiel">
      <MainHeadline>Wie funktioniert ein statistischer Test &#8211; der t-Test als Beispiel</MainHeadline><SubHeadline>Zwei-Gruppen-Vergleich</SubHeadline><Pgraph>In einem Beispiel von zwei zuf&#228;llig ausgew&#228;hlten Gruppen vergleichen wir die Wirkung eines neuen Schlafmittels auf die Schlaflatenz. Die Verumgruppe umfasst 32 Personen, die Placebogruppe 30 Personen (vgl. Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). In beiden Gruppen wurde die Schlaflatenz nach 7 Tagen Behandlung im Schlaflabor (Polysomnographie) bestimmt. Die Nullhypothese ist, dass sich die beiden Gruppen hinsichtlich der Schlaflatenz nicht unterscheiden. Es wurden mehrere Tests f&#252;r einen solchen Gruppenvergleich vorgeschlagen.</Pgraph><Pgraph>In Tabelle 2 <ImgLink imgNo="2" imgType="table"/> erl&#228;utern wir kurz den Permutationstest, der historisch wichtig ist. Der Permutationstest wird heutzutage nur noch selten verwendet, da der Rechenaufwand sehr gro&#223; sein kann. In unserem Beispiel gibt es 4,5 mal 10<Superscript>17</Superscript> Permutationen. Daher w&#228;re in unserem Fall der t-Test zu bevorzugen, der als gute Ann&#228;herung an den Permutationstest angesehen werden kann und in der biomedizinischen Literatur am beliebtesten ist.</Pgraph><Pgraph>Ein Vergleich der Mittelwerte der beiden Stichproben zeigt, dass die mittlere Schlaflatenz in der Verumgruppe 5 min kleiner ist als in der Placebogruppe. In beiden Gruppen variierte die Schlaflatenz, wie aus den Standardabweichungen ersichtlich ist. Beide Stichproben sind aufgrund von Stichprobenfehlern mit einem Zufallsfehler verbunden.</Pgraph><Pgraph>Die Frage, die sich hier stellt, ist, ob die Differenz von<TextGroup><PlainText> 5 min</PlainText></TextGroup> nur Ausdruck eines zuf&#228;lligen Fehlers ist oder ob diese Differenz Ausdruck einer tats&#228;chlichen Wirkung des Schlafmittels ist. Im ersten Fall w&#252;rden beide Stichproben aus identischen Populationen stammen (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>), im zweiten Fall w&#252;rden die beiden Stichproben aus unterschiedlichen Populationen stammen, d.h. aus Populationen mit &#181;<Subscript>p</Subscript>&#8800;&#181;<Subscript>v</Subscript>. Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> veranschaulicht das Problem: K&#246;nnte es sein, dass sich Placebo und Verum in Bezug auf die wahren Schlaflatenz-Durchschnitte nicht unterscheiden, d.h. aus der gleichen Population mit z.B. &#181;&#61;38 min stammen, und die beiden Stichproben-Durchschnitte (33 min und 38 min) lediglich ein Ausdruck des Stichprobenfehlers sind, &#228;hnlich wie beim M&#252;nzwurf einer ungezinkten M&#252;nze&#63; Oder k&#246;nnte es sein, dass das neue Schlafmittel tats&#228;chlich einen Einfluss auf die Schlafla<TextGroup><PlainText>t</PlainText></TextGroup>enz hat, so dass die wahren Mittelwerte aus Zielpopulationen mit unterschiedlichen Mittelwerten stammen (&#181;<Subscript>p</Subscript>&#8800;&#181;<Subscript>v</Subscript>)&#63;</Pgraph><SubHeadline>Erwartung der statistischen Variabilit&#228;t von Studienergebnissen aufgrund eines Zufallsfehlers</SubHeadline><Pgraph>Ein Signifikanztest kann gewisse, wenn auch unvollst&#228;ndige Informationen zu diesen zentralen Fragen liefern. Zur Beantwortung der obigen Fragen muss zun&#228;chst das Verhalten der Differenz der Mittelwerte aufgrund des Zufallsfehlers bestimmt werden, wobei angenommen wird, dass eine Nullhypothese H<Subscript>0</Subscript> wahr w&#228;re. Es gibt eine unendliche Menge von Nullhypothesen. In der Medizin hat sich die Nil-Hypothese durchgesetzt, d.h. die Nullhypothese, dass es keinen Zusammenhang zwischen der Behandlungszuweisung (Placebo oder Verum) und der Schlaflatenz gibt (d.h. &#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>). Die griechischen Buchstaben zeigen an, dass sich diese Nullhypothese auf die Zielpopulation bezieht. Unter dieser Hypothese sind Mittelwertunterschiede, die nicht gleich Null sind, ein Ausdruck des Zufallsfehlers. &#196;hnlich wie extreme Ergebnisse von Experimenten selten beobachtet werden, wenn eine ungezinkte M&#252;nze geworfen wird (z.B. 10 W&#252;rfe und es erscheint 10-mal Kopf), nimmt die Differenz der Mittelwerte unter der Nullhypothese selten extreme Werte an.</Pgraph><Pgraph>Aber wie viele permutierte Anordnungen von Patienten, die in zwei Gruppen aufgeteilt sind, gibt es und wie w&#252;rden sich die Unterschiede der Mittel in diesen Arrangements verhalten, wenn die Nullhypothese &#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript> wahr w&#228;re&#63; Die Schwierigkeit bei der Beantwortung dieser Frage liegt darin, dass das Verhalten der Mittelwertunterschiede unter der Nullhypothese von der Variabilit&#228;t der Schlaflatenz innerhalb der Stichproben und der Gr&#246;&#223;e der Stichproben abh&#228;ngt.</Pgraph><Pgraph>Um also vorherzusagen, wie sich die Unterschiede der Mittelwerte verhalten w&#252;rden, wenn die Nullhypothese wahr w&#228;re, muss man diese beiden Einflussgr&#246;&#223;en ber&#252;cksichtigen. Hier ist eine Art Normalisierung hilfreich, die durch das folgende Beispiel veranschaulicht werden soll. Ein Mittelwertunterschied von 3 Sekunden wird f&#252;r zwei Gruppen von Marathonl&#228;ufern (2 Stunden, 3 Minuten, 40 Sekunden gegen&#252;ber 2 Stunden, 3 Minuten, <TextGroup><PlainText>43 S</PlainText></TextGroup>ekunden) und f&#252;r zwei Gruppen von 400-Meter-L&#228;ufern (46 Sekunden gegen&#252;ber 49 Sekunden) beobachtet. Bei &#228;hnlichen L&#228;ufer-Gruppen haben die Unterschiede von 3 Sekunden eine unterschiedliche Bedeutung. Bei Marathonl&#228;ufern ist der Unterschied im Verh&#228;ltnis zur durchschnittlichen Gesamtdauer des Laufs sehr gering, w&#228;hrend er bei 400-Meter-L&#228;ufern relativ gro&#223; ist. Das Verh&#228;ltnis zur durchschnittlichen Laufdauer ist eine Art Normalisierung. Die Wahl des statistischen Tests, der eine solche Normierung gew&#228;hrleistet, bestimmt, welche Teststatistik gew&#228;hlt wird. Wenn z.B. der t-Test f&#252;r unabh&#228;ngige Stichproben gew&#228;hlt wird, ist die entsprechende Testvariable die t-Statistik, f&#252;r den Chi-Quadrat-Test die Chi-Quadrat-Statistik usw. Die Wahl des geeigneten statistischen Tests h&#228;ngt wiederum von Kriterien ab, die in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> kurz erl&#228;utert werden.</Pgraph><Pgraph>Die t-Statistik ist definiert als: </Pgraph><Pgraph><ImgLink imgNo="4" imgType="inlineFigure"/> </Pgraph><Pgraph>Die erwartete Differenz der Mittelwerte in der Formel der t-Statistik ist der unter der Nullhypothese H<Subscript>0</Subscript> angenommene Wert. Im Falle der Nullhypothese &#181;p&#61;&#181;v wird eine Differenz von null Minuten erwartet. Dies vereinfacht die t-Statistik:</Pgraph><Pgraph><ImgLink imgNo="5" imgType="inlineFigure"/> </Pgraph><Pgraph>Bei ungleichen Varianzen wird der Standardfehler der Differenz der Mittelwerte nach folgender Formel berechnet:</Pgraph><Pgraph><ImgLink imgNo="6" imgType="inlineFigure"/> </Pgraph><Pgraph>mit</Pgraph><Pgraph>n<Subscript>1</Subscript>: Anzahl von Patienten in Gruppe 1 (Placebo)<LineBreak></LineBreak>n<Subscript>2</Subscript>: Anzahl von Patienten in Gruppe 2 (Verum)<LineBreak></LineBreak><ImgLink imgNo="7" imgType="inlineFigure"/>: Varianz der Schlaflatenz in Gruppe 1<LineBreak></LineBreak><ImgLink imgNo="8" imgType="inlineFigure"/>: Varianz der Schlaflatenz in Gruppe 2</Pgraph><Pgraph>Die Formel &#228;ndert sich, wenn die Varianzen gleich sind (Formel nicht dargestellt). Der Standardfehler der Differenz der Mittelwerte h&#228;ngt von den Varianzen der Variablen (Schlaflatenz) und den Gruppengr&#246;&#223;en der zu vergleichenden Gruppen ab. Nach der Bestimmung des Standardfehlers ergibt sich die t-Statistik f&#252;r zwei unabh&#228;ngige Stichproben mit ungleichen Varianzen:</Pgraph><Pgraph><ImgLink imgNo="9" imgType="inlineFigure"/> </Pgraph><Pgraph>Unabh&#228;ngigkeit bedeutet, dass die beiden Patientengruppen voneinander unabh&#228;ngig sind und auch dass die Patienten innerhalb der Gruppen unabh&#228;ngig voneinander sind. Die Unabh&#228;ngigkeit wird beispielsweise verletzt, wenn das Ergebnis eines Patienten statistisch gesehen zu beiden Patientengruppen beitragen w&#252;rde. Ebenso wird die Unabh&#228;ngigkeit verletzt, wenn Patienten derselben Gruppe sich gegenseitig in Bezug auf die Ergebnisse von Interesse beeinflussen w&#252;rden. Die Unabh&#228;ngigkeit ist auch verletzt, wenn ein Merkmal von einer Gruppe von Patienten im Laufe der Zeit mehrfach erhoben wird (z.B. vor und nach der Behandlung). Die Daten der Schlafstudie haben nun folgenden t-Wert:</Pgraph><Pgraph><ImgLink imgNo="10" imgType="inlineFigure"/> </Pgraph><Pgraph>Der t-Wert f&#252;r die konkrete Studie betr&#228;gt daher &#43;2,33. Diese Verteilung kann mit Hilfe der sogenannten Freiheitsgrade (df) bestimmt werden. Die Anzahl der Freiheitsgrade ist die Anzahl der Werte, die ohne Ver&#228;nderung der Mittelwerte frei variiert werden k&#246;nnen. Wenn es z.B. drei Zahlen k, l und m gibt und ihre Summe 100 ist, ist klar, dass, wenn zwei der drei Zahlen bekannt sind, automatisch die dritte Zahl gegeben ist. Wenn k&#61;20 und l&#61;70 ist, muss m 10 sein. Bei 62 Patienten in der Studie hat man n<Subscript>1</Subscript>&#8211;1&#43;n<Subscript>2</Subscript>&#8211;1&#61;30&#8211;1&#43;32&#8211;1&#61;60 Freiheitsgrade. Wurden 60 Werte frei gew&#228;hlt, so hat man f&#252;r die letzten beiden Beobachtungen keine weitere Wahl.</Pgraph><Pgraph>Mit Hilfe der 60 Freiheitsgrade, kann nun die geeignete Verteilung unter der Annahme der Nullhypothese dargestellt werden. Auf die Darstellung der Formel zur Erstellung der t-Verteilung wird aus didaktischen Gr&#252;nden verzichtet (es ist das Verh&#228;ltnis der Standard-Normalvariable z und der Quadratwurzel eines Chi-Quadrat-Wertes mit n Freiheitsgraden geteilt durch n). Die t-Verteilung ist symmetrisch und glockenf&#246;rmig wie die Normalverteilung (Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>).</Pgraph><Pgraph>Die Wahrscheinlichkeitsdichtefunktion (PDF) liefert in Abh&#228;ngigkeit von den t-Werten sogenannte Dichtewerte. Im Gegensatz zu den Wahrscheinlichkeiten, die nur Werte zwischen 0 und 1 annehmen k&#246;nnen, k&#246;nnen Dichten auch Werte &#62;1 annehmen.</Pgraph><SubHeadline>Interpretation des t-Wertes</SubHeadline><Pgraph>Ein einziger Dichtewert der PDF hat keine praktische Bedeutung. Die Gesamtfl&#228;che unter der Kurve der PDF ist 1, so dass (Teil-)Fl&#228;chen unter der Wahrscheinlichkeitsdichtefunktion die Interpretation von Wahrscheinlichkeiten haben. Im Rahmen der Studie ist es nun m&#246;glich, die Frage zu beantworten, wie hoch die Wahrscheinlichkeit ist, dass der t-Wert &#8805;&#43;2,33 unter der Nullhypothese (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>) annimmt, d.h. t&#61;0.</Pgraph><Pgraph>Die kumulative Verteilungsfunktion (CDF) liefert die Wahrscheinlichkeit, dass ein t-Wert kleiner oder gleich einem konkreten Wert t<Subscript>k</Subscript> ist. Es ist auch m&#246;glich, die CDF zu verwenden, um die Wahrscheinlichkeit zu berechnen, dass t&#8805;t<Subscript>k</Subscript> wird, indem die Wahrscheinlichkeit f&#252;r t-Werte &#60;t<Subscript>k</Subscript> vom Wert 1 subtrahiert wird. Die Formel f&#252;r diese Funktion wird an dieser Stelle weggelassen, kann aber im Internet leicht gefunden werden <TextLink reference="6"></TextLink>. Im Fall der Schlafstudie ist t<Subscript>k</Subscript>&#8805;&#43;2,33. Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> zeigt die Fl&#228;che unter der Verteilung f&#252;r t&#8805;&#43;2,33 bei einseitiger Betrachtung und f&#252;r die Fl&#228;chen unter der Verteilung f&#252;r t&#8804;&#8211;2,33 und t&#8805;&#43;2,33 bei zweiseitiger Betrachtung.</Pgraph><Pgraph>Der einseitige Bereich hat einen Betrag von 0,01. Das bedeutet, dass die Wahrscheinlichkeit, dass Studien unter der Annahme der Nullhypothese (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>) einen t-Wert von &#8805;&#43;2,33 erzeugen, 1&#37; betr&#228;gt. Bei zweiseitiger Betrachtung betr&#228;gt die Wahrscheinlichkeit, dass Studien unter der Annahme der Nullhypothese (&#181;<Subscript>p</Subscript>&#61;&#181;<Subscript>v</Subscript>) einen t-Wert von &#8804;&#8211;2,33 oder &#8805;&#43;2,33 erzeugen, 2&#37;. Die Wahrscheinlichkeit von 1&#37; entspricht dem einseitigen p-Wert, w&#228;hrend die Wahrscheinlichkeit von 2&#37; dem zweiseitigen p-Wert entspricht.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="The p-value &#8211; explanation and some caveats">
      <MainHeadline>The p-value &#8211; explanation and some caveats</MainHeadline><SubHeadline>Interpretation of the p-value</SubHeadline><Pgraph>The p-value thus provides the probability (criterion 1) under a null hypothesis (criterion 2) of finding a result such as the present study result or observing study results that deviate even more from the null hypothesis (criterio<TextGroup><PlainText>n 3</PlainText></TextGroup>). All three criteria are necessary criteria for the definition of the p-value. </Pgraph><Pgraph>It is important to note here that the p-value makes a statement about the behavior of a test statistic in presence of random error given the null hypothesis. At a p-value of 0.01, only 1&#37; of the studies would generate a t-value of &#8805;&#43;2.33 if the null hypothesis were true. Thus, the p-value also makes a statement about the outcomes of studies that were not observed (counterfactual element). Furthermore, it must be emphasized that the p-value was calculated under a condition: the condition that the null hypothesis H<Subscript>0</Subscript> were true, which is why the p-value is also referred to as a conditional probability. The null hypothesis was merely assumed, regardless of how large the truth content of this hypothesis is. </Pgraph><Pgraph>Fisher interpreted the p-value as a continuous measure of evidence against the null hypothesis. He said: &#8220;No scientific worker has a fixed level of significance at which from year to year, and in all circumstances he rejects hypotheses; he rather gives mind to each particular case in the light of his evidence and his ideas&#8221; <TextLink reference="7"></TextLink>. This means that, according to Fisher&#8217;s school, the classification of a p-value is context-dependent and the application of a fixed threshold of typically 0.05 is not justified. The orthodox rejection of a null hypothesis at a pre-defined threshold of 0.05 comes from the competing school of Neyman and Pearson, who introduced the hypothesis test as a decision-theoretical procedure.</Pgraph><Pgraph>What does a large p-value of e.g. 0.70 mean&#63; Technically speaking, it means that the probability is 70&#37; of the observed study outcome or of study outcomes deviating even more from the null hypothesis under the assumption of the null hypothesis. In practice, this means that the significance test provided little evidence against the tested null hypothesis or statistical model. However, it does not mean that the null hypothesis is true. The p-value is a function of the strength of effect (e.g. observed mean difference, here 5 min) and the study size (here <TextGroup><PlainText>62 women</PlainText></TextGroup>). With a large p-value, a strong effect can actually be present, but the study size was very small. Typical errors in the definition of p-values are discussed below. </Pgraph><Pgraph>&#8220;The p-value is the probability that the null hypothesis is true.&#8221; The p-value does not provide a statement about the probability of the truth of the null hypothesis, but the p-value was calculated under the assumption that the null hypothesis was true. Incidentally, the reference to even more extreme outcomes of the study (counterfactual element) is missing here. </Pgraph><Pgraph>&#8220;The p-value is the probability of type I error.&#8221; This statement is incorrect because it mixes principles of the significance test (Fisher) with those of the hypothesis test (Neyman &#38; Pearson). According to the school of Fisher, there is no a priori fixed level of significance (also called type I error). In contrast, according to Neyman &#38; Pearson, the level of significance, called type I error, is fixed before the study started whereas the p-value is derived from the statistical model and the study data after the study has been done. According to Neyman &#38; Pearson, the type I error remains as it is after the end of the study and the p-value is compared to the a priori fixed type I error for making a decision.</Pgraph><Pgraph>The type I error, also called &#945; error, is determined according to Neyman and Pearson before the beginning of the study. At the end of the study, the p-value which is obtained from the null hypothesis, the statistical model (e.g. t-test) and the study data is compared with the &#945; (most often 0.05). The statement that &#8220;a low p-value excludes chance as an explanation for an observed difference&#8221; proves a gross lack of understanding.</Pgraph><Pgraph>Almost correct sounding definitions of the p-value are for example: &#8220;The p-value is the probability to observe the present study result or even more extreme study results.&#8221; In this definition, the central condition (criterion 2) of the p-value is missing: the calculation takes place under the assumption that the null hypothesis were true. The following incorrect definition is also popular: &#8220;The p-value is the probability of observing the present study result under the null hypothesis.&#8221; Here criterion 3 is missing: the p-value also makes a statement about unobserved study results that deviate even more from the null hypothesis than the present study result. </Pgraph><Pgraph>In the significance test according to Fisher, there is no so-called type I error and type II error, there is no confidence interval, no alternative hypothesis and no concept for statistical power or sample size calculations. These phenomena originate from Neyman &#38; Pearson and only become relevant when performing hypothesis tests, which are decision-theoretically only valid if all steps of the hypothesis test procedure are adhered to, which is why authors also speak of Neyman-Pearson orthodoxy <TextLink reference="8"></TextLink>:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Definition of the null and alternative hypothesis before the start of the study.</ListItem><ListItem level="1" levelPosition="2" numString="2.">Determination of type I and type II error before the start of the study.</ListItem><ListItem level="1" levelPosition="3" numString="3.">Determination of test statistics before the start of the study.</ListItem><ListItem level="1" levelPosition="4" numString="4.">Calculation of the required sample size before the start of the study.</ListItem><ListItem level="1" levelPosition="5" numString="5.">Conduct the study in compliance with the required sample size</ListItem><ListItem level="1" levelPosition="6" numString="6.">Calculation of the test statistics and comparison with a critical value of the test statistics or comparison of the p-value with the specified type I error (after the study).</ListItem><ListItem level="1" levelPosition="7" numString="7.">Decision: if p&#8804;&#945;, the null hypothesis is rejected, if p&#62;&#945;, the null hypothesis is not rejected (after the study).</ListItem></OrderedList></Pgraph><Pgraph>If steps 1&#8211;7 are not complied with, the decision-theoretical procedure of hypothesis testing loses its validity. The decision (7<Superscript>th</Superscript> step) must be consistently applied. If, for example, &#945;&#61;0.05 was specified and p&#61;0.07 came out at the end of the study, then according to Neyman &#38; Pearson it cannot be said that there was a &#8220;significance trend&#8221; or something similar, but only that the null hypothesis was not rejected. Likewise p-values &#8804;0.05 are not sub-catego<TextGroup><PlainText>r</PlainText></TextGroup>ized into e.g. p&#8804;0.05&#42;, p&#8804;0.01&#42;&#42; and p&#8804;0.001&#42;&#42;&#42; according to Neyman &#38; Pearson.</Pgraph><SubHeadline>Conditions necessary for the correct interpretation of the p-value</SubHeadline><Pgraph>Many introductory textbooks of biostatistics merely introduce the theory of significance testing. This means that there are no sources of error other than random error. In the practice of empirical studies, however, this is an unrealistic assumption. Greenland et al. <TextLink reference="9"></TextLink> rightly point out that in the case of a low p-value only a signal is given that something may be wrong with the so-called statistical model. The statistical model consists of three components: the chosen test statistics, the chosen null hypothesis and the empirical study data.</Pgraph><Pgraph>In addition to the hypothesis that the low p-value represents evidence against the null hypothesis, the following alternative explanations need to be considered, all of which are related to the statistical model and thus influence the p-value:</Pgraph><Pgraph><UnorderedList><ListItem level="1">An unsuitable test statistic was applied.</ListItem><ListItem level="1">Selection bias into the study or selection bias during follow-up of study subjects occurred.</ListItem><ListItem level="1">The comparison between two samples is confounded (mixing of effects).</ListItem><ListItem level="1">There is information bias in the measurement of the variables in the study.</ListItem></UnorderedList></Pgraph><Pgraph>If the p-value is low, we can only conclude that something is wrong with the statistical model. However, the p-value itself does not show what is wrong with the model. The inexperienced user of the significance test thinks of a low p-value only as an indication that the null hypothesis might be wrong. In addition to the contextual dependence of the meaning of low p-values explained by Fisher, the result of a significance test must always be seen in the light of the complete statistical model.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Der p-Wert &#8211; Erl&#228;uterung und einige Caveats">
      <MainHeadline>Der p-Wert &#8211; Erl&#228;uterung und einige Caveats</MainHeadline><SubHeadline>Interpretation des p-Wertes</SubHeadline><Pgraph>Der p-Wert gibt somit die Wahrscheinlichkeit (Kriteriu<TextGroup><PlainText>m 1</PlainText></TextGroup>) unter einer Nullhypothese (Kriterium 2) an, ein Ergebnis wie das vorliegende Studienergebnis zu beobachten oder Studienergebnisse zu beobachten, die noch st&#228;rker von der Nullhypothese (Kriterium 3) abweichen. Alle drei Kriterien sind notwendige Kriterien f&#252;r die Definition des p-Wertes.</Pgraph><Pgraph>Wichtig ist hier, dass der p-Wert eine Aussage &#252;ber das Verhalten einer Teststatistik bei Vorliegen eines zuf&#228;lligen Fehlers unter der Nullhypothese macht. Bei einem p-Wert von 0,01 w&#252;rde nur 1&#37; der Studien einen t-Wert von &#8805;&#43;2,33 erzeugen, wenn die Nullhypothese wahr w&#228;re. Der p-Wert macht also auch eine Aussage &#252;ber Ergebnisse von Studien, die nicht beobachtet wurden (kontrafaktisches Element). Ferner muss betont werden, dass der p-Wert unter der Bedingung berechnet wurde, dass die Nullhypothese H<Subscript>0</Subscript> wahr w&#228;re, weshalb der p-Wert auch als bedingte Wahrscheinlichkeit bezeichnet wird. Die Nullhypothese wurde lediglich angenommen, unabh&#228;ngig davon, wie gro&#223; der Wahrheitsgehalt dieser Hypothese ist.</Pgraph><Pgraph>Fisher interpretierte den p-Wert als ein kontinuierliches Ma&#223; f&#252;r die Evidenz gegen die Nullhypothese. Er sagte: &#8222;Kein Wissenschaftler hat ein festgelegtes Signifikanzniveau, auf dem er von Jahr zu Jahr und unter allen Umst&#228;nden Hypothesen ablehnt; er macht sich vielmehr zu jedem einzelnen Fall Gedanken im Lichte der Evidenz und seiner Ideen&#8220; <TextLink reference="7"></TextLink>. Das bedeutet, dass nach Fishers Schule die Einstufung eines p-Wertes kontextabh&#228;ngig ist und die Anwendung eines festen Schwellenwertes von typischerweise 0,05 nicht gerechtfertigt ist. Die orthodoxe Ablehnung einer Nullhypothese bei einem vordefinierten Schwellenwert von 0,05 stammt von der konkurrierenden Schule von Neyman und Pearson, die den Hypothesentest als entscheidungstheoretisches Verfahren einf&#252;hrten.</Pgraph><Pgraph>Was bedeutet ein gro&#223;er p-Wert von z.B. 0,70&#63; Technisch gesehen bedeutet er, dass die Wahrscheinlichkeit 70&#37; betr&#228;gt, das beobachtete Studienergebnis oder Studienergebnisse, die noch st&#228;rker von der Nullhypothese abweichen, zu beobachten, unter der Annahme die Nullhypothese sei wahr. In der Praxis bedeutet das, dass der Signifikanztest wenig Evidenz gegen die getestete Nullhypothese oder das statistische Modell liefert. Es bedeutet jedoch nicht, dass die Nullhypothese wahr ist. Der p-Wert ist eine Funktion der St&#228;rke des Effekts (z.B. beobachteter Mittelwertunterschied, hier 5 min) und der Studiengr&#246;&#223;e (hier 62 Frauen). Bei einem gro&#223;en p-Wert kann tats&#228;chlich ein starker Effekt vorhanden sein, aber die Studiengr&#246;&#223;e war sehr klein. Typische Fehler bei der Definition von p-Werten werden im Folgenden diskutiert.</Pgraph><Pgraph>&#8222;Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist.&#8220; Der p-Wert macht keine Aussage &#252;ber die Wahrscheinlichkeit der Wahrheit der Nullhypothese, jedoch wurde der p-Wert unter der Annahme berechnet, dass die Nullhypothese wahr ist. &#220;brigens fehlt hier der Hinweis auf noch extremere Ergebnisse der Studie (kontrafaktisches Element).</Pgraph><Pgraph>&#8222;Der p-Wert ist die Wahrscheinlichkeit eines Typ-I-Fehlers.&#8220; Diese Aussage ist falsch, weil sie die Prinzipien des Signifikanztests (Fisher) mit denen des Hypothesentests (Neyman &#38; Pearson) vermischt. Nach der Schule von Fisher gibt es kein a priori festgelegtes Signifikanzniveau (auch Typ-I-Fehler genannt). Im Gegensatz dazu wird nach Neyman &#38; Pearson das Signifikanzniveau, auch Typ-I-Fehler genannt, vor Beginn der Studie festgelegt, w&#228;hrend der p-Wert aus dem statistischen Modell und den Studiendaten nach Durchf&#252;hrung der Studie abgeleitet werden. Nach Neyman &#38; Pearson bleibt der Typ-I-Fehler nach dem Ende der Studie unver&#228;ndert und der p-Wert wird mit dem a priori festgelegten Typ-I-Fehler verglichen, um eine Entscheidung zu treffen.</Pgraph><Pgraph>Der Typ-I-Fehler, auch &#945;-Fehler genannt, wird nach Neyman und Pearson vor Beginn der Studie bestimmt. Am Ende der Studie wird der p-Wert, der sich aus der Nullhypothese, dem statistischen Modell (z.B. t-Test) und den Studiendaten ergibt, mit dem &#945; (meist 0,05) verglichen. Die Aussage, dass &#8222;ein niedriger p-Wert den Zufall als Erkl&#228;rung f&#252;r einen beobachteten Unterschied ausschlie&#223;t&#8220;, beweist einen groben Mangel an Verst&#228;ndnis.</Pgraph><Pgraph>Nahezu korrekt klingende Definitionen des p-Wertes sind zum Beispiel: &#8222;Der p-Wert ist die Wahrscheinlichkeit, das vorliegende Studienergebnis oder noch extremere Studienergebnisse zu beobachten&#8220;. In dieser Definition fehlt die zentrale Bedingung (Kriterium 2) des p-Wertes: Die Berechnung erfolgt unter der Annahme, dass die Nullhypothese zutrifft. Auch die folgende falsche Definition ist beliebt: &#8222;Der p-Wert ist die Wahrscheinlichkeit, das vorliegende Studienergebnis unter der Nullhypothese zu beobachten.&#8220; Hier fehlt Kriterium 3: Der p-Wert macht auch eine Aussage &#252;ber unbeobachtete Studienergebnisse, die noch st&#228;rker von der Nullhypothese abweichen als das vorliegende Studienergebnis.</Pgraph><Pgraph>Beim Signifikanztest nach Fisher gibt es keinen so genannten Typ-I-Fehler und Typ-II-Fehler, es gibt kein Konfidenzintervall, keine Alternativhypothese und kein Konzept f&#252;r statistische Macht (Power) oder Stichprobengr&#246;&#223;enberechnungen. Diese Ph&#228;nomene gehen auf Neyman &#38; Pearson zur&#252;ck und werden erst bei der Durchf&#252;hrung von Hypothesentests relevant, die entscheidungstheoretisch nur dann g&#252;ltig sind, wenn alle Schritte des Hypothesentestverfahrens eingehalten werden, weshalb die Autoren auch von Neyman-Pearson-Orthodoxie sprechen <TextLink reference="8"></TextLink>:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Definition der Nullhypothese und Alternativhypothese vor Beginn der Studie</ListItem><ListItem level="1" levelPosition="2" numString="2.">Festlegung des Typ-I-Fehlers und Typ-II-Fehlers vor Beginn der Studie</ListItem><ListItem level="1" levelPosition="3" numString="3.">Festlegung der Teststatistik vor Beginn der Studie</ListItem><ListItem level="1" levelPosition="4" numString="4.">Berechnung der erforderlichen Stichprobengr&#246;&#223;en vor Beginn der Studie</ListItem><ListItem level="1" levelPosition="5" numString="5.">Durchf&#252;hrung der Studie unter Einhaltung der erforderlichen Stichprobengr&#246;&#223;en</ListItem><ListItem level="1" levelPosition="6" numString="6.">Berechnung der Teststatistik und Vergleich mit dem kritischen Wert der Teststatistik oder Vergleich des p-Wertes mit dem vorab definierten Typ-I-Fehler nach Durchf&#252;hrung der Studie</ListItem><ListItem level="1" levelPosition="7" numString="7.">Entscheidung: Wenn p&#8804;&#945;, wird die Nullhypothese abgelehnt, wenn p&#62;&#945;, wird die Nullhypothese nicht abgelehnt (nach Durchf&#252;hrung der Studie).</ListItem></OrderedList></Pgraph><Pgraph>Wenn die Schritte 1&#8211;7 nicht eingehalten werden, verliert das entscheidungstheoretische Verfahren des Hypothe<TextGroup><PlainText>sen</PlainText></TextGroup>testens seine G&#252;ltigkeit. Die Entscheidungsregel (<TextGroup><PlainText>7. Schritt</PlainText></TextGroup>) muss konsequent angewendet werden. Wenn z.B. &#945;&#61;0,05 angegeben wurde und p&#61;0,07 am Ende der Studie herauskam, dann kann nach Neyman &#38; Pearson nicht gesagt werden, dass es einen &#8222;Signifikanztrend&#8220; oder etwas &#196;hnliches gab, sondern nur, dass die Nullhy<TextGroup><PlainText>p</PlainText></TextGroup>othese nicht abgelehnt wurde. Auch werden p-Werte &#8804;0,05 nach Neyman &#38; Pearson nicht in z.B. p&#8804;0,05&#42;, p&#8804;0,01&#42;&#42; und p&#8804;0,001&#42;&#42;&#42; weiter unterteilt.</Pgraph><SubHeadline>Bedingungen, die f&#252;r die korrekte Interpretation des p-Wertes notwendig sind</SubHeadline><Pgraph>Viele einf&#252;hrende Lehrb&#252;cher der Biostatistik f&#252;hren lediglich die Theorie der Signifikanztests ein. Das bedeutet, dass es au&#223;er dem Zufallsfehler keine weiteren Fehlerquellen gibt. In der Praxis der empirischen Studien ist dies jedoch eine unrealistische Annahme. Greenland et al. <TextLink reference="9"></TextLink> weisen zu Recht darauf hin, dass im Falle eines niedrigen p-Wertes nur ein Signal gegeben wird, dass mit dem sogenannten statistischen Modell etwas nicht in Ordnung sein k&#246;nnte. Das statistische Modell besteht aus drei Komponenten: Der gew&#228;hlten Teststatistik, der gew&#228;hlten Nullhypothese und den empirischen Studiendaten.</Pgraph><Pgraph>Zus&#228;tzlich zu der Hypothese, dass der niedrige p-Wert Evidenz gegen die Nullhypothese darstellt, m&#252;ssen die folgenden alternativen Erkl&#228;rungen in Betracht gezogen werden, die alle mit dem statistischen Modell zusammenh&#228;ngen und somit den p-Wert beeinflussen:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Es wurde eine ungeeignete Teststatistik angewandt.</ListItem><ListItem level="1">Es kam zu einem Selektionsbias in die Studie oder zu einem Selektionsbias bei der Nachbeobachtung der Probanden.</ListItem><ListItem level="1">Der Vergleich zwischen zwei Stichproben ist konfundiert (Vermengung von Effekten).</ListItem><ListItem level="1">Es gibt einen Informationsbias bei der Messung der Variablen in der Studie.</ListItem></UnorderedList></Pgraph><Pgraph>Wenn der p-Wert niedrig ist, k&#246;nnen wir nur den Schluss ziehen, dass etwas mit dem statistischen Modell nicht stimmt. Der p-Wert selbst zeigt jedoch nicht, was mit dem Modell nicht stimmt. Der unerfahrene Benutzer des Signifikanztests betrachtet einen niedrigen p-Wert nur als einen Hinweis darauf, dass die Nullhypothese falsch sein k&#246;nnte. Zus&#228;tzlich zu der von Fisher erkl&#228;rten kontextuellen Abh&#228;ngigkeit der Bedeutung niedriger p-Werte muss das Ergebnis eines Signifikanztests immer im Licht des vollst&#228;ndigen statistischen Modells gesehen werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Summary">
      <MainHeadline>Summary</MainHeadline><Pgraph>Fisher&#8217;s significance test is a different procedure than the Neyman &#38; Pearson hypothesis test, which is often ignored. While the significance test produces a p-value, which according to Fisher should be interpreted context-dependently as a continuous measure of evidence against the null hypothesis, the p-value serves as a decision criterion if the necessary steps of the hypothesis test are followed. The significance test leads to the p-value, whose definition must contain three criteria: probability, the use of the null hypothesis assumption, and the counterfactual element of the p-value. P-values can be small for various reasons and the evidence against the null hypothesis is one of several competing reasons in empirical studies.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Fazit">
      <MainHeadline>Fazit</MainHeadline><Pgraph>Fishers Signifikanztest ist ein anderes Verfahren als der Hypothesentest von Neyman &#38; Pearson, was oft ignoriert wird. W&#228;hrend der Signifikanztest einen p-Wert erzeugt, der nach Fisher kontextabh&#228;ngig als ein kontinuierliches Ma&#223; f&#252;r die Evidenz gegen die Nullhypothese interpretiert werden sollte, dient der p-Wert als Entscheidungskriterium, wenn die notwendigen Schritte des Hypothesentests befolgt werden. Der Signifikanztest f&#252;hrt zum p-Wert, dessen Definition drei Kriterien enthalten muss: Die Wahrscheinlichkeit, die Verwendung der Nullhypothesen-Annahme und das kontrafaktische Element des p-Wertes. P-Werte k&#246;nnen aus verschiedenen Gr&#252;nden klein sein, und die Evidenz gegen die Nullhypothese ist einer von mehreren konkurrierenden Gr&#252;nden in empirischen Studien.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Notes">
      <MainHeadline>Notes</MainHeadline><SubHeadline>Competing interests</SubHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Gigerenzer G</RefAuthor>
        <RefAuthor>Swijtink Z</RefAuthor>
        <RefAuthor>Porter T</RefAuthor>
        <RefAuthor>Daston L</RefAuthor>
        <RefAuthor>Beatty J</RefAuthor>
        <RefAuthor>Kr&#252;ger L</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1989</RefYear>
        <RefBookTitle>The empire of chance. How probability changed science and everyday life</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kr&#252;ger L. The empire of chance. How probability changed science and everyday life. Cambridge: Cambridge University Press; 1989.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Amrhein V</RefAuthor>
        <RefAuthor>Trafimow D</RefAuthor>
        <RefAuthor>Greenland S</RefAuthor>
        <RefTitle>Inferential statistics as descriptive statistics: there is no replication crisis if we don&#39;t expect replication</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>PeerJ Preprints</RefJournal>
        <RefPage>e26857v4</RefPage>
        <RefTotal>Amrhein V, Trafimow D, Greenland S. Inferential statistics as descriptive statistics: there is no replication crisis if we don&#39;t expect replication. PeerJ Preprints. 2018;6:e26857v4. DOI: 10.7287&#47;peerj.preprints.26857v3</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.7287&#47;peerj.preprints.26857v3</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Wasserstein RL</RefAuthor>
        <RefAuthor>Lazar NA</RefAuthor>
        <RefTitle>The ASA&#39;s statement on p-values: context, process, and purpose</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Am Stat</RefJournal>
        <RefPage>129-33</RefPage>
        <RefTotal>Wasserstein RL, Lazar NA. The ASA&#39;s statement on p-values: context, process, and purpose. Am Stat. 2016;70:129-33. DOI: 10.1080&#47;00031305.2016.1154108</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;00031305.2016.1154108</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Amrhein V</RefAuthor>
        <RefAuthor>Greenland S</RefAuthor>
        <RefAuthor>McShane B</RefAuthor>
        <RefTitle>Scientists rise up against statistical significance</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>Nature</RefJournal>
        <RefPage>305-307</RefPage>
        <RefTotal>Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019 Mar;567(7748):305-307. DOI: 10.1038&#47;d41586-019-00857-9</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1038&#47;d41586-019-00857-9</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Cox DR</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Principles of statistical inference</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Cox DR. Principles of statistical inference. Cambridge: Cambridge University Press; 2006. DOI: 10.1017&#47;CBO9780511813559</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1017&#47;CBO9780511813559</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Manly BFJ</RefAuthor>
        <RefTitle>Randomization</RefTitle>
        <RefYear>1996</RefYear>
        <RefBookTitle>Randomization, bootstrap and Monte Carlo methods in biology.</RefBookTitle>
        <RefPage>3-7</RefPage>
        <RefTotal>Manly BFJ. Randomization, bootstrap and Monte Carlo methods in biology. London: Chapman &#38; Hall; 1996. Randomization; p. 3-7.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Feinstein AR</RefAuthor>
        <RefTitle>Testing stochastic hypotheses</RefTitle>
        <RefYear>2002</RefYear>
        <RefBookTitle>Principles of medical statistics.</RefBookTitle>
        <RefPage>190-1</RefPage>
        <RefTotal>Feinstein AR. Principles of medical statistics. Boca Raton: Chapman &#38; Hall&#47;CRC; 2002. Testing stochastic hypotheses; p. 190-1.</RefTotal>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Anonym</RefAuthor>
        <RefTitle>Student&#39;s t-distribution.</RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Wikipedia</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Student&#39;s t-distribution. In: Wikipedia. &#91;accessed 2019 May 16&#93;. Available from: https:&#47;&#47;en.wikipedia.org&#47;wiki&#47;Student&#37;27s&#95;t-distribution</RefTotal>
        <RefLink>https:&#47;&#47;en.wikipedia.org&#47;wiki&#47;Student&#37;27s&#95;t-distribution</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Fisher RA</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1956</RefYear>
        <RefBookTitle>Statistical methods and scientific inference</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Fisher RA. Statistical methods and scientific inference. Edinburgh: Oliver &#38; Boyd; 1956.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Oakes MW</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1986</RefYear>
        <RefBookTitle>Statistical inference</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Oakes MW. Statistical inference. Chichester: Wiley; 1986.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Greenland S</RefAuthor>
        <RefAuthor>Senn SJ</RefAuthor>
        <RefAuthor>Rothman KJ</RefAuthor>
        <RefAuthor>Carlin JB</RefAuthor>
        <RefAuthor>Poole C</RefAuthor>
        <RefAuthor>Goodman SN</RefAuthor>
        <RefAuthor>Altman DG</RefAuthor>
        <RefTitle>Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Eur J Epidemiol</RefJournal>
        <RefPage>337-50</RefPage>
        <RefTotal>Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016 Apr;31(4):337-50. DOI: 10.1007&#47;s10654-016-0149-3</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10654-016-0149-3</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Results of the study on the new sleep pill to reduce sleep latency</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Ergebnisse der Studie zum Einfluss eines neuen Schlafmedikaments auf die Schlaflatenz</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Permutation test</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Permutationstest</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Criteria for test selection</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Kriterien f&#252;r die Testauswahl</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="495" width="956">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Normal distributions of the sleep latency in the target populations</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Normalverteilungen der Schlaflatenz in der Zielpopulation</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="454" width="454">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: t-distribution with 60 degrees of freedom and marked result of the concrete study (t&#61;2.33)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: t-Verteilung mit 60 Freiheitsgraden und markiertes Studienergebnis (t&#61;2,33)</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="524" width="956">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: t-distribution with 60 degrees of freedom with marked areas under the curve for t&#8805;&#43;2.33 and t&#8804;&#8211;2.33</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: t-Verteilung mit 60 Freiheitsgraden und markierten Fl&#228;chen unter der Verteilung f&#252;r t&#8805;&#43;2,33 und t&#8804;&#8211;2,33</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>3</NoOfPictures>
      </Figures>
      <InlineFigures>
        <Figure format="png" height="62" width="256">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <AltText language="en">formula 1</AltText>
          <AltText language="de">Formel 1</AltText>
        </Figure>
        <Figure format="png" height="44" width="73">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <AltText language="en">formula 2</AltText>
          <AltText language="de">Formel 2</AltText>
        </Figure>
        <Figure format="png" height="41" width="399">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <AltText language="en">formula 3</AltText>
          <AltText language="de">Formel 3</AltText>
        </Figure>
        <Figure format="png" height="49" width="399">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption><Pgraph> </Pgraph></Caption>
          <AltText language="en">formula 4</AltText>
          <AltText language="de">Formel 4</AltText>
        </Figure>
        <Figure format="png" height="64" width="120">
          <MediaNo>6</MediaNo>
          <MediaID>6</MediaID>
          <AltText language="en">formula 5</AltText>
          <AltText language="de">Formel 5</AltText>
        </Figure>
        <Figure format="png" height="22" width="19">
          <MediaNo>7</MediaNo>
          <MediaID>7</MediaID>
          <AltText language="en">formula 6</AltText>
          <AltText language="de">Formel 6</AltText>
        </Figure>
        <Figure format="png" height="22" width="19">
          <MediaNo>8</MediaNo>
          <MediaID>8</MediaID>
          <AltText language="en">formula 7</AltText>
          <AltText language="de">Formel 7</AltText>
        </Figure>
        <Figure format="png" height="68" width="118">
          <MediaNo>9</MediaNo>
          <MediaID>9</MediaID>
          <AltText language="en">formula 8</AltText>
          <AltText language="de">Formel 8</AltText>
        </Figure>
        <Figure format="png" height="68" width="289">
          <MediaNo>10</MediaNo>
          <MediaID language="en">10en</MediaID>
          <MediaID language="de">10de</MediaID>
          <AltText language="en">formula 9</AltText>
          <AltText language="de">Formel 9</AltText>
        </Figure>
        <Figure format="png" height="18" width="14">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <AltText language="en">Formula</AltText>
          <AltText language="de">Formel</AltText>
        </Figure>
        <NoOfPictures>10</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>