<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma000984</Identifier>
    <IdentifierDoi>10.3205/zma000984</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0009843</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">The reliability of the pass&#47;fail decision for assessments comprised of multiple components</Title>
      <TitleTranslated language="de">Die Zuverl&#228;ssigkeit der Entscheidung &#8222;bestanden&#47;durchgefallen&#8220; bei zusammengesetzten Pr&#252;fungen</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>M&#246;ltner</Lastname>
          <LastnameHeading>M&#246;ltner</LastnameHeading>
          <Firstname>Andreas</Firstname>
          <Initials>A</Initials>
          <AcademicTitle>Dr. phil.</AcademicTitle>
        </PersonNames>
        <Address>Ruprecht-Karls-Universit&#228;t Heidelberg, Kompetenzzentrum Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Im Neuenheimer Feld 346, 69120 Heidelberg, Deutschland, Tel.: &#43;49 (0)6221&#47;56-8249, Fax: &#43;49 (0)6221&#47;56-7175<Affiliation>Ruprecht-Karls-Universit&#228;t Heidelberg, Kompetenzzentrum Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation></Address>
        <Email>andreas.moeltner&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>T&#305;mb&#305;l</Lastname>
          <LastnameHeading>T&#305;mb&#305;l</LastnameHeading>
          <Firstname>Sevgi</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Ruprecht-Karls-Universit&#228;t Heidelberg, Kompetenzzentrum Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>J&#252;nger</Lastname>
          <LastnameHeading>J&#252;nger</LastnameHeading>
          <Firstname>Jana</Firstname>
          <Initials>J</Initials>
          <AcademicTitle>Prof. Dr. med.</AcademicTitle>
          <AcademicTitleSuffix>MME</AcademicTitleSuffix>
        </PersonNames>
        <Address>
          <Affiliation>Ruprecht-Karls-Universit&#228;t Heidelberg, Kompetenzzentrum Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>jana&#95;juenger&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">Assessments</Keyword>
      <Keyword language="en">Decision accuracy</Keyword>
      <Keyword language="en">Decision consistency</Keyword>
      <Keyword language="en">Pass-fail reliability</Keyword>
      <Keyword language="de">Pr&#252;fungen</Keyword>
      <Keyword language="de">Entscheidungsgenauigkeit</Keyword>
      <Keyword language="de">Entscheidungskonsistenz</Keyword>
      <Keyword language="de">pass-fail-reliability</Keyword>
      <SectionHeading language="en">Assessment</SectionHeading>
      <SectionHeading language="de">Pr&#252;fungen</SectionHeading>
    </SubjectGroup>
    <DateReceived>20131220</DateReceived>
    <DateRevised>20140312</DateRevised>
    <DateAccepted>20140526</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20151015</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1860-3572</ISSN>
        <Volume>32</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Zeitschrift f&#252;r Medizinische Ausbildung</JournalTitle>
        <JournalTitleAbbr>GMS Z Med Ausbild</JournalTitleAbbr>
        <IssueTitle>Pr&#252;fungen</IssueTitle>
      </Journal>
    </SourceGroup>
    <ArticleNo>42</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Zielsetzung: </Mark1>Die gravierendsten Konsequenzen f&#252;r einen Studierenden bei einer Pr&#252;fung besitzt die Entscheidung  &#252;ber &#8222;bestanden&#8220; oder &#8222;durchgefallen&#8220;. Wie die Messzuverl&#228;ssigkeit der Punktwerte  muss bei qualitativ hochwertigen Pr&#252;fungen deshalb auch die Zuverl&#228;ssigkeit der Entscheidung &#8222;bestanden&#8220; oder &#8222;durchgefallen&#8220; bestimmt werden.</Pgraph><Pgraph>Oft setzen sich Pr&#252;fungen eines Fachs (Leistungsnachweise) aus mehreren Teilpr&#252;fungen zusammen, die z. B. unabh&#228;ngig voneinander bestanden werden m&#252;ssen. In diesem Fall einer &#8222;konjunktiven&#8220; Verkn&#252;pfung der Einzelentscheidungen &#8222;bestanden&#47;durchgefallen&#8220; wie auch bei anderen komplexen Bestehensregelungen sind zur Absch&#228;tzung der Genauigkeit und Konsistenz der Entscheidung &#8222;bestanden&#47;durchgefallen&#8220; ad&#228;quate Auswertungsverfahren erforderlich. Bislang liegen zu dieser Problemstellung nur wenige Arbeiten vor, ein allgemein verwendbares Verfahren wurde 2010 von Douglas und Mislevy publiziert.</Pgraph><Pgraph>In der Studie soll am exemplarischen Beispiel einer zusammengesetzten Pr&#252;fung, bei der mehrere Teilpr&#252;fungen unabh&#228;ngig voneinander bestanden werden m&#252;ssen, eine Analyse der Zuverl&#228;ssigkeit der Entscheidung &#8222;bestanden&#47;durchgefallen&#8220; durchgef&#252;hrt und Konsequenzen f&#252;r eine verbesserte Methodik zur Identifikation von Studierenden, die die gestellten Mindestanforderungen nicht erf&#252;llen, diskutiert werden.</Pgraph><Pgraph><Mark1>Methodik: </Mark1>Untersucht wird die Entscheidungsgenauigkeit und -konsistenz von &#8222;bestanden&#47;durchgefallen&#8220; des Leistungsnachweises Innere Medizin&#47;Allgemeinmedizin&#47;Klinische Chemie der medizinischen  Fakult&#228;t Heidelberg. F&#252;r diesen m&#252;ssen drei Teilpr&#252;fungen (zwei Klausuren und ein  OSCE) unabh&#228;ngig voneinander bestanden werden, wobei jede Teilpr&#252;fung f&#252;r sich zweimal  wiederholt werden kann. Die Analyse erfolgt mit dem Verfahren von Douglas und Mislevy.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Auch bei hohen Reliabilit&#228;ten von Teilpr&#252;fungen l&#228;sst sich bei komplexen logischen Verkn&#252;pfungen der Einzelentscheidungen &#8222;bestanden&#47;durchgefallen&#8220; im Fall niedriger Nichtbestehensquoten h&#228;ufig nur eine geringe Zuverl&#228;ssigkeit der Gesamtentscheidung erreichen. So ist im hier untersuchten Beispiel trotz der bei allen drei Teilpr&#252;fungen guten Reliabilit&#228;ten von &#252;ber 0,75 die Entscheidungsgenauigkeit und -konsistenz bei konjunktiver Verkn&#252;pfung der drei Pr&#252;fungsteile mit &#954;&#61;0,49 bzw. &#954;&#61;0,47 relativ niedrig. Die M&#246;glichkeit, die Teilpr&#252;fungen jeweils zweimal zu wiederholen, f&#252;hrt dazu, dass von den Studierenden, die den Mindestanforderungen nicht gen&#252;gen, nur etwa die H&#228;lfte endg&#252;ltig die Gesamtpr&#252;fung nicht bestehen w&#252;rde, die andere H&#228;lfte jedoch trotz mangelhafter Kenntnisse&#47;Fertigkeiten ihr Studium fortsetzen kann.</Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Das Verfahren von Douglas und Mislevy erlaubt, Entscheidungsgenauigkeit und -konsistenz komplexer Verkn&#252;pfungen von Teilpr&#252;fungen zu analysieren. Auch bei hochreliablen Teilpr&#252;fungen wird &#8211; etwa im Fall niedriger Nichtbestehensquoten &#8211; nicht notwendigerweise eine zuverl&#228;ssige Entscheidung &#252;ber &#8222;bestanden&#8220; oder &#8222;durchgefallen&#8220; erreicht. Hierzu m&#252;ssten Pr&#252;fungen mit dem expliziten Ziel der Identifizierung von Studierenden, die den Mindestanforderungen nicht gen&#252;gen, durchgef&#252;hrt werden.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Objective: </Mark1>The decision having the most serious consequences for a student taking an assessment is the one to pass or fail that student. For this reason, the reliability of the pass&#47;fail decision must be determined for high quality assessments, just as the measurement reliability of the point values.</Pgraph><Pgraph>Assessments in a particular subject (graded course credit) are often composed of multiple components that must be passed independently of each other. When &#8220;conjunctively&#8221; combining separate pass&#47;fail decisions, as with other complex decision rules for passing, adequate methods of analysis are necessary for estimating the accuracy and consistency of these classifications. To date, very few papers have addressed this issue; a generally applicable procedure was published by Douglas and Mislevy in 2010.</Pgraph><Pgraph>Using the example of an assessment comprised of several parts that must be passed separately, this study analyzes the reliability underlying the decision to pass or fail students and discusses the impact of an improved method for identifying those who do not fulfill the minimum requirements.</Pgraph><Pgraph><Mark1>Method: </Mark1>The accuracy and consistency of the decision to pass or fail an examinee in the subject cluster Internal Medicine&#47;General Medicine&#47;Clinical Chemistry at the University of Heidelberg&#8217;s Faculty of Medicine was investigated. This cluster requires students to separately pass three components (two written exams and an OSCE), whereby students may reattempt to pass each component twice. Our analysis was carried out using the method described by Douglas and Mislevy.</Pgraph><Pgraph><Mark1>Results: </Mark1>Frequently, when complex logical connections exist between the individual pass&#47;fail decisions in the case of low failure rates, only a very low reliability for the overall decision to grant graded course credit can be achieved, even if high reliabilities exist for the various components. For the example analyzed here, the classification accuracy and consistency when conjunctively combining the three individual parts is relatively low with &#954;&#61;0.49 or &#954;&#61;0.47, despite the good reliability of over 0.75 for each of the three components. The option to repeat each component twice leads to a situation in which only about half of the candidates who do not satisfy the minimum requirements would fail the overall assessment, while the other half is able to continue their studies despite having deficient knowledge and skills.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> The method put forth by Douglas and Mislevy allows the analysis of the decision accuracy and consistency for complex combinations of scores from different components. Even in the case of highly reliable components, it is not necessarily so that a reliable pass&#47;fail decision has been reached &#8211; for instance in the case of low failure rates. Assessments must be administered with the explicit goal of identifying examinees that do not fulfill the minimum requirements.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><Pgraph>Assessments are performance measurements and possess, like all measuring instruments, only a limited accuracy. This must be sufficiently high so that the scores given for assessments reflect the content. Established methods exist for estimating the measurement reliability of the points given on assessments (e.g. Cronbach&#8217;s &#945;); however, the reliability of the pass&#47;fail decision is hardly taken into consideration in the analysis or evaluation of assessments.</Pgraph><Pgraph>This is remarkable insofar as precisely this aspect clearly has more importance for students in regard to their studies than the measurement reliability of a point value; failing an exam leads to remedial work, lost time, and under circumstances the question of whether to continue or quit medical school. This decision also has importance for the institution administering the assessment: if the examinee possesses the required knowledge and skills to continue the study program, an unjustified failure leads to a greater amount of work. If an examinee is allowed to pass despite not having the qualifications, then not only significant problems in continuing university study are to be expected, but even the endangerment of medical patients in worst case scenarios (see <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>Presumably, this topic has also received so little attention in Germany in relation to medical education because the regulations of the medical licensing act (<Mark2>&#196;rztliche Approbationsordnung</Mark2>) have been generally adopted by the academic rules and regulations of most medical schools for multiple-choice testing, the longstanding dominant testing format. With the purely formal definition of a passing score being 60&#37; of all questions asked, this approach does not permit a content-based, criterion-oriented definition of the minimum requirements. To our knowledge, in Germany only the rules and regulations of the Medical Faculty at the University of Heidelberg allow standard setting for multiple-choice tests; this means the ability to deviate from the formal rule of 60&#37; to pass and define a passing score according to content-based criteria and in a standard procedure, similar to the established standard setting for an OSCE <TextLink reference="2"></TextLink>, <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>The establishment of new testing formats, with which practical skills, qualifications and necessary competencies for practicing medicine should be assessed in addition to pure subject knowledge, demands definition and, for assessments, the practical setting of minimum requirements. As a result, it is also necessary to pay close attention to the decision accuracy, decision consistency and pass-fail reliability when evaluating tests or testing formats <TextLink reference="19"></TextLink>. The decision accuracy indicates the extent to which the examinees that satisfy the minimum requirements pass an actual test and the examinees without sufficient knowledge fail. Decision consistency refers to the agreement of pass&#47;fail between two equivalent tests, meaning two tests that measure <Mark2>the same knowledge or the same skills equally well</Mark2>. It needs to be noted here that &#8220;same&#8221; does not imply that the tests only cover one construct in terms of test theory. An OSCE can contain stations dealing with practical skills and with communicative competencies which are to be regarded as subscales in terms of test statistics. An equivalent test must then have practical and communication stations with the same scope and of the same difficulty.</Pgraph><Pgraph>A series of methods has been developed, particularly since the 1980&#8217;s, to ascertain the accuracy and consistency in respect to individual tests, even though none of these methods can be viewed as the standard procedure (see <TextLink reference="6"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="18"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="25"></TextLink>). To obtain graded course credit in many medical subjects, multiple individual assessments must be taken, for instance a written exam covering theoretical knowledge and an OSCE to assess practical skills. If these assessment results are combined together into an overall score through weighted averaging or totaling, the entire assessment can be treated as one &#8220;single&#8221; test.</Pgraph><Pgraph>Often there is another approach, completely justified in terms of content: instead of <Mark2>compensatory</Mark2> combination of assessment scores, <Mark2>all the individual assessments must be passed</Mark2>. This <Mark2>conjunctive combination</Mark2> (logical &#8220;and&#8221; conjunctions) of the pass&#47;fail decisions has significant effects on the accuracy&#47;consistency of the overall decision, since one single unreliable decision on an individual test can ruin the reliability of the overall decision:</Pgraph><Pgraph><Indentation><Mark2>...because longer collections of test questions tend to be more reliable than shorter collections of test questions, compensatory scoring tends to be more reliable than conjunctive scoring. In conjunctive scoring, if a student has to pass all of the content areas separately, the least reliable score controls whether a student will pass.</Mark2> <TextLink reference="26"></TextLink></Indentation></Pgraph><Pgraph>Practical instances of this include subjects that spread the tested content out over multiple tests to limit the scope of a particular test and subjects in which both theoretical knowledge and practical skills are imparted resulting in a written assessment for the theory and a practical one for the skills. Instead of allowing compensatory scoring in these cases, requiring students to satisfy the minimum on each separate assessment is often justified. Ultimately, a conjunctive combination will also be used for the entire course of study: only those who <Mark2>have passed in all of the subjects</Mark2>, will successfully complete the degree program.</Pgraph><Pgraph>Assessment scores can also be combined in other ways. Alongside the conjunctive combinations already mentioned, disjunctive (logical &#8220;or&#8221; conjunctions) are also possible when only one single component of many must be passed. An example of this would be the repeated assessments. If an assessment can be retaken once, a student has passed if it is passed on the first or second attempt (that a student need not appear for the second administration if he or she has already passed the first attempt is of no interest to logic). In practice at schools and universities even more complex rules apply, such as graded credit must be successfully attained for three of five possible courses.</Pgraph><Pgraph>Only a few studies exist regarding the decision reliability for complex combinations of assessment scores <TextLink reference="24"></TextLink>, a generally applicable method of analysis has been proposed by Douglas and Mislevy <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Our study applies this method to analyze the assessment for the subject cluster General Medicine&#47;Internal Medicine&#47;Clinical Chemistry that was given at the Faculty of Medicine in Heidelberg during the winter semester 2012-13 and, for the attainment of which, two written exams and one OSCE had to be passed separately. Students had the option of repeating each individual component of the assessment twice.</Pgraph><Pgraph>Graded credit for a cluster of subjects (<Mark2>f&#228;cher&#252;bergreifende Leistungsnachweis</Mark2> or F&#220;L) is particular to the German medical licensing regulations (<Mark2>Approbationsordnung</Mark2>), according to which every medical school must bundle multiple course subjects into one instance of graded course credit. This legal requirement is without significance for the following statistical observations. Douglas and Mislevy&#8217;s method is directed toward the accuracy and reliability of a complex pass&#47;fail decision that is the result of a combination of individual decisions. Regardless of the formal legal definitions of a F&#220;L, the terms &#8220;overall test&#8221; (for full graded credit) and &#8220;individual test&#8221; or &#8220;component&#8221; (for the individual subject assessments) will be used.</Pgraph><Pgraph>The aim of this study is to present a suitable method for the analysis of pass&#47;fail decision reliability using the example of a bundled assessment and establish it as an essential aspect of ensuring the quality of tests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><Pgraph>Pr&#252;fungen sind Messinstrumente f&#252;r die Leistungsf&#228;higkeit und besitzen wie alle Messinstrumente nur eine begrenzte Genauigkeit. Diese muss ausreichend hoch sein, damit Pr&#252;fungsergebnisse auch eine inhaltliche Aussagekraft aufweisen k&#246;nnen. F&#252;r die Absch&#228;tzung der Messzuverl&#228;ssigkeit der vergebenen Punktwerte in Pr&#252;fungen stehen etablierte Verfahren zur Verf&#252;gung (z. B. Cronbachs &#945;), die Zuverl&#228;ssigkeit der Entscheidung &#8222;bestanden&#47;durchgefallen&#8220; findet jedoch bei der Analyse und Bewertung von Pr&#252;fungen kaum Beachtung.</Pgraph><Pgraph>Dies ist insofern bemerkenswert, als gerade diese f&#252;r den Studierenden eine deutlich h&#246;here Bedeutung f&#252;r den Studienverlauf aufweist als die Messzuverl&#228;ssigkeit eines Punktwerts, ein &#8222;nicht bestanden&#8220; f&#252;hrt zu Nacharbeitungsaufwand, Zeitverlust und u. U. zur Frage nach Fortsetzung oder Beendigung des Studiums. Auch auf Seiten der pr&#252;fenden Institution ist die Entscheidung von Bedeutung: Besitzt der Studierende die f&#252;r die Fortsetzung des Studiums  erforderlichen Kenntnisse und Fertigkeiten, f&#252;hrt ein ungerechtfertigtes &#8222;durchgefallen&#8220; ebenfalls zu einem h&#246;heren Arbeitsaufwand. L&#228;sst man andererseits einen Studierenden trotz fehlender Qualifikation bestehen, so sind nicht nur erhebliche Probleme bei der Fortf&#252;hrung des Studiums zu erwarten, sondern im medizinischen Bereich schlimmstenfalls Gef&#228;hrdungen von Patienten nicht auszuschlie&#223;en (vgl. <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>Das Thema hat in Deutschland im Bereich der medizinischen Ausbildung vermutlich auch deshalb bislang wenig Beachtung gefunden, als in den Studien- oder Pr&#252;fungsordnungen der meisten Fakult&#228;ten f&#252;r das nach wie vor dominierende Pr&#252;fungsformat der Multiple-Choice-Pr&#252;fungen die Regularien der &#196;rztlichen Approbationsordnung im Wesentlichen &#252;bernommen wurden. Mit der dort rein formal festgelegten Bestehensgrenze von 60&#37; der gestellten Aufgaben ist eine inhaltlich begr&#252;ndete, kriteriumsorientierte Festlegung der Mindestanforderungen nicht m&#246;glich. Unseres Wissens l&#228;sst es in Deutschland lediglich die Studienordnung der medizinischen Fakult&#228;t Heidelberg zu, bei Multiple-Choice-Klausuren ein Standard-Setting durchzuf&#252;hren, d. h. von der formalen Regel einer 60&#37;-Grenze abzuweichen und &#8211; &#228;hnlich zum etablierten Standard-Setting bei einem OSCE &#8211;  mit einem Standardvorgehen eine an inhaltlichen Kriterien orientierte Bestehensgrenze zu definieren <TextLink reference="2"></TextLink>, <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>Die Etablierung neuer Pr&#252;fungsformate, mit denen neben reinem Fachwissen auch praktische Fertigkeiten, Qualifikationen und f&#252;r die Aus&#252;bung des Arztberufs erforderliche Kompetenzen gepr&#252;ft werden sollen, erfordert jedoch die Definition und bei Pr&#252;fungen die praktische Festlegung von Mindestanforderungen. Damit wird es auch erforderlich, bei der Beurteilung von Pr&#252;fungen oder Pr&#252;fungsformen der <Mark2>Entscheidungsgenauigkeit</Mark2> (&#8222;decision accuracy&#8220;) und der <Mark2>Entscheidungskonsistenz </Mark2>(&#8222;decision consistency&#8220;,&#8222;pass-fail-reliability&#8220;) eine hohe Aufmerksamkeit zu widmen <TextLink reference="19"></TextLink>. Dabei bezeichnet die Entscheidungsgenauigkeit das Ausma&#223;, in dem Studierende, die den Mindestanforderungen gen&#252;gen, in einer konkreten Pr&#252;fung bestehen und Studierende ohne hinreichende Kenntnisse durchfallen. Die Entscheidungskonsistenz ist die &#220;bereinstimmung von &#8222;bestanden&#47;durchgefallen&#8220; in zwei &#228;quivalenten Pr&#252;fungen, d. h. in zwei Pr&#252;fungen, die <Mark2>das selbe Wissen&#47;die selben Fertigkeiten gleich gut</Mark2> messen.  Man beachte hier, dass das &#8222;Selbe&#8220; hier nicht impliziert, das die Pr&#252;fungen im testtheoretischen Sinn nur ein Konstrukt abfragen. Ein OSCE kann Stationen zu praktischen Fertigkeiten (&#8222;Skills&#8220;) und zu kommunikativen Kompetenzen enthalten,  die teststatistisch wie Unterskalen aufzufassen sind. Eine hierzu &#228;quivalente Pr&#252;fung m&#252;sste dann auch in gleichem Umfang und Schwierigkeit praktische und Kommunikationsstationen enthalten.</Pgraph><Pgraph>F&#252;r den Fall einzelner Pr&#252;fungen sind &#8211; insbesondere seit den 1980er Jahren &#8211; eine Reihe von Verfahren zur Bestimmung von Genauigkeit und Konsistenz entwickelt worden, wenngleich noch keine dieser Methoden als &#8222;Standardprozedur&#8220; angesehen werden kann (vgl. <TextLink reference="6"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="18"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="25"></TextLink>). Zur Erlangung von Leistungsnachweisen in vielen medizinischen F&#228;chern sind jedoch mehrere einzelne Pr&#252;fungen abzulegen, etwa eine schriftliche Pr&#252;fung f&#252;r das theoretische Wissen und ein OSCE zur Pr&#252;fung der praktischen Fertigkeiten. Werden diese Pr&#252;fungsleistungen durch gewichtete Mittelungen oder Summierungen zu einem Gesamtscore verrechnet, kann die gesamte Pr&#252;fung wie eine &#8222;einzige&#8220; behandelt werden. </Pgraph><Pgraph>Oft findet sich aber eine andere, inhaltlich durchaus begr&#252;ndete, Praxis: Statt die Pr&#252;fungsleistungen <Mark2>kompensatorisch</Mark2> zu verrechnen, m&#252;ssen <Mark2>s&#228;mtliche Einzelpr&#252;fungen</Mark2> <Mark2>bestanden</Mark2> werden. Diese <Mark2>konjunktive Kombination</Mark2> (logische &#8222;und&#8220;-Verkn&#252;pfung) der Entscheidungen &#8222;bestanden&#8220;&#47;durchgefallen&#8220; hat erhebliche Auswirkungen auf die Genauigkeit&#47;Konsistenz der Gesamtentscheidung, da eine einzige unzuverl&#228;ssige Entscheidung bei einer Teilpr&#252;fung die Zuverl&#228;ssigkeit der Gesamtentscheidung zunichte machen kann:</Pgraph><Pgraph><Indentation><Mark2>...Because longer collections of test questions tend to be more reliable than shorter collections of test questions, compensatory scoring tends to be more reliable than conjunctive scoring. In conjunctive scoring, if a student has to pass all of the content areas separately, the least reliable score controls whether a student will pass</Mark2>. <TextLink reference="26"></TextLink></Indentation></Pgraph><Pgraph>Praktische Anwendungsf&#228;lle sind hier z. B. F&#228;cher, die die zu pr&#252;fenden Lehrinhalte auf mehrere Teilpr&#252;fungen aufteilen, um den Umfang einer einzelnen Pr&#252;fung zu begrenzen oder F&#228;cher, in denen sowohl theoretisches Wissen wie auch praktische Fertigkeiten vermittelt werden und die deshalb eine schriftliche Pr&#252;fung f&#252;r die Theorie und eine praktische f&#252;r die Fertigkeiten durchf&#252;hren. In diesen F&#228;llen ist es h&#228;ufig gerechtfertigt, das Erreichen von Mindeststandards in jeder Einzelpr&#252;fung zu fordern, statt eine Kompensation zu erm&#246;glichen. Schlie&#223;lich wird auch f&#252;r das gesamte Studium eine konjunktive Kombination angewandt: Nur wer in <Mark2>allen F&#228;chern bestanden hat</Mark2>, hat das Studium erfolgreich beendet.</Pgraph><Pgraph>Pr&#252;fungsleistungen k&#246;nnen auch noch auf andere Weisen kombiniert werden. So sind neben den bereits erw&#228;hnten konjunktiven Verkn&#252;pfungen auch disjunktive (logische &#8222;oder&#8220;-Verkn&#252;pfungen) m&#246;glich, bei denen von mehreren Pr&#252;fungsteilen nur eine einzige bestanden werden muss. Ein Beispiel hierf&#252;r w&#228;ren Wiederholungspr&#252;fungen. Kann eine Pr&#252;fung einmal wiederholt werden, hat man insgesamt bestanden, wenn man die erste Pr&#252;fung besteht oder die zweite (dass ein Studierender zur zweiten Pr&#252;fung nicht antreten muss, wenn er bereits die erste bestanden hat, ist f&#252;r die Logik ohne Belang). In der schulischen und universit&#228;ren Praxis sind auch noch komplexere Regularien anzutreffen, wie z. B., dass drei von f&#252;nf m&#246;glichen Leistungsscheinen erworben werden m&#252;ssen.</Pgraph><Pgraph>Zur Entscheidungszuverl&#228;ssigkeit bei komplexen Kombinationen von Pr&#252;fungsleistungen liegen nur wenige Arbeiten vor <TextLink reference="24"></TextLink>, ein allgemein einsetzbares Analyseverfahren wurde von Douglas und Mislevy vorgeschlagen <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Mit diesem soll in der vorliegenden Studie exemplarisch der f&#228;cher&#252;bergreifende Leistungsnachweis Allgemeinmedizin&#47;Innere Medizin&#47;Klinische Chemie der medizinischen Fakult&#228;t Heidelberg des Wintersemesters 2012&#47;13 untersucht werden, f&#252;r dessen Erwerb zwei Klausuren und ein OSCE unabh&#228;ngig voneinander bestanden werden m&#252;ssen. Dabei steht jedem Studierenden f&#252;r jede Einzelpr&#252;fung die M&#246;glichkeit zweier Pr&#252;fungswiederholungen offen.</Pgraph><Pgraph>Der &#8222;f&#228;cher&#252;bergreifende Leistungsnachweis&#8220; (F&#220;L) ist eine Besonderheit der deutschen Approbationsordnung, nach der im Medizinstudium jede Fakult&#228;t  mehrere F&#228;cher zu einem gemeinsamen Leistungsnachweis b&#252;ndeln muss. Diese juristische Vorgabe ist f&#252;r die folgenden statistischen Betrachtungen jedoch ohne Bedeutung, das Verfahren von Douglas und Mislevy zielt auf die Genauigkeit und Zuverl&#228;ssigkeit einer komplexen Entscheidung &#252;ber &#8222;bestanden&#8220;&#47;&#8222;nicht bestanden&#8220; ab, die durch eine Kombination von Einzelentscheidungen gewonnen wird. Ungeachtet der formaljuristischen Begrifflichkeit bei einem F&#220;L sollen auch hier die Bezeichnungen  &#8222;Gesamtpr&#252;fung&#8220; (f&#252;r den gesamten Leistungsnachweis) und &#8222;Einzel-&#8220;  oder &#8222;Teilpr&#252;fungen&#8220; (f&#252;r die einzelnen Fachpr&#252;fungen) Verwendung finden.</Pgraph><Pgraph>Intention der Arbeit ist, ein f&#252;r die Analyse der Entscheidungszuverl&#228;ssigkeit von &#8222;bestanden&#47;durchgefallen&#8220; geeignetes Verfahren am Beispiel einer zusammengesetzten Pr&#252;fung darzustellen und damit als wesentlichen Bestandteil der Qualit&#228;tssicherung von Pr&#252;fungen zu etablieren.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Principles">
      <MainHeadline>2. Principles</MainHeadline><SubHeadline2>Decision accuracy and decision consistency</SubHeadline2><Pgraph>Our starting point is the assumption that the examinees can be classified according to their knowledge or skills into two subgroups, one that fulfills the minimum requirements (master, competent examinee) and one that does not fulfill them (non-master, incompetent examinee). For an assessment in a particular subject, such a definition could be taken from a catalogue of learning objectives, with the definition of a master being someone who &#8211; for example &#8211; masters 70&#37; of these learning objectives.</Pgraph><Pgraph>For an actual assessment, learning objectives are selected for testing and a passing score is defined. The lowest passing score could then also be set at 70&#37;. A student who has mastered 90&#37; of all learning objectives would with great probability exceed this cut-off, in contrast to someone who has mastered 72&#37; &#8211; thus also fulfilling the minimum requirements (master) &#8211; but who could possibly be unlucky and fail. The same applies to students who are just under the cut-off for master status, but pass with a bit of luck. A more detailed discussion of the difference between the definition of master (performance standard) and the passing score can be found in <TextLink reference="12"></TextLink> (see also <TextLink reference="2"></TextLink>, <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>Depending on the objective of the assessment, the passing score can be varied. If a higher passing score is set, the probability of a non-master passing is reduced, but at the same time the risk of inaccurately classifying a master as a non-master increases. This is analogous to a diagnostic test that compares a gold standard (in this situation the knowledge that a person is a master or non-master) with an actual test score. If one regards the assessment as the diagnosis of non-masters, then this test possesses a certain sensitivity (the probability of failing non-masters) and a specificity (probability that a master passes). Changes to the cut-off point for the test value lead to an increase or decrease in the sensitivity, along with a simultaneous decrease or increase in the specificity.</Pgraph><Pgraph>The degree to which masters and non-masters can be identified using the assessment is referred to as the decision accuracy. The left contingency table in Table 1 <ImgLink imgNo="1" imgType="table"/> presents in full the relative proportions for master&#47;test passed, master&#47;test failed, non-master&#47; test passed, and non-master&#47;test failed.</Pgraph><Pgraph>If two <Mark2>equivalent</Mark2> tests are administered, then the degree of agreement between the two test scores is the <Mark2>decision consistency</Mark2> or pass-fail reliability. The corresponding contingency table is shown on the right in Table 1 <ImgLink imgNo="1" imgType="table"/>. If the tests are equivalent, then the proportion of students who pass the first test and fail the second must be exactly the same size as the proportion that failed the first and passed the second.</Pgraph><Pgraph>The two values most frequently used in the literature for decision accuracy and decision consistency are the relative number of correct decisions <Mark2>P</Mark2><Subscript>a</Subscript> (corresponding to the correct classification rate for diagnostic tests) and agreements <Mark2>P</Mark2><Subscript>c</Subscript> <TextLink reference="11"></TextLink> and Cohen&#8217;s &#954; <TextLink reference="4"></TextLink> (for its use in connection with the sensitivity and specificity of diagnostic tests, see <TextLink reference="3"></TextLink>). Cohen&#8217;s &#954; corrects the number of correct decisions P<Subscript>a</Subscript> and the agreements P<Subscript>c</Subscript> for the effects of chance that can be expected in the margin totals of the contingency table. The corresponding values are designated by &#954;<Subscript>a</Subscript> and &#954;<Subscript>c</Subscript>.</Pgraph><Pgraph>&#954; assumes the value of 1 in the case of complete agreement. The application of &#954; as a measure of agreement is criticized in some places (e.g. <TextLink reference="10"></TextLink>) and alternatives have been propagated. In our opinion, all the coefficients in this context come with the disadvantage that, with reduction to a single index, important information is lost. Therefore, when analyzing a test, the <Mark2>entire contingency table</Mark2> should be drawn upon.</Pgraph><SubHeadline2>Procedures for estimating the decision accuracy and consistency for individual assessments</SubHeadline2><Pgraph>In the literature, many methods are presented for determining decision consistency for individual tests. Known are those presented by Livingston-Lewis <TextLink reference="16"></TextLink> and Peng-Subkoviak <TextLink reference="18"></TextLink>. Overviews and comparisons also exist <TextLink reference="6"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="25"></TextLink>. In our opinion, it is not currently possible to show a clear preference for any particular one among the various methods.</Pgraph><SubHeadline2>The method of Douglas und Mislevy</SubHeadline2><Pgraph>Douglas und Mislevy&#8217;s method <TextLink reference="7"></TextLink>&#8218; <TextLink reference="8"></TextLink> serves to determine the decision accuracy and consistency for complex decision rules based on scores from multiple tests. The pre-requisite is that the data of the individual tests can be described by a multivariate normal distribution and the reliabilities of the tests are known. In practice, however, scores are not normally distributed, which is why an adequate transformation of the data must be undertaken. For a precise description of the method, reference must be made to the original literature <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>.</Pgraph><Pgraph>For the purpose of understanding, let us take a simple, fictional example to determine the decision accuracy with graphic illustration of two individual tests (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). Those who passed both individual tests have passed overall (conjunctive combination).</Pgraph><Pgraph>Figure 1a <ImgLink imgNo="1" imgType="figure"/> illustrates the distribution of the scores. The examinees whose scores lie within the yellow part of the curve have passed both individual tests and have thus passed overall (in Table 1 <ImgLink imgNo="1" imgType="table"/> this is represented by a<Subscript>1&#43;2</Subscript>). Orange denotes the area of the distribution in which one individual test was passed and one was not. These examinees have not passed overall, just as those who did not pass either of the individual tests (brown area). The proportion of those in the L-shaped section of the curve (orange and brown) &#8211; representing those who failed overall &#8211; is represented by a<Subscript>3&#43;4</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>.</Pgraph><Pgraph>In the method proposed by Douglas and Mislevy, the distribution of the &#8220;true values&#8221; is determined according to the model of classical test theory and the assumption of normal distribution, meaning the distribution of the values if these had been measured without any error. For this, the reliabilities of the individual tests must be known. The resulting distribution shows a distinctly lower variance. The masters and non-masters are defined on the level of the true values. Figure 1b <ImgLink imgNo="1" imgType="figure"/> shows this distribution: the masters are those who satisfy the minimum requirements for both tests (green area; a<Subscript>1&#43;3</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>), while non-masters are those who have not satisfied the minimum requirement for one area of both individual tests (red, L-shaped area; a<Subscript>2&#43;4</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>).</Pgraph><Pgraph>To determine the decision accuracy, the model now examines how the masters&#8217; scores are distributed (see Figure 1c <ImgLink imgNo="1" imgType="figure"/>). Due to errors of measurement in the tests, a portion of the masters failed (dark green area). The light green area shows the group of masters who passed overall (a<Subscript>1</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>); the dark green area indicates the masters who failed overall (a<Subscript>3</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>).</Pgraph><Pgraph>The corresponding graph for the non-masters is presented in Figure 1d <ImgLink imgNo="1" imgType="figure"/>. This is presented from another perspective to make the borderlines more visible. The light red area indicates the portion of non-masters who did not pass overall and dark red those who did pass overall (a<Subscript>4</Subscript> and a<Subscript>2</Subscript> in Table 1 <ImgLink imgNo="1" imgType="table"/>).</Pgraph><Pgraph>If one combines the distributions of the masters and non-masters in Figures 1c and 1d, then the overall distribution of the test scores in Figure 1a <ImgLink imgNo="1" imgType="figure"/> is seen again.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Grundlagen">
      <MainHeadline>2. Grundlagen</MainHeadline><SubHeadline2>Entscheidungsgenauigkeit und Entscheidungskonsistenz</SubHeadline2><Pgraph>Ausgangspunkt ist die Annahme, dass die zu pr&#252;fenden Studierenden bez&#252;glich ihrer Kenntnisse&#47;Fertigkeiten unterteilt werden k&#246;nnen in solche, welche die Mindestanforderungen erf&#252;llen (&#8222;Master&#8220;, &#8222;competent examinee&#8220;) und solche, die ihnen nicht gen&#252;gen (&#8222;Non-Master&#8220;, &#8222;incompetent examinee&#8220;). Bei einer Pr&#252;fung in einem Fach k&#246;nnte eine solche Definition z. B. darin bestehen, dass ein Lernzielkatalog existiert und als &#8222;Master&#8220;, definiert wird, welcher z. B. 70&#37; dieser Lernziele beherrscht.</Pgraph><Pgraph>In einer konkreten Pr&#252;fung wird dann eine Auswahl von Lernzielen getroffen, die gepr&#252;ft werden und eine Bestehensgrenze festgelegt. Diese Bestehensgrenze k&#246;nnte dann z. B. ebenfalls mit 70&#37; angesetzt werden. So w&#252;rde z. B. ein Studierender, der 90&#37; aller Lernziele beherrscht, mit gro&#223;er Wahrscheinlichkeit diese Grenze &#252;berschreiten, hingegen jemand, der 72&#37; beherrscht und demzufolge ebenfalls die Mindestanforderungen erf&#252;llt (&#8222;Master&#8220;), wird aber m&#246;glicherweise Pech haben und durchfallen. Analoges gilt f&#252;r Studierende knapp unterhalb der Grenze zum Master, die mit etwas Gl&#252;ck bestehen. Eine eingehendere Diskussion des Unterschieds zwischen der Definition eines Master (&#8222;performance standard&#8220;) und der Bestehensgrenze (&#8222;passing score&#8220;) findet sich etwa in <TextLink reference="12"></TextLink> (s. auch <TextLink reference="2"></TextLink>, <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>Abh&#228;ngig vom Ziel der Pr&#252;fung kann die Bestehensgrenze variiert werden, pr&#252;ft man strenger (h&#246;here Bestehensgrenze) vermindert man die Wahrscheinlichkeit, einen Non-Master bestehen zu lassen, erh&#246;ht aber gleichzeitig das Risiko, einen Master fehlzuklassifizieren, indem er durchf&#228;llt. Dies ist v&#246;llig analog zu diagnostischen Test, die einem &#8222;Goldstandard&#8220; (das entspr&#228;che dem Wissen, ob jemand Master oder Non-Master ist) ein tats&#228;chliches Testergebnis gegen&#252;berstellen. Fasst man die Pr&#252;fung als Test zur &#8222;Diagnose&#8220; der Non-Master auf, so besitzt dieser eine gewisse Sensitivit&#228;t (die Wahrscheinlichkeit, Non-Master durchfallen zu lassen) und eine Spezifit&#228;t (Wahrscheinlichkeit, dass ein Master besteht). &#196;nderungen des &#8222;Cut-Off&#8220;-Punkts des Testwerts f&#252;hren zu einer Erh&#246;hung oder Verringerung der Sensitivit&#228;t bei gleichzeitiger Verringerung bzw. Erh&#246;hung der Spezifit&#228;t.</Pgraph><Pgraph>Das Ausma&#223;, mit dem man durch die Pr&#252;fung Master und Non-Master erkennen kann, wird als &#8222;Entscheidungsgenauigkeit&#8220; bezeichnet. Der vollst&#228;ndigen Darstellung dient die linke Vierfeldertafel in Tabelle 1 <ImgLink imgNo="1" imgType="table"/>, die die Relativanteile f&#252;r Master&#47;Pr&#252;fung bestanden, Master&#47;Pr&#252;fung nicht bestanden, Non-Master&#47;bestanden und Non-Master&#47;nicht bestanden auff&#252;hrt.</Pgraph><Pgraph>Werden zwei <Mark2>&#228;quivalente</Mark2> Pr&#252;fungen durchgef&#252;hrt, so ist der Grad der &#220;bereinstimmung der beiden Pr&#252;fungsergebnisse die <Mark2>Entscheidungskonsistenz</Mark2> (&#8222;decision consistency&#8220;, &#8222;pass-fail reliability&#8220;). Die analoge Vierfeldertafel zeigt Tabelle 1 <ImgLink imgNo="1" imgType="table"/> rechts. Bei &#196;quivalenz der Pr&#252;fungen muss der Anteil von Studierenden, der in der ersten Pr&#252;fung besteht und in der zweiten nicht, genau so gro&#223; sein, wie der, die in der ersten durchfallen und in der zweiten bestehen.</Pgraph><Pgraph>Die beiden in der Literatur am h&#228;ufigsten verwendeten Kennma&#223;e f&#252;r die Entscheidungsgenauigkeit und die -konsistenz sind die relative Zahl der Korrektentscheidungen <Mark2>P</Mark2><Subscript>a</Subscript> (entspricht der &#8222;Korrektklassifikationsrate&#8220; in diagnostischen Tests) bzw.&#220;bereinstimmungen <Mark2>P</Mark2><Subscript>c</Subscript> <TextLink reference="11"></TextLink> und Cohens &#954; <TextLink reference="4"></TextLink> (f&#252;r seine Verwendung im Zusammenhang mit Sensitivit&#228;t und Spezifit&#228;t diagnostischer Tests s. <TextLink reference="3"></TextLink>). Cohens &#954; korrigiert die Zahl der Korrektentscheidungen <Mark2>P</Mark2><Subscript>a</Subscript> und der &#220;bereinstimmungen <Mark2>P</Mark2><Subscript>c</Subscript>  um den Effekt, der unter Zufall aus den Randsummen der Vierfeldertafel zu erwarten w&#228;re. Die entsprechenden Werte seine durch &#954;<Subscript>a</Subscript> bzw. &#954;<Subscript>c</Subscript> bezeichnet.</Pgraph><Pgraph>&#954; nimmt bei vollst&#228;ndiger &#220;bereinstimmung maximal den Wert 1 an. Die Verwendung von &#954; als Ma&#223; der &#220;bereinstimmung wird mancherorts kritisiert (z. B. <TextLink reference="10"></TextLink>) und andere Alternativen propagiert. Unseres Erachtens besitzen in diesem Zusammenhang alle Koeffizienten jedoch den Nachteil, dass bei Reduktion auf einen einzigen Index wesentliche Informationen verlorengehen. Es sollte deshalb zur Beurteilung einer Pr&#252;fung immer die <Mark2>gesamte Vierfeldertafel</Mark2> herangezogen werden.</Pgraph><SubHeadline2>Verfahren zur Absch&#228;tzung der Entscheidungsgenauigkeit und &#8211;konsistenz bei einzelnen Pr&#252;fungen</SubHeadline2><Pgraph>In der Literatur wird eine Vielzahl von Verfahren zur Bestimmung der Entscheidungskonsistenz von einzelnen Pr&#252;fungen dargestellt, bekannt sind etwa das Verfahren von Livingston-Lewis <TextLink reference="16"></TextLink> oder das von Peng-Subkoviak <TextLink reference="18"></TextLink>. &#220;bersichten und Vergleiche finden sich etwa bei <TextLink reference="6"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="25"></TextLink>. Unseres Erachtens kann zum gegenw&#228;rtigen Zeitpunkt keine eindeutige Pr&#228;ferierung unter den verschiedenen Methoden vorgenommen werden.</Pgraph><SubHeadline2>Das Verfahren von Douglas und Mislevy</SubHeadline2><Pgraph>Das Verfahren von Douglas und Mislevy <TextLink reference="7"></TextLink>&#8218; <TextLink reference="8"></TextLink> dient zur Bestimmung der Entscheidungsgenauigkeit und  konsistenz  bei komplexen Entscheidungsregeln aus den Einzelpr&#252;fungen. Voraussetzung ist, dass die Daten der Einzelpr&#252;fungen durch eine multivariate Normalverteilung beschrieben werden k&#246;nnen und die Reliabilit&#228;ten der Pr&#252;fungen bekannt sind. In der Praxis sind die Verteilungen von Pr&#252;fungsergebnissen jedoch nicht normalverteilt, weshalb eine ad&#228;quate Transformation der Daten vorgenommen werden muss. F&#252;r die genaue Beschreibung des Vorgehens muss hier auf die Originalliteratur <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink> verwiesen werden.</Pgraph><Pgraph>Zum Verst&#228;ndnis sei ein einfaches fiktives Beispiel f&#252;r die Bestimmung der Entscheidungsgenauigkeit mit zwei Einzelpr&#252;fungen graphisch dargestellt (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Insgesamt hat bestanden, wer beide Einzelpr&#252;fungen bestanden hat (konjunktive Verkn&#252;pfung). </Pgraph><Pgraph>Abbildung 1a <ImgLink imgNo="1" imgType="figure"/> stellt die Verteilung der Pr&#252;fungsergebnisse dar. Die Teilnehmer, deren Ergebnisse im gelben Teil der Verteilung liegen, haben beide Einzelpr&#252;fungen und somit auch insgesamt bestanden (in der Tabelle 1 <ImgLink imgNo="1" imgType="table"/> ist das der Anteil a<Subscript>1&#43;2</Subscript>). Orange unterlegt ist der Teil der Verteilung, bei dem eine Einzelpr&#252;fung bestanden und eine nicht bestanden wurde. Insgesamt haben diese Personen damit nicht bestanden, ebenso nat&#252;rlich wie diejenigen, die keine der beiden Einzelpr&#252;fungen bestanden haben (braun unterlegt). Der Anteil des im Grundriss &#34;L-f&#246;rmige&#34; Bereichs (orange und braun) derjenigen, die insgesamt nicht bestehen ist in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> mit a<Subscript>3&#43;4</Subscript> bezeichnet.</Pgraph><Pgraph>Im Verfahren von Douglas und Mislevy wird nach dem Modell der klassischen Testtheorie und der Normalverteilungsannahme die Verteilung der &#8222;wahren Werte&#8220; bestimmt, also die Verteilung der Werte, wenn diese messfehlerfrei gemessen worden w&#228;ren. Hierzu m&#252;ssen die Reliabilt&#228;ten der Einzelpr&#252;fungen bekannt sein. Die resultierende Verteilung besitzt eine deutlich geringere Varianz. Auf der Ebene der wahren Werte sind &#8222;Master&#8220; und &#8222;Non-Master&#8220; definiert. Abbildung 1b <ImgLink imgNo="1" imgType="figure"/> zeigt diese Verteilung, die Master sind diejenigen, die in beiden abgepr&#252;ften Inhalten die Mindestanforderungen erf&#252;llen (gr&#252;ner Bereich, in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> a<Subscript>1&#43;3</Subscript>), Non-Master die, die mindestens bei einem Gebiet der beiden Einzelpr&#252;fungen die Mindestanforderung nicht erf&#252;llen (im Grundriss &#34;L f&#246;rmiger&#34; roter Bereich, a<Subscript>2&#43;4</Subscript> in Tabelle 1 <ImgLink imgNo="1" imgType="table"/>).</Pgraph><Pgraph>Zur Bestimmung der Entscheidungsgenauigkeit wird nun im Modell betrachtet, wie die Ergebnisse der Master verteilt sind (siehe Abbildung 1c <ImgLink imgNo="1" imgType="figure"/>). Aufgrund der Messfehler der Pr&#252;fungen f&#228;llt ein Teil der Master durch (dunkelgr&#252;ner Bereich). Der hellgr&#252;ne Bereich stellt also den Anteil der Master dar, die insgesamt bestehen (in der Tabelle 1 <ImgLink imgNo="1" imgType="table"/> das a<Subscript>1</Subscript>), der dunkelgr&#252;ne  den der Master, die insgesamt durchfallen (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/> a<Subscript>3</Subscript>). </Pgraph><Pgraph>Die entsprechende Abbildung f&#252;r die Non-Master ist Abbildung 1d <ImgLink imgNo="1" imgType="figure"/>. Diese ist zur besseren Sichtbarkeit der Grenzlinien aus einer anderen Perspektive dargestellt. Hellrot ist der Anteil der Non-Master, die insgesamt nicht bestehen, dunkelrot derer, die insgesamt bestehen (in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> a<Subscript>4</Subscript> bzw. a<Subscript>2</Subscript>). </Pgraph><Pgraph>Fasst man die beiden Verteilungen der Master und Non-Master in Abbildung 1c <ImgLink imgNo="1" imgType="figure"/> und 1d <ImgLink imgNo="1" imgType="figure"/> zusammen, so ergibt sich wieder die Gesamtverteilung der Pr&#252;fungsergebnisse der Abbildung 1a <ImgLink imgNo="1" imgType="figure"/>.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Method">
      <MainHeadline>3. Method</MainHeadline><SubHeadline2>3.1 Data</SubHeadline2><Pgraph>The aim of this study is to analyze the scores given for the graded course credit in the bundled subjects of Internal Medicine&#47;General Medicine&#47;Clinical Chemistry at Heidelberg University&#8217;s Faculty of Medicine during the winter semester 2012-13. The graded assessment consists of the written exam in Internal Medicine&#47;General Medicine, an oral practical assessment (OSCE), and the written exam in Clinical Chemistry. To receive the graded course credit, a case report, a MiniCEX, and Encounter Cards to assess professionalism are also required. Since the pass rate is 100&#37; for each of these, they are of no relevance to this investigation. Only the students who took all three tests were included in the analysis (<Mark2>N</Mark2>&#61;147). The basic data for the tests are presented in Table 2 <ImgLink imgNo="2" imgType="table"/>. All in all, seven of the 147 examinees who sat for all three tests failed at least one of the components.</Pgraph><Pgraph>For the written exams in the subjects Clinical Chemistry and Internal Medicine, masters were defined as those who would correctly solve 60&#37; of the questions from the particular question pool for each subject. In terms of the OSCE, the definition of master was those whose mean point totals for the OSCE stations in the subject was at least the number of points set as the standard (performance standard, <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>The passing scores for each written exam were defined as 60&#37; of the possible points for the questions actually posed; for the OSCE, the passing score was the mean of the number of points defined as the standard for the stations used (passing score).</Pgraph><SubHeadline2>3.2 Statistical analysis</SubHeadline2><Pgraph>The analysis of the accuracy and consistency of the pass&#47;fail decision was mainly carried out according to the method proposed by Douglas und Mislevy <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>.</Pgraph><Pgraph>The method applied by Douglas and Mislevy makes no assumptions about the internal structure of the individual tests in terms of test theory, or about that among the individual tests. In particular, the individual tests are neither required to be homogenous or one-dimensional, nor must a uniform performance dimension be represented by the entirety of the components. However, it is pre-requisite that the data is sufficiently well described by a normal curve of distribution and the measurement reliabilities (reliabilities) of the individual tests are adequately estimated.</Pgraph><Pgraph>Since the point values of the tests each deviate in a highly significant manner from normal distributions (Shapiro-Wilk tests: all <Mark2>p</Mark2>&#60;0.0008), the data were subjected to a multivariate Box-Cox transformation <TextLink reference="1"></TextLink>. For the transformed data, a test for deviation from trivariate normal distribution using the generalized Shapiro-Wilk test as described by Villasenor-Alva and Gonzalez-Estrada <TextLink reference="22"></TextLink> revealed a <Mark2>p</Mark2>-value of 0.8467 (MVW&#61;0.9929), so that a sufficiently good adjustment of the data can be assumed. In contrast to the normalizing rank transformations applied in the study by Douglas and Mislevy, an adjustment to a <Mark2>multivariate</Mark2> normal distribution is aimed for with this transformation. To estimate the reliability of the individual tests, Guttman&#8217;s &#955;<Subscript>2</Subscript> was selected as the coefficient allowing for a slightly better estimation of the minimum reliability than Cronbach&#8217;s &#945; (&#61;Guttman&#8217;s &#955;<Subscript>3</Subscript>) <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>The contingency tables for the decision accuracy and consistency of the <Mark2>individual tests</Mark2> and their <Mark2>conjunctive combination</Mark2> were calculated using numerical integration of the multivariate normal distributions with the algorithm of Miwa, Hayter and Kuriki <TextLink reference="17"></TextLink>.</Pgraph><Pgraph><Mark2>Taking the two options</Mark2> to repeat each individual test into account, this analysis is only of a theoretical nature insofar as it is assumed that students, who have not passed a test, concentrate on learning for the repeat attempt. In the analysis undertaken here it is assumed that the students taking these tests sit for the second attempt with the same knowledge they possessed for the first. The algorithm of Miwa et al. <TextLink reference="17"></TextLink> is unsuited for the integration of a higher-dimensional normal distribution necessary for calculating the statistical values, so this analysis was done with Monte-Carlo integration as in <TextLink reference="8"></TextLink>. All in all, 100,000 simulated data sets were generated to ensure sufficient accuracy of the results.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Methodik">
      <MainHeadline>3. Methodik</MainHeadline><SubHeadline2>3.1 Daten</SubHeadline2><Pgraph>Ziel der Studie ist eine Analyse der Ergebnisse der Pr&#252;fungen f&#252;r den f&#228;cher&#252;bergreifenden Leistungsnachweis Innere Medizin&#47;Allgemeinmedizin&#47;Klinische Chemie an der medizinischen Fakult&#228;t Heidelberg des Wintersemesters 2012&#47;2013. Der Leistungsnachweis besteht aus der schriftlichen Klausur Innere Medizin&#47;Allgemeinmedizin, einer praktisch-m&#252;ndlichen Pr&#252;fung (OSCE) und der Klausur Klinische Chemie. Zus&#228;tzlich sind zur Erlangung des Leistungsnachweises noch ein Patientenbericht zu erstellen, ein MiniCEX abzulegen und zur Pr&#252;fung professionellen Verhaltens Encounter Cards einzuholen. Da bei diesen die Bestehensrate jeweils 100&#37; betr&#228;gt, besitzen sie hier keine Relevanz. F&#252;r die Auswertung wurden nur die Studierenden ber&#252;cksichtigt, die an allen drei Pr&#252;fungen teilgenommen haben (<Mark2>N</Mark2>&#61;147). Die Basisdaten der Pr&#252;fungen sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> aufgef&#252;hrt. Insgesamt sind 7 der 147 Teilnehmer an allen drei Pr&#252;fungen bei wenigstens einer Teilpr&#252;fung durchgefallen.</Pgraph><Pgraph>F&#252;r die Klausuren in den F&#228;chern Klinische Chemie und Innere Medizin wurde als Master definiert, wer 60&#37; der Aufgaben im zugrundeliegenden Aufgabenpool der jeweiligen F&#228;cher zutreffend l&#246;st. F&#252;r den OSCE ist als Master definiert, wessen durchschnittlich erreichte Punktzahl in OSCE-Stationen des Faches die durch das Standard-Setting festgelegte Punktzahl erreicht (&#8222;performance standard&#8220;, <TextLink reference="5"></TextLink>).</Pgraph><Pgraph>Als Bestehensgrenzen f&#252;r die Klausuren wurden jeweils 60&#37; der erreichbaren Punktzahlen bei den tats&#228;chlich gestellten Aufgaben gew&#228;hlt, beim OSCE war Bestehensgrenze das Mittel der im Standard-Setting festgelegten Punktzahlen der verwendeten Stationen (&#8222;passing score&#8220;).</Pgraph><SubHeadline2>3.2 Statistische Analyse</SubHeadline2><Pgraph>Die Analyse der Entscheidungsgenauigkeit und der -konsistenz von &#8222;bestanden&#8220;&#47;&#8222;durchgefallen&#8220; erfolgt im Wesentlichen mit dem von Douglas und Mislevy vorgeschlagenen Verfahren <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>.</Pgraph><Pgraph>Das Verfahren von Douglas und Mislevy macht keine Annahmen &#252;ber die interne testtheoretische Struktur der Einzelpr&#252;fungen noch &#252;ber die zwischen den einzelnen Pr&#252;fungen. Insbesondere m&#252;ssen die Einzelpr&#252;fungen nicht homogen oder eindimensional sein, noch muss durch das Gesamt der Pr&#252;fungen eine &#8222;einheitliche&#8220; Leistungsdimension abgebildet werden. Voraussetzung ist jedoch, dass die Daten hinreichend gut durch eine Normalverteilung beschrieben werden und die Messzuverl&#228;ssigkeiten (Reliabilit&#228;ten) der Einzelpr&#252;fungen ad&#228;quat abgesch&#228;tzt werden.</Pgraph><Pgraph>Da die Punktwerte der Pr&#252;fungen jeweils hochsignifikant von Normalverteilungen abweichen (Shapiro-WilksTests: alle <Mark2>p</Mark2>&#60;0,0008), wurden die Daten einer multivariaten Box-Cox-Transformation unterworfen <TextLink reference="1"></TextLink>. F&#252;r die so transformierten Daten ergab ein Test auf Abweichung von einer trivariaten Normalverteilung mittels des verallgemeinerten Shapiro-Wilks-Tests von Villasenor-Alva und Gonzalez-Estrada <TextLink reference="22"></TextLink> ein <Mark2>p</Mark2>&#61;0,8467 (MVW&#61;0,9929), so dass von einer hinreichend guten Anpassung der Daten ausgegangen werden kann. Im Unterschied zu der in der Arbeit von Douglas und Mislevy verwendeten normalisierenden Rangtransformation, wird mit dieser Transformation eine Anpassung an eine <Mark2>multivariate</Mark2> Normalverteilung angestrebt. Zur Absch&#228;tzung der Reliabilit&#228;t der Einzelpr&#252;fungen wurde der Koeffizient &#955;<Subscript>2</Subscript> von Guttman  gew&#228;hlt, der eine leicht bessere Sch&#228;tzung f&#252;r die Mindestreliabilit&#228;t als Cronbachs &#945; (&#61;Guttmans &#955;<Subscript>3</Subscript>) erlaubt <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>Die Vierfeldertafeln von Entscheidungsgenauigkeit und -konsistenz f&#252;r die <Mark2>Einzelpr&#252;fungen</Mark2> und ihrer <Mark2>konjunktiven Verkn&#252;pfung</Mark2> wurden durch numerische Integration der multivariaten Normalverteilungen mit dem Algorithmus von Miwa, Hayter und Kuriki <TextLink reference="17"></TextLink> bestimmt.</Pgraph><Pgraph>Die Analyse unter <Mark2>Ber&#252;cksichtigung zweier Wiederholungsm&#246;glichkeiten</Mark2> f&#252;r jede Einzelpr&#252;fung ist insofern eher theoretischer Natur, als anzunehmen ist, dass Studierende, die eine Pr&#252;fung nicht bestanden haben, auf die Wiederholungspr&#252;fung konzentriert lernen. In der hier vorgenommenen Analyse wird angenommen, dass die Studierenden diese Pr&#252;fungen mit demselben Wissenstand ablegen wie die erste.  F&#252;r die zur Bestimmung der Kennwerte erforderliche Integration einer h&#246;herdimensionalen Normalverteilung ist der Algorithmus von Miwa et al. <TextLink reference="17"></TextLink> ungeeignet, so dass diese Analyse wie in <TextLink reference="8"></TextLink> durch Monte-Carlo-Integration erfolgte. Insgesamt wurden hierzu 100.000 simulierte Datens&#228;tze erzeugt um eine ausreichende Genauigkeit der Ergebnisse zu gew&#228;hrleisten.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Results">
      <MainHeadline>4. Results</MainHeadline><SubHeadline2>4.1 Individual tests</SubHeadline2><Pgraph>The contingency tables in Table 3 <ImgLink imgNo="3" imgType="table"/>, Table 4 <ImgLink imgNo="4" imgType="table"/> and Table 5 <ImgLink imgNo="5" imgType="table"/> cover the individual tests. The estimated number of failing examinees resulting from the model of normal distribution is calculated as the failure rate of the model &#215;N&#61;0.0331&#215;147&#61;4.9 for the written exam in Internal Medicine, 3.0 for Clinical Chemistry, and 1.9 for the OSCE. It can be seen that these rates deviate only slightly from the number of examinees who actually failed: 4, 5 and 1 (see Table 2 <ImgLink imgNo="2" imgType="table"/>). For all three tests, Cohen&#8217;s &#954; coefficients &#954;<Subscript>a</Subscript> (decision accuracies) and &#954;<Subscript>c</Subscript> (decision consistencies) are low.</Pgraph><SubHeadline2>4.2 Assessments composed of multiple scores</SubHeadline2><SubHeadline3>4.2.1 Conjunctive combination of the individual tests</SubHeadline3><Pgraph>The decision accuracy and consistency for the conjunctive combination of the three tests are presented in Table 6 <ImgLink imgNo="6" imgType="table"/>. According to the model of Douglas and Mislevy, it is to be expected that 7.8 examinees would fail (&#61;failure rate of the model &#215;N&#61;0.0531&#215;47&#61;7.8). Seven candidates did indeed fail (many of the students did not pass more than one test), demonstrating satisfactory agreement between the model and the actual data. The test logic leads to a clear classification of the students who do not meet the requirements; the proportion of non-masters who pass all three tests is now 0.004 in total (although consideration must be given to the fact that their overall proportion is only 0.0232). The sensitivity to uncover non-masters is 82&#37;, the specificity 97&#37;; however, the positive predictive value is low with 36&#37;.</Pgraph><Pgraph>The decision consistency (three administrations of equivalent tests) does not reach a satisfactory value with &#954;<Subscript>c</Subscript>&#61;0.474. Classification of 94.7&#37; of the examinees would occur right off (<Mark2>P</Mark2><Subscript>c</Subscript>), meaning that conflicting information would exist for 5.3&#37; of the examinees about successfully achieving the full graded credit.</Pgraph><SubHeadline3>4.2.2 Complex conjunctive and disjunctive combination for repeat tests</SubHeadline3><Pgraph>Each of the three tests in Internal Medicine, Clinical Chemistry and the OSCE can be retaken a total of two times before the student has definitively failed. Logically, this means that a student must pass one of three written exams in Internal Medicine, one of three written exams in Clinical Chemistry, and one of three OSCEs. Within each testing format, the pass&#47;fail decision is then disjunctively combined, and the three component decisions thus conjunctively (see Figure 2 <ImgLink imgNo="2" imgType="figure"/>). The fact that a student who has passed a test on the first attempt does not appear for another attempt in the same subject is not of importance to the decision logic.</Pgraph><Pgraph>Table 7 <ImgLink imgNo="7" imgType="table"/> contains the contingency tables for the decision accuracy and consistency with the assumption that a student takes all tests with the same level of knowledge.</Pgraph><Pgraph>Of significance here is primarily that of the 2.32&#37; of the students (a<Subscript>2&#43;4</Subscript>&#61;0.0232) who do not meet the requirements (non-master) more than half (a<Subscript>2</Subscript>&#61;0.0124) would ultimately receive the graded credit, meaning that, as a result of the possibility to repeat tests, only a portion of the students who do not fulfill the requirements are stopped from continuing the program (note the substantial difference in regard to the results in the section above, in which the corresponding value with a<Subscript>2</Subscript>&#61;0.0040 in Table 6 <ImgLink imgNo="6" imgType="table"/> is clearly lower than the value of 0.0124 in Table 7 <ImgLink imgNo="7" imgType="table"/>).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Ergebnisse">
      <MainHeadline>4. Ergebnisse</MainHeadline><SubHeadline2>4.1 Einzelpr&#252;fungen</SubHeadline2><Pgraph>F&#252;r die einzelnen Pr&#252;fungen ergeben sich die Vierfeldertafeln in Tabelle 3 <ImgLink imgNo="3" imgType="table"/>, Tabelle 4 <ImgLink imgNo="4" imgType="table"/> und Tabelle 5 <ImgLink imgNo="5" imgType="table"/>. Die aus dem Normalverteilungsmodell resultierende gesch&#228;tzten Anzahl von Pr&#252;fungsteilnehmern, die die Pr&#252;fung nicht bestehen, sind: Durchfallquote des Modells &#215;N&#61;0,0331&#215;147&#61;4,9 f&#252;r die Klausur Innere Medizin, 3,0 f&#252;r Klinische Chemie und 1,9 f&#252;r den OSCE. Damit weichen diese Raten nur wenig von der Zahl der tats&#228;chlich durchgefallenen Studierenden 4, 5 bzw. 1 ab (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Bei allen drei Pr&#252;fungen sind Cohen&#8217;s &#954;-Koeffizienten &#954;<Subscript>a</Subscript> (Entscheidungsgenauigkeiten)  und &#954;<Subscript>c</Subscript> (Entscheidungskonsistenzen) niedrig.</Pgraph><SubHeadline2>4.2 Zusammengesetzte Pr&#252;fungen</SubHeadline2><SubHeadline3>4.2.1 Konjunktive Verkn&#252;pfung der Einzelpr&#252;fungen</SubHeadline3><Pgraph>F&#252;r die konjunktive Kombination der drei Pr&#252;fungen sind Entscheidungsgenauigkeit und -konsistenz in Tabelle 6 <ImgLink imgNo="6" imgType="table"/> aufgef&#252;hrt. Gem&#228;&#223; dem Modell von Douglas und Mislevy w&#228;re zu erwarten, dass 7,8 Teilnehmer (&#61; Durchfallquote des Modells &#215;N&#61;0,0531&#215;147&#61;7,8) nicht bestehen, tats&#228;chlich sind 7 Teilnehmer durchgefallen (mehrere der Studierende haben mehr als eine Pr&#252;fung nicht bestanden), so dass auch hier eine zufriedenstellende &#220;bereinstimmung des Modells und der tats&#228;chlichen Daten vorliegt. Die Pr&#252;fungslogik f&#252;hrt zu einer klaren Aussortierung der Studierenden, die den Anforderungen nicht gen&#252;gen, der Anteil von Non-Mastern, die bei allen drei Pr&#252;fungen bestehen, betr&#228;gt insgesamt nur 0,004 (wobei jedoch ber&#252;cksichtigt werden muss, dass deren Gesamtanteil lediglich bei 0,0232 liegt). Die &#8222;Sensitivit&#228;t&#8220; zur Entdeckung von Non-Mastern betr&#228;gt 82&#37;, die &#8222;Spezifit&#228;t&#8220; liegt bei 97&#37;, der positive Vorhersagewert ist mit 36&#37; jedoch gering.</Pgraph><Pgraph>Die Entscheidungskonsistenz (Wiederholung mit drei jeweils &#228;quivalenten Pr&#252;fungen) erreicht mit &#954;<Subscript>c</Subscript>&#61;0,474 keinen befriedigenden Wert. 94,7&#37; der Pr&#252;fungsteilnehmer w&#252;rden gleich klassifiziert werden (<Mark2>P</Mark2><Subscript>c</Subscript>) d. h. bei 5,3&#37; der Teilnehmer erhielte man unterschiedliche Aussagen zum Bestehen des gesamten Leistungsnachweises.</Pgraph><SubHeadline3>4.2.2 Komplexe konjunktive und disjunktive Verkn&#252;pfung bei Pr&#252;fungswiederholungen</SubHeadline3><Pgraph>Insgesamt kann jede der drei Pr&#252;fungen Innere Medizin, Klinische Chemie und der OSCE zweimal wiederholt werden, bevor der Studierende endg&#252;ltig nicht bestanden hat. Logisch bedeutet das, dass ein Studierender eine von drei Klausuren Innere Medizin, eine von drei Pr&#252;fungen in Klinischer Chemie und einen von drei OSCEs bestanden haben muss. Innerhalb eines Pr&#252;fungsformats wird die Entscheidung bestanden&#47;nicht bestanden also disjunktiv verkn&#252;pft, diese drei Teilentscheidungen sodann konjunktiv (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Die Tatsache, dass ein Studierender, der eine erste Pr&#252;fung bestanden hat, gar nicht zu einer weiteren antritt, ist f&#252;r die Entscheidungslogik ohne Belang.</Pgraph><Pgraph>In Tabelle 7 <ImgLink imgNo="7" imgType="table"/> sind die Vierfeldertafeln f&#252;r die Entscheidungsgenauigkeit und -konsistenz unter der Annahme dargestellt, dass ein Studierender in allen Pr&#252;fungen mit dem selben Wissensstand antritt.</Pgraph><Pgraph>Bedeutend ist hier vor allem, dass von den 2,32&#37; der Studierenden (a<Subscript>2&#43;4</Subscript>&#61;0,0232), die die Anforderungen nicht erf&#252;llen (Non-Master), mehr als die H&#228;lfte (a<Subscript>2</Subscript>&#61;0,0124) den Leistungsnachweis schlussendlich doch erhalten w&#252;rde, d. h. durch die M&#246;glichkeit der Wiederholungen wird nur noch ein Teil der Studierenden, die den Anforderungen nicht gen&#252;gen, vom Weiterstudium ausgeschlossen (man beachte den substantiellen Unterschied zu den Ergebnissen des vorigen Abschnitts, bei dem der entsprechende Wert mit a<Subscript>2</Subscript>&#61;0,0040 in Tabelle 6 <ImgLink imgNo="6" imgType="table"/> gegen&#252;ber 0,0124 in Tabelle 7 <ImgLink imgNo="7" imgType="table"/> deutlich niedriger ist).</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Discussion">
      <MainHeadline>5. Discussion</MainHeadline><SubHeadline2>Individual tests</SubHeadline2><Pgraph><Mark2>Decision accuracy:</Mark2> all three of the individual tests demonstrate an overall satisfactory reliability (see Table 2 <ImgLink imgNo="2" imgType="table"/>). Of the non-masters, who altogether represent only 0.5 &#8211; 1.8&#37; of the examinees (see Tables 3 <ImgLink imgNo="3" imgType="table"/> to 5: a<Subscript>2&#43;4</Subscript>), about one-third pass each of the tests (a<Subscript>2</Subscript>). The relevant percent of the masters who do not pass the test is low in all cases (a<Subscript>3</Subscript>); however, in absolute numbers this is distinctly more than there are non-masters taking the test, so that for all three tests more than double the number of assumed non-masters in the group fail.</Pgraph><Pgraph><Mark2>Decision consistency: </Mark2>The reliability of the decision to fail an examinee must be assessed as unsatisfactory. Of those who fail, about 60&#8211;65&#37; would pass an equivalent repeat test. The poor decision consistency is also seen in the low &#954;<Subscript>c</Subscript> values of 0.33&#8211;0.41.</Pgraph><SubHeadline2>Conjunctive and complex combinations of the test scores</SubHeadline2><Pgraph><Mark2>Decision accuracy: </Mark2>The contingency tables regarding the decision accuracy for the conjunctive combination of the three tests (see Table 6 <ImgLink imgNo="6" imgType="table"/>) show that of the 2.3&#37; non-masters (the students who do not meet the minimum requirements in at least one of the three subjects) only 17&#37; pass (a<Subscript>2</Subscript>&#47;a<Subscript>2&#43;4</Subscript>&#61;0.040&#47;0.232&#61;0.0172). The relative percent of masters who fail though increases to 3.5&#37; (a<Subscript>3</Subscript>&#47;a<Subscript>1&#43;3</Subscript>&#61;0.0348); for the individual tests this percent was at the highest 2&#37;. In this case also, distinctly more examinees fail (5.3&#37;, a<Subscript>3&#43;4</Subscript>) than there are non-masters among the candidates. Cohen&#8217;s &#954;<Subscript>a</Subscript>  is with 0.49 almost just as high as the value of the best &#954;<Subscript>a</Subscript> for the individual tests (written exam in Internal Medicine); the percentage of correct classifications is lower with <Mark2>P</Mark2><Subscript>a</Subscript>&#61;0.96. According to this, the assertion that in conjunctive combinations the test with the poorest decision accuracy dominates must be evaluated with more precision.</Pgraph><Pgraph>If the fact that each student has two opportunities to repeat a test is taken into consideration (see Table 7 <ImgLink imgNo="7" imgType="table"/>), then assuming that the students attend equivalent repeat tests with the same level of knowledge or skills, only 47&#37; of the non-masters do not in the end receive the graded credit (a<Subscript>4</Subscript>&#47;a<Subscript>2&#43;4</Subscript>&#61;0.0108&#47;0.0232&#61;0.4655). For the masters, this is negligibly small with 2.3&#8240; (a<Subscript>3</Subscript>&#47;a<Subscript>1&#43;3</Subscript>&#61;0.0022&#47;0.9768&#61;0.0023). Thus, the testing structure with the two options to retake each individual test is obviously poorly suited for reliably recognizing the non-masters.</Pgraph><Pgraph><Mark2>Decision consistency: </Mark2>when conjunctively combining the three tests, the stability of the decision &#8220;fail&#8221; is also not satisfactory, but somewhat better than for the individual tests. In the case of an equivalent test complex consisting of the tests in the three subjects, a little more than half the examinees would pass the test. If &#954;<Subscript>c</Subscript> is used as the consistency index, then this is higher than for each individual test with a value of 0.47.</Pgraph><Pgraph>When taking the possibility to repeat tests into account, a similar situation emerges: only somewhat more than half of the students who ultimately fail would be forced to end their studies again if they started over from the beginning.</Pgraph><SubHeadline2>Summary</SubHeadline2><Pgraph>In conclusion, it is clear that the pass&#47;fail decision for the tests administered here needs improvement not only in terms of its accuracy, but also its consistency. &#8220;Sifting out&#8221; the non-masters is not possible in a reliable manner because tests may be repeated. On the other hand, there is hardly any danger that someone who meets the requirements will have to discontinue university study due to one or more instances of bad luck on tests.</Pgraph><Pgraph>To start with, the reason for this result could be seen in the model of normal distribution. To achieve an acceptable decision accuracy and consistency in the case of low failure rates, an extremely high reliability is necessary (a corresponding table for the &#954;<Subscript>c</Subscript> coefficients is presented in <TextLink reference="21"></TextLink>). This characteristic however is not specific for the normal distribution; not presented here are analyses for other assumed distributions that lead to similar results. Making the usual assumptions about the distribution form of the point totals on tests, most non-masters will fall close to the passing score if there is a <Mark2>low failure rate and no excessively high reliabilities</Mark2>. This does not depend on whether a formal (e.g. required by law), norm-oriented, or criterion-oriented cut-off is involved. This is why there is a relatively high probability that non-masters pass with a bit of luck, so that high levels of accuracy or consistency cannot be expected in these cases.</Pgraph><SubHeadline2>Limitations of Douglas und Mislevy&#8217;s method</SubHeadline2><Pgraph>The major limitation of the method proposed by Douglas und Mislevy is its assumption of a multivariate normal distribution. For the tests analyzed here, an acceptable normalization of the data was possible through a multivariate Box-Cox transformation, something that would not work in every case for data from other tests. Furthermore, the assumption of a multivariate normal distribution for the true values and measurement errors implies a constant error of measurement. However, the error of measurement can be distinctly higher at the cut-off point and lead to an overestimation of the decision accuracy. On the other hand, the distributions of the observed point values are clearly skewed to the left. As a result of the normalizing transformation, the values for very poor students have been moved &#8220;closer&#8221; to the passing score, so that in the analysis they belong more to the group for which, due to the error of measurement, inaccurate or inconsistent decisions are to be expected, although on the original scale they are reliably identified as non-masters.</Pgraph><SubHeadline2>Low decision accuracy and consistency: consequences for testing</SubHeadline2><Pgraph>With low failure rates, as for the tests analyzed here, a highly reliable test would be necessary to achieve a sufficient reliability for the decision to pass or fail. This is not surprising to the extent that on a test aiming for the usual measurement reliabilities, a large portion of the questions display good discriminatory properties for the majority of the examinees, but give little information regarding the separation of the sparsely populated extreme groups. One approach &#8211; albeit difficult to implement at universities &#8211; would be the administration of two tests: the first serving the usual assessment of student performance and the second specifically for identifying masters and non-masters with questions specifically selected for this purpose (Kane <TextLink reference="12"></TextLink>, p. 430 has already suggested the latter). For the first test, a relatively high passing score is set, with which the probability of a non-master passing remains very low. The remaining group then consists of (poor) masters and non-masters who can be separated as well as possible by the second test. Methods for optimal question selection can be found in the literature using &#8220;(computerized) classification tests&#8221; (CCT) (e.g. <TextLink reference="20"></TextLink>, <TextLink reference="15"></TextLink>).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Diskussion">
      <MainHeadline>5. Diskussion</MainHeadline><SubHeadline2>Einzelpr&#252;fungen</SubHeadline2><Pgraph><Mark2>Entscheidungsgenauigkeit: </Mark2>Alle drei Einzelpr&#252;fungen weisen eine insgesamt zufriedenstellende Reliabilit&#228;t auf (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Von den &#8222;Non-Mastern&#8220;, die insgesamt nur einen Anteil von 0,5 &#8211; 1,8&#37; (siehe Tabellen 3 <ImgLink imgNo="3" imgType="table"/><ImgLink imgNo="4" imgType="table"/> bis 5 <ImgLink imgNo="5" imgType="table"/>, a<Subscript>2&#43;4</Subscript>) der Pr&#252;fungsteilnehmer ausmachen, besteht aber jeweils ein knappes Drittel die Pr&#252;fungen (a<Subscript>2</Subscript>). Der relative Anteil der Master, die die Pr&#252;fung nicht bestehen ist in allen F&#228;llen gering (a<Subscript>3</Subscript>), in absoluten Zahlen sind dies aber jeweils deutlich mehr als Non-Master an der Pr&#252;fung teilnehmen, so dass bei allen drei Pr&#252;fungen mehr als doppelt so viel Kandidaten durchfallen als Non-Master in der Gruppe anzunehmen sind.</Pgraph><Pgraph><Mark2>Entscheidungskonsistenz: </Mark2>Die Zuverl&#228;ssigkeit der Entscheidung &#8222;durchgefallen&#8220; muss als unzufriedenstellend eingestuft werden. Von denjenigen, die durchfallen, w&#252;rden etwa 60&#8211;65&#37; bei einer &#228;quivalenten Wiederholungspr&#252;fung bestehen. Die geringe Entscheidungskonsistenz zeigt sich auch in den niedrigen &#954;<Subscript>c</Subscript>-Werten von 0,33&#8211;0,41</Pgraph><SubHeadline2>Konjunktive und komplexe Verkn&#252;pfungen der Pr&#252;fungsergebnisse</SubHeadline2><Pgraph><Mark2>Entscheidungsgenauigkeit:</Mark2> Die Vierfeldertafel der Entscheidungsgenauigkeit f&#252;r die konjunktive Verkn&#252;pfung der drei Pr&#252;fungen (siehe Tabelle 6 <ImgLink imgNo="6" imgType="table"/>) zeigt, dass von den 2,3&#37; Non-Mastern (also Studierende, die in mindestens einem der drei F&#228;cher den Mindestanspr&#252;chen nicht gen&#252;gen), lediglich 17&#37; bestehen (a<Subscript>2</Subscript>&#47;a<Subscript>2&#43;4</Subscript>&#61;0,040&#47;0,232&#61;0,0172). Es erh&#246;ht sich jedoch der relative Anteil an Mastern, die durchfallen auf 3,5&#37; (a<Subscript>3</Subscript>&#47;a<Subscript>1&#43;3</Subscript>&#61;0,0348), bei den Einzelpr&#252;fungen lag dieser Anteil bei h&#246;chstens 2&#37;. Auch hier fallen deutlich mehr Pr&#252;flinge durch (5,3&#37;, a<Subscript>3&#43;4</Subscript>) als Non-Master teilnehmen. Cohens &#954;<Subscript>a</Subscript>  ist mit 0,49 fast genauso hoch wie das des besten &#954;<Subscript>a</Subscript> bei den Einzelpr&#252;fungen (Klausur Innere Medizin), geringer ist der Anteil an Korrektklassifikationen mir <Mark2>P</Mark2><Subscript>a</Subscript>&#61;0,96. Die Aussage, dass bei konjunktiven Verkn&#252;pfungen die Pr&#252;fung mit der schlechtesten Entscheidungsgenauigkeit dominiert ist demzufolge etwas differenzierter zu beurteilen.</Pgraph><Pgraph>Ber&#252;cksichtigt man die Tatsache, dass jedem Studierenden zwei Wiederholungsm&#246;glichkeiten zur Verf&#252;gung stehen (siehe Tabelle 7 <ImgLink imgNo="7" imgType="table"/>), so m&#252;ssen unter der Annahme, dass die Studierenden mit dem selben Wissen oder K&#246;nnen in &#228;quivalente Wiederholungspr&#252;fungen gehen, nur 47&#37; der Non-Master den Leistungsnachweis endg&#252;ltig nicht erhalten (a<Subscript>4</Subscript>&#47;a<Subscript>2&#43;4</Subscript>&#61;0,0108&#47;0,0232&#61;0,4655). Bei den Mastern ist der Anteil mit 2.3&#8240; verschwindend gering (a<Subscript>3</Subscript>&#47;a<Subscript>1&#43;3</Subscript>&#61;0,0022&#47;0,9768&#61;0,0023). Damit ist die Pr&#252;fungsstruktur mit den beiden Wiederholungsm&#246;glichkeiten f&#252;r jede Einzelpr&#252;fung offensichtlich nur wenig geeignet, die Non-Master zuverl&#228;ssig zu erkennen.</Pgraph><Pgraph><Mark2>Entscheidungskonsistenz: </Mark2>Bei der konjunktiven Verkn&#252;pfung der drei Pr&#252;fungen ist die Stabilit&#228;t der Entscheidung &#8222;durchgefallen&#8220; ebenfalls nicht zufriedenstellend, aber etwas besser als in den Einzelpr&#252;fungen. Bei einem &#228;quivalenten Pr&#252;fungskomplex, bestehend aus den Pr&#252;fungen in den drei F&#228;chern, w&#252;rde etwas mehr als die H&#228;lfte die Pr&#252;fung bestehen. Wird als Index f&#252;r die Konsistenz &#954;<Subscript>c</Subscript> verwendet, so ist dieser mit 0,47 h&#246;her als bei jeder Einzelpr&#252;fung.</Pgraph><Pgraph>Bei Ber&#252;cksichtigung der Wiederholungsm&#246;glichkeiten zeigt sich ein &#228;hnliches Bild, nur etwas mehr als die H&#228;lfte der Studierenden, die letztendlich durchfallen, w&#252;rden bei einem &#8222;Neustart von Anfang an&#8220; erneut ihr Studium abbrechen m&#252;ssen.</Pgraph><SubHeadline2>Res&#252;mee</SubHeadline2><Pgraph>Zusammenfassend muss festgestellt werden, dass die Entscheidung &#8222;bestanden&#8220;&#47;&#8222;durchgefallen&#8220; sowohl hinsichtlich ihrer Genauigkeit als auch ihrer Konsistenz mit den durchgef&#252;hrten Pr&#252;fungen einer Verbesserung bedarf. Durch die Wiederholungsm&#246;glichkeiten ist auch ein &#8222;Aussieben&#8220; der Non-Master nicht zuverl&#228;ssig m&#246;glich, andererseits besteht kaum Gefahr, dass jemand, der den Anforderungen gen&#252;gt, auf Grund ein- oder mehrfachen Pechs bei Pr&#252;fungen sein Studium beenden muss.</Pgraph><Pgraph>Als Grund hierf&#252;r k&#246;nnte zun&#228;chst das Normalverteilungsmodell f&#252;r das Ergebnis verantwortlich gemacht werden. Um bei niedrigen Nichtbestehensquoten eine akzeptable Entscheidungsgenauigkeit und -konsistenz zu erreichen, ben&#246;tigt man eine &#228;u&#223;erst hohe Reliabilit&#228;t (f&#252;r den &#954;<Subscript>c</Subscript>-Koeffizienten ist eine entsprechende Tabelle in <TextLink reference="21"></TextLink> angegeben). Diese Eigenschaft ist jedoch nicht spezifisch f&#252;r die Normalverteilung, hier nicht dargestellte Analysen f&#252;r andere Verteilungsannahmen f&#252;hren zu &#228;hnlichen Resultaten. Bei den &#252;blichen Annahmen f&#252;r die Verteilungsform der Punktzahlen in Pr&#252;fungen liegen bei <Mark2>niedrigen Nichtbestehensquoten und nicht exzessiv hohen Reliabilit&#228;ten</Mark2> die meisten Non-Master in der N&#228;he der Bestehensgrenze. Dies ist  unabh&#228;ngig davon, ob es sich um eine (z. B. gesetzlich vorgegebene) formale, norm- oder kriteriumsorientierte Grenze handelt. Deshalb besteht eine relativ hohe Wahrscheinlichkeit, dass die Non-Master &#8222;mit etwas Gl&#252;ck&#8220; bestehen, so dass bei diesen weder eine hohe Genauigkeit noch Konsistenz zu erwarten ist. </Pgraph><SubHeadline2>Einschr&#228;nkungen des Verfahrens von Douglas und Mislevy</SubHeadline2><Pgraph>Die wesentliche Beschr&#228;nkung des Verfahrens von Douglas und Mislevy ist die Annahme einer multivariaten Normalverteilung. Bei den hier analysierten Pr&#252;fungen war durch eine multivariate Box-Cox-Transformation eine akzeptable Normalisierung der Daten m&#246;glich, was f&#252;r die Daten anderer Pr&#252;fungen nicht in jedem Fall gelingen wird. Weiter impliziert die Annahme einer multivariaten Normalverteilung f&#252;r die wahren Werte und Messfehler einen konstanten Messfehler. An der Bestehensgrenze kann der Messfehler jedoch deutlich h&#246;her sein und zu einer &#220;bersch&#228;tzung der Entscheidungsgenauigkeit f&#252;hren. Andererseits sind die Verteilungen der beobachteten Punktwerte deutlich linksschief, durch die normalisierende Transformation werden die Werte sehr schlechter Studierender &#8222;n&#228;her&#8217; an die Bestehensgrenze ger&#252;ckt, womit sie in der Analyse eher zur Gruppe derjenigen z&#228;hlen, f&#252;r die aufgrund der Messungenauigkeit fehlerhafte oder inkonsistente Entscheidungen zu erwarten sind, obwohl sie in der Originalskala zuverl&#228;ssig als Non-Master erkannt werden.</Pgraph><SubHeadline2>Niedrige Entscheidungsgenauigkeit und -konsistenz: Konsequenzen f&#252;r Pr&#252;fungen</SubHeadline2><Pgraph>Bei niedrigen Nichtbestehensraten, wie sie in der analysierten Pr&#252;fung auftreten, w&#228;re zum Erreichen einer ausreichenden Zuverl&#228;ssigkeit der Entscheidung &#8222;bestanden&#8220;&#47;&#8222;durchgefallen&#8220; eine hochreliable Pr&#252;fung erforderlich. Dies ist insofern nicht &#252;berraschend, als bei einer Pr&#252;fung mit den &#252;blicherweise angestrebten Messzuverl&#228;ssigkeiten ein Gro&#223;teil der Aufgaben gute Trenneigenschaften f&#252;r den Gro&#223;teil der Probanden aufweist, f&#252;r die Separation der d&#252;nn besetzten Extremgruppen aber wenig Informationen liefert. Ein &#8211; in der &#252;blichen Pr&#252;fungspraxis der Universit&#228;ten zwar schwer etablierbares &#8211; Vorgehen w&#228;re die Durchf&#252;hrung von zwei Pr&#252;fungen: Die erste dient der &#252;blichen Bewertung der studentischen Leistungen, die zweite wird speziell zur Identifikation von Mastern und Non-Mastern mit spezifisch f&#252;r diesen Zweck selegierten Aufgaben durchgef&#252;hrt (auf letzteres hat bereits Kane <TextLink reference="12"></TextLink>, p. 430) hingewiesen. In der ersten Pr&#252;fung wird eine relativ hohe Bestehensgrenze eingesetzt, mit der die Wahrscheinlichkeit, dass ein Non-Master besteht, sehr gering bleibt. Die verbleibende Gruppe besteht dann aus (schlechten) Mastern und Non-Mastern, die im zweiten Test m&#246;glichst gut zu separieren ist. Methoden der optimalen Aufgabenwahl finden sich in der Literatur zu &#8222;(computerized) classification tests&#8220; (CCT) (z. B. <TextLink reference="20"></TextLink>, <TextLink reference="15"></TextLink>).</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="6. Conclusion and outlook">
      <MainHeadline>6. Conclusion and outlook</MainHeadline><Pgraph>The method of Douglas and Mislevy is suitable for analyzing the decision accuracy and consistency of overall decisions concerning assessments composed of multiple parts and for which the overall pass&#47;fail decision is the result of a complex combination of individual scores. Above all, the conjunctive combinations (each individual test must be passed) and disjunctive combinations (only one of multiple tests must be passed; this applies for repeated tests) are of practical importance.</Pgraph><Pgraph>The graded course credit for a cluster of subjects (<Mark2>f&#228;cher&#252;bergreifender Leistungsnachweis</Mark2>) was selected as being exemplary of German medical education at present. In this testing situation, theoretical and practical assessments in different subjects are combined and, in order to pass overall, all of the components must be passed. Students have the possibility to repeat each individual test twice.</Pgraph><Pgraph>Using the method of Douglas and Mislevy, the decision accuracy and consistency for giving the graded course credit could be successfully analyzed; there was a high degree of congruence between the model and the data.</Pgraph><Pgraph>The analysis also revealed a significant issue concerning tests and low failure rates: these can only be reliably identified with difficulty for tests that comply with the usual demands for a sufficient reliability. Identifying masters and non-masters would require targeted classification tests with an appropriate selection of questions.</Pgraph><Pgraph>An analysis of the decision accuracy and consistency should generally be carried out on the relevant tests. The limitation of using the normal distribution model still needs to be viewed as a substantially limiting factor; it is to be hoped that suitable methods with weaker distribution assumptions (e.g. multivariate beta-binomial distributions) or distribution-free methods are developed.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="6. Zusammenfassung und Ausblick">
      <MainHeadline>6. Zusammenfassung und Ausblick</MainHeadline><Pgraph>Das Verfahren von Douglas und Mislevy ist dazu geeignet, Pr&#252;fungen, die sich aus mehreren Teilpr&#252;fungen zusammensetzen und bei denen die Gesamtentscheidung &#252;ber &#8222;bestanden&#47;durchgefallen&#8220;  das Resultat einer komplexen Verkn&#252;pfung der Einzelergebnisse ist, hinsichtlich der Entscheidungsgenauigkeit und -konsistenz dieser Gesamtentscheidung zu analysieren. Praktisch bedeutsam sind vor allem konjunktive Verkn&#252;pfungen (jede einzelne Pr&#252;fung muss bestanden werden) oder disjunktive Verkn&#252;pfungen (von mehreren Pr&#252;fungen muss nur eine bestanden werden, dies gilt etwa f&#252;r Wiederholungspr&#252;fungen).</Pgraph><Pgraph>Als Beispiel wurde der f&#252;r die gegenw&#228;rtige deutsche Medizinerausbildung bedeutsame Fall eines &#8222;f&#228;cher&#252;bergreifenden Leistungsnachweises&#8220; gew&#228;hlt. In diesem Beispiel werden theoretische und praktische Pr&#252;fungen verschiedener F&#228;cher kombiniert, zum Bestehen ist das Bestehen jeder einzelnen Pr&#252;fung erforderlich. F&#252;r jede Einzelpr&#252;fung stehen dem Studierenden zwei Wiederholungsm&#246;glichkeiten zur Verf&#252;gung.</Pgraph><Pgraph>Mit dem Verfahren von Douglas und Mislevy konnten Entscheidungsgenauigkeit und  konsistenz  des Leistungsnachweises erfolgreich analysiert werden, es zeigte sich eine hohe &#220;bereinstimmung des Modells mit den Daten.</Pgraph><Pgraph>Die Analyse zeigte auch eine wesentliche Problematik von Pr&#252;fungen bei niedrigen Durchfallquoten auf: Mit Pr&#252;fungen, die den gew&#246;hnlichen Anspr&#252;chen an eine hinreichende Reliabilit&#228;t entsprechen, sind diese nur schwer zuverl&#228;ssig zu identifizieren. Erforderlich w&#228;ren zielgerichtete Klassifikationstests mit entsprechender Aufgabenwahl zur Identifikation der &#8222;Master&#8220; und &#8222;Non-Master&#8220;.</Pgraph><Pgraph>Eine Analyse von Entscheidungsgenauigkeit und -konsistenz sollte bei relevanten Pr&#252;fungen allgemein durchgef&#252;hrt werden. Die Beschr&#228;nkung auf das Normalverteilungsmodell muss noch als erheblicher limitierender Faktor betrachtet werden, es ist zu hoffen, dass geeignete Verfahren mit schw&#228;cheren Verteilungsannahmen (z. B. multivariate Betabinomialverteilungen) oder verteilungsfreie Methoden entwickelt werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Andrews DF</RefAuthor>
        <RefAuthor>Gnanadesikan R</RefAuthor>
        <RefAuthor>Warner JL</RefAuthor>
        <RefTitle>Transformations of multivariatedata</RefTitle>
        <RefYear>1971</RefYear>
        <RefJournal>Biometrics</RefJournal>
        <RefPage>825&#8211;840</RefPage>
        <RefTotal>Andrews DF, Gnanadesikan R, Warner JL. Transformations of multivariatedata. Biometrics. 1971;27:825&#8211;840. DOI: 10.2307&#47;2528821</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2307&#47;2528821</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Bandaranayake RC</RefAuthor>
        <RefTitle>Setting and maintaining standards in multiple choice examinations: AMEE Guide No. 37</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>836&#8211;845</RefPage>
        <RefTotal>Bandaranayake RC. Setting and maintaining standards in multiple choice examinations: AMEE Guide No. 37. Med Teach. 2008;30(9-10):836&#8211;845. DOI: 10.1080&#47;01421590802402247</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;01421590802402247</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Brenner H</RefAuthor>
        <RefAuthor>Gefeller O</RefAuthor>
        <RefTitle>Chance-corrected measures of the valdity of a binary diagnostic test</RefTitle>
        <RefYear>1993</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>627&#8211;633</RefPage>
        <RefTotal>Brenner H, Gefeller O. Chance-corrected measures of the valdity of a binary diagnostic test. J Clin Epidemiol. 1993;47(6):627&#8211;633. DOI: 10.1016&#47;0895-4356(94)90210-0</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;0895-4356(94)90210-0</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Cohen J</RefAuthor>
        <RefTitle>A coefficient of agreement for nominal scales</RefTitle>
        <RefYear>1960</RefYear>
        <RefJournal>Educ Psychol Measure</RefJournal>
        <RefPage>37&#8211;46</RefPage>
        <RefTotal>Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Measure. 1960;20:37&#8211;46. DOI: 10.1177&#47;001316446002000104</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;001316446002000104</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Cusimano MD</RefAuthor>
        <RefTitle>Standard setting in medical education</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>112&#8211;120</RefPage>
        <RefTotal>Cusimano MD. Standard setting in medical education. Acad Med. 1996;71:112&#8211;120. DOI: 10.1097&#47;00001888-199610000-00062</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199610000-00062</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Deng N</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2011</RefYear>
        <RefBookTitle>Evaluating IRT-and CTT-based Methods of Estimating Classification Consistency and Accuracy Indices from Single Administrations</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deng N. Evaluating IRT-and CTT-based Methods of Estimating Classification Consistency and Accuracy Indices from Single Administrations. Massachusetts: University of Massachusetts; 2011. Open Access Dissertations. Paper 452. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;scholarworks.umass.edu&#47;cgi&#47;viewcontent.cgi&#63;article&#61;1451&#38;context&#61;open&#95;access&#95;dissertations</RefTotal>
        <RefLink>http:&#47;&#47;scholarworks.umass.edu&#47;cgi&#47;viewcontent.cgi&#63;article&#61;1451&#38;context&#61;open&#95;access&#95;dissertations</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Douglas KM</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>A general method for estimating the classification reliability of complex decisions based on configural combinations of multiple assessment scores</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Douglas KM. A general method for estimating the classification reliability of complex decisions based on configural combinations of multiple assessment scores.Unpublished dissertation. Maryland: University of Maryland; 2007.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Douglas KM</RefAuthor>
        <RefAuthor>Mislevy RJ</RefAuthor>
        <RefTitle>Estimating classification accuracy for complex decision rules based on multiple scores</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>J Educ Behav Stat</RefJournal>
        <RefPage>280&#8211;306</RefPage>
        <RefTotal>Douglas KM, Mislevy RJ. Estimating classification accuracy for complex decision rules based on multiple scores. J Educ Behav Stat. 2010;35:280&#8211;306. DOI: 10.3102&#47;1076998609346969</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3102&#47;1076998609346969</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Guttman LA</RefAuthor>
        <RefTitle>A basis for analyzing test-retest reliability</RefTitle>
        <RefYear>1945</RefYear>
        <RefJournal>Psychomet</RefJournal>
        <RefPage>255&#8211;282</RefPage>
        <RefTotal>Guttman LA. A basis for analyzing test-retest reliability. Psychomet. 1945;10:255&#8211;282. DOI: 10.1007&#47;BF02288892</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;BF02288892</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Gwet KL</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Handbook of inter-rater reliability</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gwet KL. Handbook of inter-rater reliability (2nd ed.). Gaithersburg: Advanced Analytics, LLC; 2010.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Hambleton RK</RefAuthor>
        <RefAuthor>Novick MR</RefAuthor>
        <RefTitle>Toward an integration of theory and method for criterion-referenced tests</RefTitle>
        <RefYear>1973</RefYear>
        <RefJournal>J Educ Meas</RefJournal>
        <RefPage>159&#8211;96</RefPage>
        <RefTotal>Hambleton RK, Novick MR. Toward an integration of theory and method for criterion-referenced tests. J Educ Meas. 1973;10:159&#8211;96. DOI: 10.1111&#47;j.1745-3984.1973.tb00793.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1745-3984.1973.tb00793.x</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Kane M</RefAuthor>
        <RefTitle>Validating the performance standards associated with passing scores</RefTitle>
        <RefYear>1994</RefYear>
        <RefJournal>Rev Educ Res</RefJournal>
        <RefPage>425&#8211;461</RefPage>
        <RefTotal>Kane M. Validating the performance standards associated with passing scores. Rev Educ Res. 1994;64:425&#8211;461. DOI: 10.3102&#47;00346543064003425</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3102&#47;00346543064003425</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Kim DI</RefAuthor>
        <RefAuthor>Choi SW</RefAuthor>
        <RefAuthor>Um KR</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>A comparison of methods for estimating classification consistency. Paper presented at the 2006 Annual Meeting of the National Council on Education in Measurement</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Kim DI, Choi SW, Um KR. A comparison of methods for estimating classification consistency. Paper presented at the 2006 Annual Meeting of the National Council on Education in Measurement. San Francisco, CA: National Council of Edudation in Measurement; 2006.</RefTotal>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Lee WC</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>Classifcation consistency and accuracy for complex assessments using item response theory. CASMA Research Report No. 27</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Lee WC. Classifcation consistency and accuracy for complex assessments using item response theory. CASMA Research Report No. 27. Iowa City, IA: University of Iowa; 2007.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Lin CJ</RefAuthor>
        <RefTitle>Item selection criteria with practical constraints for computerized classification testing</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Educ Psychol Meas</RefJournal>
        <RefPage>20-36</RefPage>
        <RefTotal>Lin CJ. Item selection criteria with practical constraints for computerized classification testing. Educ Psychol Meas. 2011;71:20-36. DOI: 10.1177&#47;0013164410387336</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0013164410387336</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Livingston SA</RefAuthor>
        <RefAuthor>Lewis C</RefAuthor>
        <RefTitle>Estimating the consistency and accuracy of classifications based on test scores</RefTitle>
        <RefYear>1995</RefYear>
        <RefJournal>J Educ Meas</RefJournal>
        <RefPage>179&#8211;197</RefPage>
        <RefTotal>Livingston SA, Lewis C. Estimating the consistency and accuracy of classifications based on test scores. J Educ Meas. 1995;32:179&#8211;197. DOI: 10.1111&#47;j.1745-3984.1995.tb00462.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1745-3984.1995.tb00462.x</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Miwa A</RefAuthor>
        <RefAuthor>Hayter J</RefAuthor>
        <RefAuthor>Kuriki S</RefAuthor>
        <RefTitle>The evaluation of general non-centred orthant probabilities</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>J Royal Stat Soc</RefJournal>
        <RefPage>223-U234</RefPage>
        <RefTotal>Miwa A, Hayter J, Kuriki S. The evaluation of general non-centred orthant probabilities. J Royal Stat Soc. 2003;65:223-U234. DOI: 10.1111&#47;1467-9868.00382</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;1467-9868.00382</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Peng CJ</RefAuthor>
        <RefAuthor>Subkoviak MJ</RefAuthor>
        <RefTitle>A note on Huynh&#39;s normal approximation procedure for estimating criterion-referenced reliability</RefTitle>
        <RefYear>1980</RefYear>
        <RefJournal>J Educ Meas</RefJournal>
        <RefPage>359&#8211;368</RefPage>
        <RefTotal>Peng CJ, Subkoviak MJ. A note on Huynh&#39;s normal approximation procedure for estimating criterion-referenced reliability. J Educ Meas. 1980;17:359&#8211;368. DOI: 10.1111&#47;j.1745-3984.1980.tb00837.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1745-3984.1980.tb00837.x</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Schuwirth L</RefAuthor>
        <RefAuthor>Colliver J</RefAuthor>
        <RefAuthor>Gruppen L</RefAuthor>
        <RefAuthor>Kreiter C</RefAuthor>
        <RefAuthor>Mennin S</RefAuthor>
        <RefAuthor>Onishi H</RefAuthor>
        <RefAuthor>Pangaro L</RefAuthor>
        <RefAuthor>Ringsted C</RefAuthor>
        <RefAuthor>Swanson D</RefAuthor>
        <RefAuthor>van der Vleuten C</RefAuthor>
        <RefAuthor>Wagner-Menghin M</RefAuthor>
        <RefTitle>Research in assessment: Consensus statement and recommendations from the Ottawa 2010 Conference</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>224&#8211;233</RefPage>
        <RefTotal>Schuwirth L, Colliver J, Gruppen L, Kreiter C, Mennin S, Onishi H, Pangaro L, Ringsted C, Swanson D, van der Vleuten C, Wagner-Menghin M. Research in assessment: Consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):224&#8211;233. DOI: 10.3109&#47;0142159X.2011.551558</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.551558</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Spray JA</RefAuthor>
        <RefAuthor>Reckase MD</RefAuthor>
        <RefTitle>Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>J Educ Behav Stat</RefJournal>
        <RefPage>405&#8211;414</RefPage>
        <RefTotal>Spray JA, Reckase MD. Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test. J Educ Behav Stat. 1996;21:405&#8211;414. DOI: 10.3102&#47;10769986021004405</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3102&#47;10769986021004405</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Subkoviak MJ</RefAuthor>
        <RefTitle>A practitioner&#39;s guide to computation and interpretation of reliability indices for mastery tests</RefTitle>
        <RefYear>1988</RefYear>
        <RefJournal>J Edc Meas</RefJournal>
        <RefPage>47&#8211;55</RefPage>
        <RefTotal>Subkoviak MJ. A practitioner&#39;s guide to computation and interpretation of reliability indices for mastery tests. J Edc Meas. 1988;25:47&#8211;55. DOI: 10.1111&#47;j.1745-3984.1988.tb00290.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1745-3984.1988.tb00290.x</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Villasenor-Alva JA</RefAuthor>
        <RefAuthor>Gonzalez-Estrada E</RefAuthor>
        <RefTitle>A generalization of Shapiro-Wilk&#39;s test for multivariate normality</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Communication Stat Theo Method</RefJournal>
        <RefPage>1870&#8211;1883</RefPage>
        <RefTotal>Villasenor-Alva JA, Gonzalez-Estrada E. A generalization of Shapiro-Wilk&#39;s test for multivariate normality. Communication Stat Theo Method. 2009;38:1870&#8211;1883. DOI: 10.1080&#47;03610920802474465</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;03610920802474465</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Wan L</RefAuthor>
        <RefAuthor>Brennan RL</RefAuthor>
        <RefAuthor>Lee W</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>Estimating classification consistency for complex assessments. CASMA Research Report No. 22</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Wan L,Brennan RL, Lee W. Estimating classification consistency for complex assessments. CASMA Research Report No. 22. Iowa City, IA: University of Iowa; 2007.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Wheadon C</RefAuthor>
        <RefAuthor>Stockford I</RefAuthor>
        <RefTitle>Estimation of composite score classification accuracy using compound probability distributions</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Psychol Test Assess Mod</RefJournal>
        <RefPage>162&#8211;180</RefPage>
        <RefTotal>Wheadon C, Stockford I. Estimation of composite score classification accuracy using compound probability distributions. Psychol Test Assess Mod. 2013;55:162&#8211;180.</RefTotal>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Zhang B</RefAuthor>
        <RefTitle>Assessing the accuracy and consistency of language proficiency classification under competing measurement models</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Lang Test</RefJournal>
        <RefPage>119&#8211;140</RefPage>
        <RefTotal>Zhang B. Assessing the accuracy and consistency of language proficiency classification under competing measurement models. Lang Test. 2010;27:119&#8211;140. DOI: 10.1177&#47;0265532209347363</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0265532209347363</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Zieky M</RefAuthor>
        <RefAuthor>Perie M</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>A Primer on Setting Cut Scores on Tests of Educational Achievement</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Zieky M, Perie M. A Primer on Setting Cut Scores on Tests of Educational Achievement. Washington&#47;DC: Educational Testing Service; 2006. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.ets.org&#47;Media&#47;Research&#47;pdf&#47;Cut&#95;Scores&#95;Primer.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.ets.org&#47;Media&#47;Research&#47;pdf&#47;Cut&#95;Scores&#95;Primer.pdf</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Contingency tables for decision accuracy and decision consistency. The a</Mark1><Mark1><Subscript>i</Subscript></Mark1><Mark1> values represent the relative proportions of the scores on a test depending on whether students who fulfill the minimum requirements pass or fail (left). For example the value for a</Mark1><Mark1><Subscript>2</Subscript></Mark1><Mark1> indicates the percentage of students who do not have sufficient knowledge&#47;skills (non-master), but despite this have passed. In the case of two fully equivalent tests, c</Mark1><Mark1><Subscript>i</Subscript></Mark1><Mark1> gives the analogous values. As a result of the equivalence of both tests c</Mark1><Mark1><Subscript>2</Subscript></Mark1><Mark1>&#61;c</Mark1><Mark1><Subscript>3</Subscript></Mark1><Mark1>.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Vierfeldertafeln der Entscheidungsgenauigkeit und Entscheidungskonsistenz Die a</Mark1><Mark1><Subscript>i</Subscript></Mark1><Mark1> repr&#228;sentieren die Relativanteile der Ergebnisse einer Pr&#252;fung in Bezug darauf, ob Studierende, die den Minimalanforderungen gen&#252;gen, bestehen oder nicht (links). So gibt etwa a</Mark1><Mark1><Subscript>2</Subscript></Mark1><Mark1> den Anteil der Studierenden an, die ungen&#252;gende Kenntnisse&#47;Fertigkeiten aufweisen (Non-Master), aber dennoch bestanden haben. F&#252;r den Fall zweier v&#246;llig &#228;quivalenter Pr&#252;fungen geben die c</Mark1><Mark1><Subscript>i</Subscript></Mark1><Mark1> die analogen Werte an. Aus der &#196;quivalenz der beiden Pr&#252;fungen folgt c</Mark1><Mark1><Subscript>2</Subscript></Mark1><Mark1> &#61; c</Mark1><Mark1><Subscript>3</Subscript></Mark1><Mark1>.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Basic data from the tests for graded credit in Internal Medicine&#47;General Medicine&#47;Clinical Chemistry during the winter semester 2012-13 (only examinees who took all three components: </Mark1><Mark1><Mark2>N</Mark2></Mark1><Mark1>&#61;147).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Basisdaten der Pr&#252;fungen des Leistungsnachweises Innere Medizin&#47;Allgemeinmedizin&#47;Klin. Chemie im Wintersemester 2012&#47;2013 (nur Teilnehmer, die an allen drei Pr&#252;fungen teilgenommen haben: </Mark1><Mark1><Mark2>N</Mark2></Mark1><Mark1>&#61;147).</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Decision accuracy and consistency for the exam in Internal Medicine</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Entscheidungsgenauigkeit und -konsistenz der Klausur Innere Medizin</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Decision accuracy and consistency for the exam in Clinical Chemistry</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Entscheidungsgenauigkeit und -konsistenz der Klausur Klinische Chemie</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 5: Decision accuracy and consistency for the OSCE in Internal Medicine</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 5: Entscheidungsgenauigkeit und -konsistenz des OSCE Innere Medizin</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 6: Decision accuracy and consistency for graded credit in the subject cluster Internal Medicine&#47;General Medicine&#47;Clinical Chemistry (conjunctive combination)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 6: Entscheidungsgenauigkeit und -konsistenz des Leistungsnachweises Innere Medizin&#47;Allgemeinmedizin&#47;Klinische Chemie (konjunktive Kombination)</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>7</MediaNo>
          <MediaID language="en">7en</MediaID>
          <MediaID language="de">7de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 7: Decision accuracy and consistency for graded credit in the subject cluster Internal Medicine&#47;General Medicine&#47;Clinical Chemistry with the chance to repeat each test twice (see Figure 2)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 7: Entscheidungsgenauigkeit und -konsistenz des Leistungsnachweises Innere Medizin&#47;Allgemeinmedizin&#47;Klin. Chemie mit zwei Wiederholungsm&#246;glichkeiten (siehe Abbildung 2)</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>7</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="783" width="587">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: The steps for the method of Douglas and Mislevy: (a) distribution of the test scores for two tests; (b) estimation of the true values and definition of master&#47;non-master according to the model; (c) distribution of the scores achieved by masters; (d) distribution of the scores achieved by non-masters (note: perspective is different). The distribution of the overall results (a) is comprised of the scores achieved by masters and non-masters.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Die Schritte des Verfahrens von Douglas und Mislevy: (a) Verteilung der Pr&#252;fungsergebnisse zweier Pr&#252;fungen. (b) Sch&#228;tzung des Modells der wahren Werte und Definition von Master&#47;Non-Master. (c) Verteilung der Ergebnisse der Master. (d) Verteilung der Ergebnisse der Non-Master (Beachte: Ansicht gedreht&#33;). Die Verteilung der Gesamtergebnisse (a) setzt sich zusammen aus den Ergebnissen der Master und Non-Master.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="445" width="709">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Decision rules for obtaining graded course credit for the subject cluster Internal Medicine&#47;General Medicine&#47;Clinical Chemistry.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Entscheidungslogik f&#252;r das Erreichen des fach&#252;bergreifenden Leistungsnachweises Innere Medizin&#47;Allgemeinmedizin&#47;Klinische Chemie.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>2</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>