<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001324</Identifier>
    <IdentifierDoi>10.3205/zma001324</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0013243</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Predictive validity of a tool to resolve borderline grades in OSCEs</Title>
      <TitleTranslated language="de">Vorhersagevalidit&#228;t eines Instruments zur Beseitigung von Grenznoten bei OSCE-Pr&#252;fungen</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Klein Nulend</Lastname>
          <LastnameHeading>Klein Nulend</LastnameHeading>
          <Firstname>Rowan</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australia</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australien</Affiliation>
        </Address>
        <Email>r.kleinnulend&#64;student.unsw.edu.au</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Harris</Lastname>
          <LastnameHeading>Harris</LastnameHeading>
          <Firstname>Peter</Firstname>
          <Initials>P</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australia</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australien</Affiliation>
        </Address>
        <Email>p.harris&#64;unsw.edu.au</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Shulruf</Lastname>
          <LastnameHeading>Shulruf</LastnameHeading>
          <Firstname>Boaz</Firstname>
          <Initials>B</Initials>
        </PersonNames>
        <Address language="en">University of New South Wales, Office of Medical Education, Sydney, Australia<Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australia</Affiliation></Address>
        <Address language="de">University of New South Wales, Office of Medical Education, Sydney, Australien<Affiliation>University of New South Wales, Office of Medical Education, Sydney, Australien</Affiliation></Address>
        <Email>b.shulruf&#64;unsw.edu.au</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">OCSE</Keyword>
      <Keyword language="en">borderline grades</Keyword>
      <Keyword language="en">assessment</Keyword>
      <Keyword language="en">medical students</Keyword>
      <Keyword language="de">OCSE</Keyword>
      <Keyword language="de">Grenznoten</Keyword>
      <Keyword language="de">Bewertung</Keyword>
      <Keyword language="de">Medizinstudenten</Keyword>
      <SectionHeading language="en">OSCE</SectionHeading>
      <SectionHeading language="de">OSCE</SectionHeading>
    </SubjectGroup>
    <DateReceived>20190318</DateReceived>
    <DateRevised>20191119</DateRevised>
    <DateAccepted>20200107</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20200415</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>37</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>31</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Es liegen keine eindeutigen Belege daf&#252;r vor, welches Standard-Setting-Verfahren die h&#246;chste Validit&#228;t f&#252;r Entscheidungen &#252;ber das Bestehen bzw. Nichtbestehen von Pr&#252;fungen ergibt. Die Objective Borderline Method 2 (OBM2) ist ein Instrument zur Entscheidungsunterst&#252;tzung f&#252;r die Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten. So k&#246;nnen Unsicherheiten der Pr&#252;fer bei folgenreichen Entscheidungen &#252;ber das Bestehen bzw. Nichtbestehen beseitigt werden.  </Pgraph><Pgraph>In dieser Studie wurde die Vorhersagevalidit&#228;t von OBM2-basierten Entscheidungen &#252;ber das Bestehen bzw. Nichtbestehen unter Verwendung der Ergebnisse der Objective Structured Clinical Examination (OSCE) in aufeinanderfolgenden Jahren innerhalb einer Kohorte von Medizinstudenten (N  71) an der University of New South Wales, Australien, gepr&#252;ft. OBM2-basierte Entscheidungen in einer OSCE-Pr&#252;fung (N&#61;687) wurden mit den in einer darauffolgenden OSCE-Pr&#252;fung erhaltenen Noten anhand von t-Tests f&#252;r unabh&#228;ngige Stichproben und einer Varianzanalyse (ANOVA) verglichen. Der Umfang des Zusammenhangs zwischen diesen beiden Variablen bestimmt die Vorhersagevalidit&#228;t von OBM2-basierten Entscheidungen, vorausgesetzt, die vorherigen Noten der Studenten lassen Vorhersagen zur zuk&#252;nftigen Leistung zu.  </Pgraph><Pgraph>Es wurde gezeigt, dass durch OBM2-basierte Entscheidungen bei einer ersten OSCE-Pr&#252;fung statistisch signifikante Vorhersagen f&#252;r die nachfolgenden OSCE-Noten (p&#61;0,005) getroffen werden k&#246;nnen. In den F&#228;llen, in denen die Noten aus der ersten Pr&#252;fung als Bestehensnote neueingestuft wurden, waren die nachfolgenden OSCE-Noten signifikant besser als in den F&#228;llen, in denen die Noten aus der ersten Pr&#252;fung als Nichtbestehensnote neueingestuft wurden. Ein st&#228;rkerer Zusammenhang wurde f&#252;r verwandte Bewertungsdom&#228;nen&#47;-kriterien im Vergleich zu nicht verwandten Dom&#228;nen&#47;Kriterien gefunden (Cohens d&#61;0,469 versus Cohens d&#61;0,388).  </Pgraph><Pgraph>Der gezeigte pr&#228;diktive Zusammenhang der OBM2-basierten Entscheidungen &#252;ber Pr&#252;fungen hinweg st&#252;tzt die Vorhersagevalidit&#228;t der OBM2. Sie wird daher als eine vielversprechende Methode zur Beseitigung von Unsicherheiten der Pr&#252;fer bei Entscheidungen &#252;ber das Bestehen bzw. Nichtbestehen von OSCE-Pr&#252;fungen betrachtet.   </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>There is inconclusive evidence suggesting which standard setting method yields the highest validity for pass&#47;fail decisions in examinations. The Objective Borderline Method 2 (OBM2) is a decision-making tool for reclassification of borderline grades to clear pass or clear fail grades to resolve examiner uncertainty for high-stakes pass&#47;fail decisions.  </Pgraph><Pgraph>This study evaluated the predictive validity of OBM2 pass&#47;fail decisions, using consecutive years&#8217; Objective Structured Clinical Examination (OSCE) results within a medical cohort (n&#61;271) at the University of New South Wales, Australia. OBM2 decisions in one OSCE (n&#61;687) were compared to marks obtained in a subsequent OSCE via independent samples T-tests and analysis of variance (ANOVA). The extent of the relationship between these two variables determines the predictive validity of OBM2 decisions, given that past student grades are capable of predicting future performance.  </Pgraph><Pgraph>OBM2 decisions in an initial OSCE were found to have a statistically significant predictive nature for subsequent OSCE marks (p&#61;.005). For initial decisions which reclassified to a pass grade, subsequent OSCE marks were significantly higher than for the cases where initial decisions were reclassified to a fail grade. Stronger associations were identified between related assessment domains&#47;criteria compared to unrelated domains&#47;criteria (Cohen&#8217;s d&#61;.469 vs Cohen&#8217;s d&#61;.388 respectively).  </Pgraph><Pgraph>Through demonstrating the OBM2 decisions&#8217; predictive association across exams there is support for the OBM2&#8217;s predictive validity, deeming it a promising method to be used for resolving examiner uncertainty when making pass&#47;fail decisions within OSCEs.   </Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><Pgraph>It is important that any decisions arising from assessment strategies used within a medical program are defensible <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Subjectivity reduces the defensibility of an examination; to increase objectivity in OSCE settings it is common that a standard setting method is applied <TextLink reference="4"></TextLink>. Standard setting methods are applied to define cut-scores which correspond to a minimum level of proficiency&#47;achievement required in an assessment task <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. </Pgraph><Pgraph>A broad range of standard setting methods exists; all methods explored in current literature feature some subjectivities and imprecisions, with inconclusive evidence surrounding their efficacy <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. Most methods require judgements of experts&#47;judges. Although these judgements are made by experts in the field, it is impossible to be entirely objective in such instances <TextLink reference="6"></TextLink>, <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>. Since there is no gold-standard for standard setting,  validating a standard setting is the most challenging issue in standard setting <TextLink reference="8"></TextLink>. Previous studies demonstrated that when two or more standard setting methods are applied to the same data set, each delivers a different cut-score <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>.      </Pgraph><Pgraph>Another issue is the definition of a borderline or, as commonly described &#8220;minimally competent&#8221; student, and the variability of expert opinions in this domain <TextLink reference="13"></TextLink>. A borderline result is observed when the examiner is uncertain whether the observed performance reached the clear pass or clear fail level. This may occur when student&#8217;s observed performance lies near the expected cut-score which distinguishes between the pass and fail grades <TextLink reference="4"></TextLink>. </Pgraph><Pgraph>To resolve this issue the Objective Borderline Method (OBM) was introduced <TextLink reference="10"></TextLink>. The OBM is a standard setting method which uses the concept of redefining borderline marks into either a pass or fail grade; derived from the proportions of pass, borderline and fails yielded by all examinees <TextLink reference="14"></TextLink>. This model is based on probability, using proportions of pass&#47;borderline&#47;fail marks. Instead, most standard setting methods allocate a cut-score based on expert opinion or statistical techniques, as is done with the Angoff method and borderline regression method respectively <TextLink reference="10"></TextLink>.</Pgraph><Pgraph>Since the introduction of the OBM, the Objective Borderline Method 2 (OBM2) has been developed. The OBM2 is not a standard-setting method, as it does not establish a cut-score. The OBM2, instead, is a decision-making tool for reclassification of borderline grades. It uses only two measures; examinee ability and item difficulty, estimated from all assessment marks from an exam, to reclassify the borderline grade as either pass or fail on a case-by-case basis. The OBM2 was found applicable within standard clinical style examination settings to support pass or fail grade decisions in borderline instances <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>The OBM2 is a probability based method used to replace a borderline mark with either pass of fail mark given to an examinee for each single item <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. Thus, an examinee may receive any number of borderline marks, from zero to the total number of items in the examination (in the current study it may span between 0 to 54 per student). A borderline mark is a mark given to the examinee when the examiner is unable to determine that a particular skill was performed either at the clear pass or clear fail level <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. The reclassification of the borderline marks to either pass or fail is determined by the proportions of passes (p), borderline (b) and fail (f) marks yielded by the students using the formula: &#8220;OBM index&#61;(p&#47;&#91;b&#43;p&#93;)&#215;(b&#47;&#91;f&#43;b&#93;)&#8221; <TextLink reference="16"></TextLink>. The OBM index is calculated twice; once for marks of all items yielded by the student to determine &#8220;student ability&#8221;, and once for all marks yielded by each item by all students to determine &#8220;item difficulty&#8221;. Thus, for every borderline mark there are two OBM indices. Then the OBM indices are compared for a given borderline mark. If &#8220;student ability&#8221;&#8805; &#8220;item difficulty&#8221;, the borderline mark is reclassified to a pass. If &#8220;student ability&#8221;&#60;&#8220;item difficulty&#8221; the borderline mark is reclassified to a fail. A detailed explanation of the technicality of the OBM2 in presented in previous research <TextLink reference="16"></TextLink>.   </Pgraph><Pgraph>In the setting of education, predictive validity is an important subset of criterion validity, as an important goal of examinations is to predict future performance <TextLink reference="18"></TextLink>. Current literature indicates that past student grades predict future performance <TextLink reference="19"></TextLink>. If the OBM2 could reflect this expectation within a group of students who have all been allocated the same mark (borderline) and had this reclassified to a pass or a fail, it would enhance the OBM2&#8217;s validity as a tool to reclassify borderline grades to either &#8220;clear pass&#8221; or &#8220;clear fail&#8221; grades. That is, does the OBM2 decision place a borderline student into a group where their future performance corresponds with what is expected from students, based on past grades.</Pgraph><Pgraph>Previous studies have explained the OBM2 tool and have assessed the tool&#8217;s defensibility, feasibility, impact on OSCE results and validity <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. However, these studies used snapshot data which could not provide any indication of the predictive validity of the OBM2 pass&#47;fail decisions <TextLink reference="10"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><Pgraph>Auf Bewertungsstrategien basierende Entscheidungen im Rahmen eines Medizinstudiengangs m&#252;ssen belastbar sein <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Subjektivit&#228;t mindert die Belastbarkeit von Pr&#252;fungen; um die Objektivit&#228;t bei OSCE-Pr&#252;fungen zu erh&#246;hen, wird daher meist ein Standard-Setting-Verfahren angewendet <TextLink reference="4"></TextLink>. Standard-Setting-Verfahren dienen zur Bestimmung von Cut-Scores, die dem Mindestma&#223; an erforderlicher Kompetenz&#47;Leistung bei einer Bewertungsaufgabe entsprechen <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. </Pgraph><Pgraph>Es stehen viele Standard-Setting-Verfahren zur Verf&#252;gung; alle in der aktuellen Literatur untersuchten Verfahren weisen jedoch subjektive Aspekte und Ungenauigkeiten sowie uneindeutige Daten zu deren Effizienz auf <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. In den meisten Verfahren ist eine Beurteilung durch Experten&#47;Pr&#252;fer vorgesehen. Obwohl diese Beurteilungen von Experten auf dem jeweiligen Gebiet erfolgen, ist eine vollst&#228;ndige Objektivit&#228;t in diesen F&#228;llen niemals m&#246;glich <TextLink reference="6"></TextLink>, <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>. Da es f&#252;r das Standard-Setting keinen Goldstandard gibt, ist hierbei die Validierung eines Standard-Setting-Verfahrens die gr&#246;&#223;te Herausforderung <TextLink reference="8"></TextLink>. In fr&#252;heren Studien wurde gezeigt, dass bei der Anwendung zweier oder mehrerer Standard-Setting-Verfahren auf denselben Datensatz jedes Verfahren einen anderen Cut-Score ergibt <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>.      </Pgraph><Pgraph>Weitere Probleme sind die Definition des Grenzwerts, meist auch bezeichnet als &#8222;minimal kompetenter&#8220; Student, und die Variabilit&#228;t der Expertenmeinung in dieser Dom&#228;ne <TextLink reference="13"></TextLink>. Ein Grenzergebnis liegt vor, wenn der Pr&#252;fer die abgelieferte Leistung nicht eindeutig als &#8222;bestanden&#8220; oder &#8222;nicht bestanden&#8220; einordnen kann. Dieser Fall tritt ein, wenn die Leistung des Studenten nah am erwarteten Cut-Score liegt, der zwischen Bestehens- und Nichtbestehensnoten unterscheidet <TextLink reference="4"></TextLink>. </Pgraph><Pgraph>Zur L&#246;sung dieses Problems wurde die Objective Borderline Method (OBM) eingef&#252;hrt <TextLink reference="10"></TextLink>. Die OBM ist ein Standard-Setting-Verfahren, bei dem Grenznoten nachtr&#228;glich entweder als Bestehens- oder Nichtbestehensnoten eingestuft werden. Die Grundlage daf&#252;r bildet das Verh&#228;ltnis der Pr&#252;fungsteilnehmer, die bestanden, nicht bestanden oder Grenznoten erhalten haben <TextLink reference="14"></TextLink>. Dieses Modell basiert auf Wahrscheinlichkeit unter Verwendung des Verh&#228;ltnisses von Bestehens-&#47;Nichtbestehens-&#47;Grenznoten. Bei den meisten Standard-Setting-Verfahren wird ein Cut-Score anhand von Expertenmeinung oder statistischen Verfahren zugewiesen, wie beispielsweise bei der Angoff-Methode bzw. der Borderline-Regression-Methode <TextLink reference="10"></TextLink>.</Pgraph><Pgraph>Nach der Einf&#252;hrung der OBM wurde die Objective Borderline Method 2 (OBM2) entwickelt. Die OBM2 ist kein Standard-Setting-Verfahren, da hierbei kein Cut-Score ermittelt wird. Sie ist vielmehr ein Instrument zur Entscheidungsunterst&#252;tzung f&#252;r die Neueinstufung von Grenznoten. Hierbei werden nur zwei Gr&#246;&#223;en verwendet, um die Neueinstufung der Grenznoten als Bestehens- oder Nichtbestehensnoten auf Einzelfallbasis vorzunehmen: die F&#228;higkeiten des Pr&#252;fungsteilnehmers und die Aufgabenschwierigkeit, die anhand aller Noten einer Pr&#252;fung ermittelt wird. Es wurde festgestellt, dass die OBM2 f&#252;r standardisierte Pr&#252;fungen der klinischen Kompetenz anwendbar ist, um Entscheidungen &#252;ber das Bestehen bzw. Nichtbestehen bei Grenznoten zu treffen <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>Die OBM2 ist eine wahrscheinlichkeitsbasierte Methode, um die Grenznote eines Pr&#252;fungsteilnehmers durch eine Bestehens- oder Nichtbestehensnote f&#252;r jede Aufgabe zu ersetzen <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. Somit kann ein Pr&#252;fungsteilnehmer beliebig viele Grenznoten zwischen Null und der Gesamtzahl der Aufgaben der Pr&#252;fung erhalten (in der aktuellen Studie liegt die Anzahl zwischen 0 und 54 pro Student). Eine Grenznote wird vom Pr&#252;fer dann vergeben, wenn er die Ausf&#252;hrung des Pr&#252;fungsteilnehmers nicht eindeutig als &#8222;bestanden&#8220; oder &#8222;nicht bestanden&#8220; einordnen kann <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. Die Neueinstufung von Grenznoten entweder als Bestehens- oder Nichtbestehensnoten erfolgt anhand des Verh&#228;ltnisses der Bestehens- (p), Grenz- (b) und Nichtbestehensnoten (f) der Studenten unter Verwendung der folgenden Formel: &#8222;OBM-Index&#61;(p&#47;&#91;b&#43;p&#93;)&#215;(b&#47;&#91;f&#43;b&#93;)&#8220; &#91;16&#93;. Der OBM-Index wird zweimal berechnet: f&#252;r die vom Studenten erhaltenen Noten f&#252;r alle Aufgaben zur Bestimmung der &#8222;F&#228;higkeit des Studenten&#8220; und f&#252;r die von allen Studenten erhaltenen Noten f&#252;r jede Aufgabe zur Bestimmung der &#8222;Aufgabenschwierigkeit&#8220;. Somit ergeben sich f&#252;r jede Grenznote zwei OBM-Indizes. Anschlie&#223;end werden pro Grenznote die beiden OBM-Indizes verglichen. Wenn &#8222;F&#228;higkeit des Studenten&#8220;&#8805;&#8222;Aufgabenschwierigkeit&#8220;, wird die Grenznote als Bestehensnote neueingestuft. Wenn &#8222;F&#228;higkeit des Studenten&#8220;&#60;&#8222;Aufgabenschwierigkeit&#8220;, wird die Grenznote als Nichtbestehensnote neueingestuft. Die technischen Einzelheiten der OBM2 wurden in fr&#252;heren Untersuchungen gezeigt <TextLink reference="16"></TextLink>.   </Pgraph><Pgraph>In der Lehre ist die Vorhersagevalidit&#228;t ein wichtiger Bestandteil der Kriteriumsvalidit&#228;t, da die Vorhersage der zuk&#252;nftigen Leistung ein wesentliches Ziel bei Pr&#252;fungen ist <TextLink reference="18"></TextLink>. Der aktuellen Literatur zufolge k&#246;nnen anhand der vorherigen Noten des Studenten Vorhersagen zur zuk&#252;nftigen Leistung getroffen werden <TextLink reference="19"></TextLink>. Wenn die OBM2 diese Erwartung innerhalb einer Gruppe von Studenten mit derselben Note (Grenznote) und anschlie&#223;ender Neueinstufung als Bestehens- oder Nichtbestehensnote widerspiegeln k&#246;nnte, w&#252;rde dies die Validit&#228;t der OBM2 als Instrument zur Neueinstufung von Grenznoten als &#8222;eindeutig bestanden&#8220; oder &#8222;eindeutig nicht bestanden&#8220; erh&#246;hen. Dies trifft dann zu, wenn ein Student mit einer Grenznote anhand der OBM2-basierten Entscheidung in eine Gruppe einordnet wird, die der tats&#228;chlichen zuk&#252;nftigen Leistung entspricht, die anhand der vorherigen Noten des Studenten erwartet wurde.</Pgraph><Pgraph>In fr&#252;heren Studien wurden die OBM2 erkl&#228;rt und die Belastbarkeit, die Praktikabilit&#228;t, der Einfluss auf die OSCE-Ergebnisse und die Validit&#228;t dieses Instruments beurteilt <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. F&#252;r diese Studien wurden jedoch Augenblicksdaten verwendet, die keine Hinweise zur Vorhersagevalidit&#228;t von OBM2-basierten Entscheidungen &#252;ber das Bestehen&#47;Nichtbestehen lieferten <TextLink reference="10"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="16"></TextLink>. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Aim">
      <MainHeadline>2. Aim</MainHeadline><Pgraph>The aim of this study was to determine to what extent decisions made by the OBM2 predict future performance. This may determine the predictive validity of pass&#47;fail decisions made by the OBM2. To achieve this, the following research question was used: what is the extent of the association between OBM2 decisions in one OSCE with the marks obtained in a subsequent year&#8217;s OSCE&#63;  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Ziel">
      <MainHeadline>2. Ziel</MainHeadline><Pgraph>Die Studie zielte darauf ab, zu bestimmen, inwieweit anhand von OBM2-basierten Entscheidungen die zuk&#252;nftigen Leistungen vorhergesagt werden k&#246;nnen. Dadurch kann die Vorhersagevalidit&#228;t von OBM2-basierten Entscheidungen &#252;ber das Bestehen&#47;Nichtbestehen bestimmt werden. Zum Erreichen des Ziels wurde die folgende Forschungsfrage formuliert: Wie stark ist der Zusammenhang zwischen OBM2-basierten Entscheidungen in einer OSCE-Pr&#252;fung und den in der OSCE-Pr&#252;fung des darauffolgenden Jahres erhaltenen Noten&#63;  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Study setting">
      <MainHeadline>3. Study setting</MainHeadline><Pgraph>This study uses data from OSCEs conducted at the University of New South Wales (UNSW) in Sydney, Australia. UNSW medicine is a six year undergraduate program and has OSCEs in second year, third year and sixth year <TextLink reference="20"></TextLink>. This study uses data from year 2 OSCE (referred to as Initial) and year 3 OSCE (referred to as Subsequent) examinations of the same cohort, in two consecutive years (2016-2017). The first two years of the UNSW medicine program are primarily theoretical, with weekly alternating 2-hour long clinical skills sessions on-campus and in the hospital being students&#8217; sole clinical practice. Meanwhile, third year students are placed at an allocated hospital daily throughout the year, allowing students substantially more clinical training <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>.</Pgraph><Pgraph>The initial examination assesses students (n&#61;271) across three domains; general communication, clinical communication and physical examination, which are split into nine specific assessment criteria within the marking rubric. Therefore, a student is able to achieve up to nine borderline results per OSCE station. The cohort is divided across four separate sites <TextLink reference="21"></TextLink>. The subsequent examination (257 students) uses slightly different assessment criteria (see table 1 <ImgLink imgNo="1" imgType="table"/>) <TextLink reference="21"></TextLink> and is conducted across nine separate sites. </Pgraph><Pgraph>Both the initial and subsequent OSCEs consist of six separate stations, with different cases and examiners <TextLink reference="21"></TextLink>. Each station has one examiner, with a mix of external and university-affiliated examiners. The initial OSCE allows fifteen minutes per station and emphasises assessment of clinical skills, such as clinical communication, physical examination and general communication <TextLink reference="21"></TextLink>. The subsequent OSCE allows ten minutes per station and relies on similar clinical skills, as well as case-specificity; meaning thorough underlying clinical knowledge is necessary to perform well in the examination <TextLink reference="21"></TextLink>. These subsequent criteria each have equivalents to the three initial domains and can therefore be compared. Both the initial and subsequent OSCEs allow for one re-attempt after a fail grade. Examiners for the subsequent OSCEs were not aware of student grades yielded in the initial OSCE. </Pgraph><Pgraph>The study comprised data of 271 students who completed the year 2 OSCE in 2016. The year 2 OSCE consists of six stations, in each of which the student is assessed by nine assessment criteria, resulting with 54 marks per student in year 2 OSCE. Each of the assessment criteria focus on one of the three domains; general communication, clinical communication, or physical examination. In total year 2 OSCE yielded 14,634 marks (f&#61;83 &#91;0.6&#37;&#93;; b&#61;687 &#91;4.7&#37;&#93;; p&#61;13864 &#91;94.7&#37;&#93;, the p mark includes both &#8220;pass&#8221; and &#8220;distinction&#8221; marks).  After the application of the OBM2, which replaced the borderline marks with either passes or fails, the marks are summarised (averaged) by the three domains and reported as such. This study however, focussed only on the 687 borderline marks, since only these were modified to either pass of fail.      </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Studienaufbau">
      <MainHeadline>3. Studienaufbau</MainHeadline><Pgraph>In dieser Studie wurden Daten aus an der University of New South Wales (UNSW) in Sydney, Australien, durchgef&#252;hrten OSCE-Pr&#252;fungen verwendet. Das Medizinstudium an der UNSW dauert sechs Jahre bis zum ersten Abschluss. Jeweils im zweiten, im dritten und im sechsten Jahr ist eine OSCE-Pr&#252;fung vorgesehen <TextLink reference="20"></TextLink>. In dieser Studie wurden Daten aus den OSCE-Pr&#252;fungen im zweiten Jahr (als &#8222;erste&#8220; OSCE-Pr&#252;fung bezeichnet)  und im dritten Jahr (als &#8222;nachfolgende&#8220; OSCE-Pr&#252;fung bezeichnet)  derselben Kohorte in zwei aufeinanderfolgenden Jahren (2016&#47;2017) verwendet. In den ersten beiden Jahren des Medizinstudiums an der UNSW wird vorranging Theorie vermittelt. Dabei sind die w&#246;chentlich wechselnden zweist&#252;ndigen Veranstaltungen zum Erlernen klinischer F&#228;higkeiten auf dem Campus und im Krankenhaus der einzige klinische Praxisunterricht f&#252;r die Studenten. Im gesamten dritten Jahr sind die Studenten t&#228;glich in einem zugewiesenen Krankenhaus t&#228;tig, wobei sie wesentlich mehr klinische Erfahrung sammeln <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>.</Pgraph><Pgraph>In der ersten Pr&#252;fung werden die Studenten (N&#61;271) in drei Dom&#228;nen gepr&#252;ft: allgemeine Kommunikation, klinische Kommunikation und k&#246;rperliche Untersuchung. Diese Dom&#228;nen sind in jeweils neun spezifische Bewertungskriterien innerhalb der Benotungsrubrik unterteilt. So kann ein Student bis zu neun Grenzergebnisse pro OSCE-Station erzielen. Die Kohorte war auf vier Standorte verteilt <TextLink reference="21"></TextLink>. In der nachfolgenden Pr&#252;fung (257 Studenten) werden leicht unterschiedliche Bewertungskriterien verwendet (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>) <TextLink reference="21"></TextLink>. Diese Pr&#252;fung findet an neun Standorten statt. </Pgraph><Pgraph>Die erste und die nachfolgende OSCE-Pr&#252;fung bestehen aus sechs verschiedenen Stationen mit unterschiedlichen F&#228;llen und Pr&#252;fern <TextLink reference="21"></TextLink>. Jede Station wird von einem Pr&#252;fer bewertet. Die Pr&#252;fer sind sowohl externe Personen als auch Universit&#228;tsangeh&#246;rige. In der ersten OSCE-Pr&#252;fung sind 15 Minuten pro Station vorgesehen. Hier stehen die Bewertung der klinischen F&#228;higkeiten wie die allgemeine Kommunikation, die klinische Kommunikation und die k&#246;rperliche Untersuchung im Vordergrund <TextLink reference="21"></TextLink>. In der nachfolgenden OSCE-Pr&#252;fung sind 10 Minuten pro Station vorgesehen. Hier wird neben diesen klinischen F&#228;higkeiten auch die Fallspezifit&#228;t bewertet. Somit ist ein umfangreiches klinisches Wissen f&#252;r eine gute Leistung in dieser Pr&#252;fung notwendig <TextLink reference="21"></TextLink>. Die Kriterien der nachfolgenden OSCE-Pr&#252;fung haben &#196;quivalente in den drei Dom&#228;nen der ersten OSCE-Pr&#252;fung, wodurch Vergleiche m&#246;glich sind. Sowohl f&#252;r die erste als auch die nachfolgende OSCE-Pr&#252;fung ist bei Nichtbestehen ein Zweitversuch m&#246;glich. Die Pr&#252;fer der nachfolgenden OSCE-Pr&#252;fung kannten die Noten der Studenten in der ersten OSCE-Pr&#252;fung nicht. Die Studie umfasste Daten von 271 Studenten, die im Jahr 2016 an der OSCE-Pr&#252;fung des zweiten Jahres teilnahmen. Diese OSCE-Pr&#252;fung umfasst sechs Stationen. An jeder dieser Stationen wird der Student anhand von neun Bewertungskriterien bewertet. Daraus ergeben sich so 54 Noten pro Student f&#252;r die OSCE-Pr&#252;fung des zweiten Jahres. Bei jedem Bewertungskriterium liegt das Augenmerk auf einer der drei Dom&#228;nen &#8222;allgemeine Kommunikation&#8220;, &#8222;klinische Kommunikation&#8220; oder &#8222;k&#246;rperliche Untersuchung&#8220;. Insgesamt wurden in der OSCE-Pr&#252;fung des zweiten Jahres 14.634 Noten vergeben (f&#61;83 &#91;0,6&#37;&#93;; b&#61;687 &#91;4,7&#37;&#93;; p&#61;13864 &#91;94,7&#37;&#93;, die p-Note umfasst die Noten f&#252;r &#8222;bestanden&#8220; und &#8222;Pr&#228;dikatsnote&#8220;).  Nach Anwendung der OBM2, wodurch die Grenznoten durch Bestehens- oder Nichtbestehensnoten ersetzt wurden, wurden die Noten je Dom&#228;ne summiert (gemittelt) und als solche erfasst. In dieser Studie wurden jedoch nur die 687 Grenznoten untersucht, denn nur diese wurden in Bestehens- oder Nichtbestehensnoten ge&#228;ndert.      </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Methods">
      <MainHeadline>4. Methods</MainHeadline><Pgraph>Hereafter, &#8220;OBM2 decisions to reclassify borderline grades to either clear pass or clear fail grades&#8221; will be referred to as &#8220;decisions&#8221;. </Pgraph><Pgraph>One data set included all initial borderline results for which decisions were made (n&#61;687); the second included all the subsequent marks correlating to each initial decision. For 58 of the 687 initial borderline decisions (14 students), the subsequent OSCE was not attempted in the consecutive year, meaning these subsequent entries were incomplete and were excluded from the analysis. Therefore 629 sets of decisions (257 students) were analysed. During the initial examination, a student can receive a maximum of nine borderline results per OSCE station, as there are nine criteria according to which students are assessed within each station.</Pgraph><Pgraph>The subsequent data consisted of the original marks across 10 assessment criteria prior the application of OBM2 (five each for physical examination and clinical history stations. Assessment criteria for physical-examination-based and history-based stations were paired to create 5 new unified assessment criteria for the subsequent exam (see table 1 <ImgLink imgNo="1" imgType="table"/>). This grouping was conducted by three UNSW clinical examination experts, who together decided which criteria assessed similar skills and could therefore be paired together. </Pgraph><Pgraph>Data analysis compared the initial decision to the subsequent OSCE mark. The initial decision was used as the independent variable such that the results explore the predictive validity of the decisions. Using the original marks (prior the application of the OBM2) for the subsequent OSCE was important in order to avoid any unexpected unrelated impact the OBM2 might have had on the analysis. Therefore the analysis solely compared associations between decisions in the initial OSCEs and the (unmodified) subsequent OSCE marks. </Pgraph><Pgraph>The analysis was conducted using  SPSS <TextLink reference="22"></TextLink> starting with independent samples T-tests. Statistical significance was set at p&#60;0.05. First, initial decisions within any initial assessment domain were compared to subsequent marks for any assessment criterion. </Pgraph><Pgraph>Further analysis explored the relationship between initial decisions per assessment domain and subsequent marks per assessment criterion. Accordingly, the association of initial decisions and subsequent assessment marks both within related domains, and across different domains can be determined. Cohen&#8217;s d effect sizes were calculated for each individual factor <TextLink reference="23"></TextLink>. </Pgraph><Pgraph>Analysis of variance (ANOVA) tested between-subject effects to determine whether the station has a confounding effect on the association between initial decisions and subsequent assessment marks.  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Methoden">
      <MainHeadline>4. Methoden</MainHeadline><Pgraph>Im Folgenden werden &#8222;OMB2-basierte Entscheidungen zur Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten&#8220; als &#8222;Entscheidungen&#8220; bezeichnet. </Pgraph><Pgraph>Ein Datensatz umfasste alle Grenznoten der ersten Pr&#252;fung, f&#252;r die Entscheidungen getroffen wurden (N&#61;687); der zweite Datensatz umfasste alle Noten der nachfolgenden Pr&#252;fung, die mit jeder Entscheidung in der ersten Pr&#252;fung korrelierten. Im Falle von 58 der 687 Entscheidungen &#252;ber Grenznoten in der ersten Pr&#252;fung (14 Studenten) traten die betreffenden Studenten die nachfolgende OSCE-Pr&#252;fung im darauffolgenden Jahr nicht an. Die Eintr&#228;ge f&#252;r die nachfolgende Pr&#252;fung waren somit nicht vollst&#228;ndig und blieben daher in der Analyse unber&#252;cksichtigt. Folglich wurden 629 Entscheidungsgruppen (257 Studenten) analysiert. In der ersten Pr&#252;fung k&#246;nnen die Studenten maximal neun Grenznoten pro OSCE-Station erhalten, da sie jeweils anhand von neun Kriterien pro Station bewertet werden.</Pgraph><Pgraph>Die Daten f&#252;r die nachfolgende Pr&#252;fung umfassten die urspr&#252;nglichen Noten f&#252;r zehn Bewertungskriterien vor der Anwendung der OBM2 (jeweils f&#252;nf f&#252;r die Stationen f&#252;r die k&#246;rperliche Untersuchung und die Stationen f&#252;r die Krankengeschichte). Die Bewertungskriterien f&#252;r die Stationen f&#252;r die k&#246;rperliche Untersuchung und die Stationen f&#252;r die Krankengeschichte wurden paarweise zusammengefasst, um f&#252;nf neue einheitliche Bewertungskriterien f&#252;r die nachfolgende Pr&#252;fung zu erstellen (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Diese Zusammenfassung nahmen drei Experten f&#252;r Pr&#252;fungen auf dem Gebiet der klinischen F&#228;higkeiten von der UNSW vor. Sie entschieden gemeinsam, anhand welcher Kriterien &#228;hnliche F&#228;higkeiten bewertet werden. Diese Kriterien wurden dann paarweise zusammengefasst. </Pgraph><Pgraph>In einer Datenanalyse wurde die f&#252;r die erste Pr&#252;fung getroffene Entscheidung mit der in der nachfolgenden Pr&#252;fung erreichten Note verglichen. Die f&#252;r die erste Pr&#252;fung getroffene Entscheidung wurde als unabh&#228;ngige Variable so verwendet, dass die Ergebnisse die Vorhersagevalidit&#228;t der Entscheidung herausstellt. Die Verwendung der urspr&#252;nglichen Noten (vor der Anwendung der OBM2) f&#252;r die nachfolgende OSCE-Pr&#252;fung war wichtig, um einen unerwarteten zusammenhanglosen Einfluss der OBM2 auf die Analyse auszuschlie&#223;en. Daher bestand die Analyse lediglich aus dem Vergleich der Zusammenh&#228;nge der Entscheidungen in den ersten OSCE-Pr&#252;fungen mit den in den nachfolgenden OSCE-Pr&#252;fungen erhaltenen (unver&#228;nderten) Noten. </Pgraph><Pgraph>Die Analyse wurde mithilfe von SPSS <TextLink reference="22"></TextLink> durchgef&#252;hrt. Es wurde mit t-Tests f&#252;r unabh&#228;ngige Stichproben begonnen. Statistische Signifikanz wurde bei p&#60;0,05 angenommen. Zun&#228;chst wurden die Entscheidungen in der ersten Pr&#252;fung innerhalb jeder Bewertungsdom&#228;ne dieser ersten Pr&#252;fung mit den in der nachfolgenden Pr&#252;fung erhaltenen Noten f&#252;r jedes Bewertungskriterium verglichen. </Pgraph><Pgraph>In weiteren Analysen wurde der Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung pro Bewertungsdom&#228;ne und den in der nachfolgenden Pr&#252;fung erhaltenen Noten pro Bewertungskriterium untersucht. Dementsprechend konnte der Zusammenhang der Entscheidungen in der ersten Pr&#252;fung und den in der nachfolgenden Pr&#252;fung erhaltenen Noten innerhalb verwandter Dom&#228;nen sowie &#252;ber verschiedene Dom&#228;nen hinweg bestimmt werden. F&#252;r jeden einzelnen Faktor wurde die Effektst&#228;rke Cohens d berechnet <TextLink reference="23"></TextLink>. </Pgraph><Pgraph>Mithilfe der Varianzanalyse (ANOVA) wurden Tests der Zwischensubjekteffekte durchgef&#252;hrt, um zu bestimmen, ob die Station den Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung und den in der nachfolgenden Pr&#252;fung erhaltenen Noten verzerrt.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Results">
      <MainHeadline>5. Results</MainHeadline><Pgraph>Independent samples T-tests (see table 2 <ImgLink imgNo="2" imgType="table"/> and figure 1 <ImgLink imgNo="1" imgType="figure"/>) and ANOVA (see figure 2 <ImgLink imgNo="2" imgType="figure"/>) demonstrate a statistically significant association between the initial decision and the subsequent OSCE performance (examination mark), one year later. </Pgraph><Pgraph>The T-test demonstrated that across 14 of all 15 comparisons, the subsequent OSCE marks related to initial pass decisions were significantly higher than subsequent OSCE marks related to initial fail decisions (p&#60;.05) (see table 2 <ImgLink imgNo="2" imgType="table"/> and figure 2 <ImgLink imgNo="2" imgType="figure"/>). It is noted that small-medium effect sizes (Cohen&#8217;s d&#61;.223-.675) were identified across all the fourteen significant T-tests (see table 2 <ImgLink imgNo="2" imgType="table"/>). </Pgraph><Pgraph>Analysis comparing subsequent OSCE marks to initial decisions within each specific initial assessment domain demonstrated more specific links between initial decisions and subsequent marks (see table 2 <ImgLink imgNo="2" imgType="table"/> and figure 1 <ImgLink imgNo="1" imgType="figure"/>). With one exception; for every assessment domain, initial decisions have a predictive association with every subsequent assessment criterion. The exception is the relationship between decisions made for Initial physical examination, and subsequent history marks (p&#61;.752, Cohen&#8217;s d&#61;.041) (see figure 1 <ImgLink imgNo="1" imgType="figure"/>, section b). </Pgraph><Pgraph>Effect sizes (Cohen&#8217;s d) are larger when initial decisions per domain are compared to their related subsequent assessment criteria, than when the comparisons are made across less similar domains (see table 2). Both initial general communication and initial clinical communication have large effects on subsequent communication marks (Cohen&#8217;s d&#61;.725 and .691 respectively); furthermore, these two Initial domains have large effects on case summary (Cohen&#8217;s d&#61;.708 and .790 respectively) (see table 2 <ImgLink imgNo="2" imgType="table"/>). Similarly, initial decisions made for physical examination demonstrated a medium effect on subsequent physical examination marks (Cohen&#8217;s d&#61;.506). This also applies for initial physical examination decisions and subsequent case summary marks (Cohen&#8217;s d&#61;.558) (see table 2 <ImgLink imgNo="2" imgType="table"/>).   </Pgraph><Pgraph>There is a similar statistically significant association in the ANOVA (see figure 2 <ImgLink imgNo="2" imgType="figure"/>) for each comparison made between related Initial assessment domains and subsequent assessment criteria in independent samples T-tests.  </Pgraph><Pgraph>Initial decisions made in the general communication domain were compared to marks for each subsequent assessment criterion. Similarly, initial decisions made in the general communication and physical examination domains were compared to subsequent marks per assessment criterion. This association again demonstrates that initial pass decisions are associated with significantly higher (p&#60;0.05) subsequent OSCE marks than initial fail decisions; particularly when related domains&#47;criteria. Again, there is no significant association between subsequent history marks and initial decisions in the physical examination domain (see figure 2 <ImgLink imgNo="2" imgType="figure"/>, section 2c). </Pgraph><Pgraph>Figure 2 <ImgLink imgNo="2" imgType="figure"/> demonstrates that there is a significant association between the initial decisions and subsequent OSCE scores. There are some outliers (see figure 2 <ImgLink imgNo="2" imgType="figure"/>; sections 2b, 2c, 3c, 4c); however, an overall predictive association exists. Initial pass decisions resulted in consistently higher subsequent marks than initial fail decisions. </Pgraph><Pgraph>ANOVA determines that this predictive relationship is associated with the initial decision, independent of assessment station. These results indicate that the initial decisions were justified, as past grades should predict future performance, and have managed to do so based on these initial decisions.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Ergebnisse">
      <MainHeadline>5. Ergebnisse</MainHeadline><Pgraph>Die t-Tests f&#252;r unabh&#228;ngige Stichproben (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/> und Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>) und die ANOVA (siehe Abbildung 2) zeigen einen statistisch signifikanten Zusammenhang zwischen der Entscheidung in der ersten Pr&#252;fung und der Leistung in der nachfolgenden OSCE-Pr&#252;fung (Pr&#252;fungsnote) ein Jahr sp&#228;ter. </Pgraph><Pgraph>Der t-Test zeigte, dass bei 14 der insgesamt 15 Vergleiche die in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten, die den Entscheidungen f&#252;r Bestehensnoten zugeh&#246;rig sind, signifikant besser waren als die in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten, die den Entscheidungen f&#252;r Nichtbestehensnoten zugeh&#246;rig sind (p&#60;0,05) (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/> und Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Es ist anzumerken, dass eine geringe bis mittlere Effektst&#228;rke (Cohens d&#61;0,223&#8211;0,675) bei allen 14 signifikanten t-Tests gefunden wurde (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). </Pgraph><Pgraph>Analysen zum Vergleich der in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten mit den Entscheidungen in der ersten Pr&#252;fung innerhalb jeder der spezifischen Bewertungsdom&#228;nen dieser ersten Pr&#252;fung zeigten noch spezifischere Verbindungen zwischen den Entscheidungen in der ersten Pr&#252;fung und den in der nachfolgenden Pr&#252;fung erhaltenen Noten (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/> und Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Die Entscheidungen in der ersten Pr&#252;fung weisen mit einer Ausnahme f&#252;r jede Bewertungsdom&#228;ne einen pr&#228;diktiven Zusammenhang mit jedem in der nachfolgenden Pr&#252;fung angewendeten Bewertungskriterium auf. Die Ausnahme ist der Zusammenhang zwischen den f&#252;r &#8222;k&#246;rperliche Untersuchung&#8220; in der ersten Pr&#252;fung getroffenen Entscheidungen und den Noten f&#252;r &#8222;Vorgeschichte&#8220; in der nachfolgenden Pr&#252;fung (p&#61;0,752, Cohens d&#61;0,41) (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, Feld b). </Pgraph><Pgraph>Die Effektst&#228;rken (Cohens d) sind h&#246;her, wenn die in der ersten Pr&#252;fung getroffenen Entscheidungen pro Dom&#228;ne mit ihren in der nachfolgenden Pr&#252;fung angewendeten verwandten Bewertungskriterien verglichen werden, als wenn die Vergleiche &#252;ber weniger verwandte Dom&#228;nen erfolgen (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Sowohl die &#8222;allgemeine Kommunikation&#8220; als auch die &#8222;klinische Kommunikation&#8220; in der ersten Pr&#252;fung haben gro&#223;e Effekte auf die Noten im Bereich &#8222;Kommunikation&#8220; in der nachfolgenden Pr&#252;fung (Cohens d&#61;0,725 bzw. 0,691); dar&#252;ber hinaus haben diese zwei Dom&#228;nen aus der ersten Pr&#252;fung gro&#223;e Effekte auf die &#8222;Fallzusammenfassung&#8220; (Cohens d&#61;0,708 bzw. 0,790) (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Gleicherma&#223;en zeigten die in der ersten Pr&#252;fung getroffenen Entscheidungen in der Dom&#228;ne &#8222;k&#246;rperliche Untersuchung&#8220; einen mittleren Effekt auf die in der nachfolgenden Pr&#252;fung erhaltenen Noten f&#252;r &#8222;k&#246;rperliche Untersuchung&#8220;(Cohens d&#61;0,506). Dies trifft auch auf die Entscheidungen in den ersten Pr&#252;fung in der Dom&#228;ne &#8222;k&#246;rperliche Untersuchung&#8220; und die in der nachfolgenden Pr&#252;fung erhaltenen Noten f&#252;r &#8222;Fallzusammenfassung&#8220; zu (Cohens d&#61;0,558) (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>).   </Pgraph><Pgraph>In der ANOVA zeigt sich ein &#228;hnlicher statistisch signifikanter Zusammenhang (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>) f&#252;r jeden Vergleich zwischen verwandten Bewertungsdom&#228;nen der ersten Pr&#252;fung und Bewertungskriterien der nachfolgenden Pr&#252;fung in t-Tests f&#252;r unabh&#228;ngige Stichproben.  </Pgraph><Pgraph>Entscheidungen in der ersten Pr&#252;fung in der Dom&#228;ne &#8222;allgemeine Kommunikation&#8220; wurden mit den Noten f&#252;r jedes Bewertungskriterium der nachfolgenden Pr&#252;fung verglichen. Gleicherma&#223;en wurden die Entscheidungen in der ersten Pr&#252;fung in den Dom&#228;nen &#8222;allgemeine Kommunikation&#8220; und &#8222;k&#246;rperliche Untersuchung&#8220; mit den Noten f&#252;r jedes Bewertungskriterium der nachfolgenden Pr&#252;fung verglichen. Dieser Zusammenhang zeigt erneut, dass Entscheidungen f&#252;r Bestehensnoten in der ersten Pr&#252;fung mit signifikant besseren (p&#60;0,05) Noten in der nachfolgenden OSCE-Pr&#252;fung in Zusammenhang stehen als Entscheidungen f&#252;r Nichtbestehensnoten in der ersten Pr&#252;fung; dies trifft vor allem bei verwandten Dom&#228;nen&#47;Kriterien zu. Wieder besteht kein statistischer Zusammenhang zwischen Noten in der Dom&#228;ne &#8222;Vorgeschichte&#8220; in der nachfolgenden Pr&#252;fung und Entscheidungen in der ersten Pr&#252;fung in der Dom&#228;ne &#8222;k&#246;rperliche Untersuchung&#8220; (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>, Feld 2c). </Pgraph><Pgraph>Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt, dass ein signifikanter Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung und der OSCE-Punktzahl der nachfolgenden Pr&#252;fung besteht. Es sind einige Ausrei&#223;er enthalten (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>, Felder 2b, 2c, 3c, 4c); es besteht jedoch ein allgemeiner pr&#228;diktiver Zusammenhang. Entscheidungen f&#252;r Bestehensnoten in der ersten Pr&#252;fung f&#252;hrten zu durchg&#228;ngig besseren Noten als Entscheidungen f&#252;r Nichtbestehensnoten. </Pgraph><Pgraph>Die ANOVA zeigt, dass dieses pr&#228;diktive Verh&#228;ltnis mit den Entscheidungen in der ersten Pr&#252;fung speziell unabh&#228;ngig von der Bewertungsstation in Zusammenhang steht. Die Ergebnisse deuten darauf hin, dass die Entscheidungen in der ersten Pr&#252;fung gerechtfertigt waren, da anhand vorheriger Noten die zuk&#252;nftige Leistung vorhergesagt werden k&#246;nnen sollte; dies ist basierend auf den Entscheidungen in der ersten Pr&#252;fung gelungen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="6. Discussion">
      <MainHeadline>6. Discussion</MainHeadline><Pgraph>Initial decisions have a predictive association when applied to subsequent examinations within a cohort. This predictive validity is stronger within related initial assessment domains and subsequent assessment criteria than across less-related domains&#47;criteria (see table 2 <ImgLink imgNo="2" imgType="table"/>, see figure 1 <ImgLink imgNo="1" imgType="figure"/> and figure 2 <ImgLink imgNo="2" imgType="figure"/>). </Pgraph><Pgraph>A significant relationship between initial decisions and subsequent OSCE marks exists between initial general and clinical communication decisions, and subsequent history marks (see table 2 <ImgLink imgNo="2" imgType="table"/>; see figure 1 <ImgLink imgNo="1" imgType="figure"/>, section b; see figure 2 <ImgLink imgNo="2" imgType="figure"/>, section 2a-2b). Whereas, initial decisions in the physical examination domain have no significant association with subsequent history marks (see table 2 <ImgLink imgNo="2" imgType="table"/>; see figure 1 <ImgLink imgNo="1" imgType="figure"/>, section b; see figure 2 <ImgLink imgNo="2" imgType="figure"/>, section 2c). This is reasonable as the domains assess different skills, whereas communication and history assess similar skills.</Pgraph><Pgraph>Although all three initial assessment domains are significantly associated with subsequent communication marks; initial general and clinical communication decisions acted as substantially stronger predictors than initial physical examination (Cohen&#39;s d&#61;.725, .691 and .388 respectively; see table 2 <ImgLink imgNo="2" imgType="table"/>; see figure 1 <ImgLink imgNo="1" imgType="figure"/>, section c; see figure 2 <ImgLink imgNo="2" imgType="figure"/>, sections 3a-3c). This demonstrates that although the predictive association exists across most domains, it remains strongest within the related domains. </Pgraph><Pgraph>Due to the requirement for case specificity in the phase 2 OSCEs, case interpretation relies on competent performance within a station to elicit information as well as underlying clinical knowledge to allow discovery and intellectual interpretation of case findings. This is demonstrated by the large effect size related to subsequent OSCE marks in case interpretation and case summary (see table 2 <ImgLink imgNo="2" imgType="table"/>). The UNSW Faculty of Medicine specifies that a good case summary relies on multiple factors assessed within the phase 2 OSCE including clear&#47;concise general communication, appropriate clinical jargon, identification of significant case findings and suggestion of differential diagnoses <TextLink reference="21"></TextLink>. </Pgraph><Pgraph>Unmodified grades (borderline) are all identical and are reclassified according to the OBM2 decisions. There is no reason to expect such a predictive association unless decisions are valid. Repeated significant associations throughout different assessment domains&#47;criteria (see figure 2 <ImgLink imgNo="2" imgType="figure"/>) suggest that this predictability is not a random occurrence. These reclassified grades have a predictive association with future marks; such predictive associations are identified in literature <TextLink reference="19"></TextLink>. The ability of decisions to mirror these expectations, especially within related assessment domains&#47;criteria and less-so across unrelated domains&#47;criteria enhances the validity of the decisions. </Pgraph><Pgraph>Multiple confounders, including the examiner, the examination site and the stations at which the student was examined may have an impact.  Each of these is discussed below.  </Pgraph><Pgraph>The UNSW Medicine Faculty uses various organisational strategies to mitigate judgement biases and avoid the occurrence of judgement errors. For the UNSW OSCEs, examiners are randomly selected and allocated to different examination sites. Assessors are rotated between different sites and external assessors are used <TextLink reference="24"></TextLink>. Through this process, it is highly unlikely that the same student will be assessed by the same examiner in successive years. </Pgraph><Pgraph>UNSW data demonstrates that there is no significant difference in OSCE performance between different examination sites <TextLink reference="24"></TextLink>. Furthermore, students are randomly allocated to an examination site for each OSCE, thus will not necessarily be assessed at the same site in consecutive years. </Pgraph><Pgraph>The phase 1 and phase 2 OSCEs are designed to satisfy different syllabi and assess different skills <TextLink reference="21"></TextLink>. The OSCE stations at which the student is assessed will not be testing the same skill or clinical knowledge. Therefore, the station at which a student is assessed in the initial OSCE will not alter the association between initial decisions and subsequent OSCE marks. Additionally, ANOVA results establish that there is no significant association between the phase 1 station and phase 2 examination marks for any assessment domain&#47;criterion.  </Pgraph><Pgraph>After excluding each of these variables (examiner, examination site and examination stations), it is evident that most of the predictive nature is related to the decisions.</Pgraph><Pgraph>This provides support for decisions to reclassify borderline grades to clear pass or clear fail grades. The validity of decisions has been asserted through a series of robust statistical tests. In conjunction with previous studies, this report provides further support for the validity of these decisions <TextLink reference="7"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="17"></TextLink>. Consequently, these decisions resolve examiner uncertainty surrounding borderline scores. This may further increase the objectivity of pass&#47;fail reclassification of borderline marks.</Pgraph><Pgraph>An important limitation is that the study used data from only one cohort of decisions at one university. The study would gain strength and reliability if the same tests were conducted for consecutive years&#8217; OSCE data from different cohorts and across different universities; as well as repetition on this cohort after completion of the third OSCE of the program, or comparison of the OBM2 to other standard setting methods, all of which may be explored in future studies.  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="6. Diskussion">
      <MainHeadline>6. Diskussion</MainHeadline><Pgraph>Entscheidungen in der ersten Pr&#252;fung weisen einen pr&#228;diktiven Zusammenhang auf, wenn sie f&#252;r nachfolgende Pr&#252;fungen innerhalb einer Kohorte angewendet werden. Diese Vorhersagevalidit&#228;t ist h&#246;her, wenn die Bewertungsdom&#228;nen der ersten Pr&#252;fung mit den Bewertungskriterien der nachfolgenden Pr&#252;fung verwandt sind, als wenn die Dom&#228;nen&#47;Kriterien weniger verwandt sind (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>; siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> und Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). </Pgraph><Pgraph>Ein signifikanter Zusammenhang zwischen Entscheidungen in der ersten Pr&#252;fung und Noten in der nachfolgenden Pr&#252;fung besteht f&#252;r die Entscheidungen in der ersten Pr&#252;fung in den Dom&#228;nen &#8222;allgemeine Kommunikation&#8220; und &#8222;klinische Kommunikation&#8220; und die Noten in der nachfolgenden Pr&#252;fung in der Dom&#228;ne &#8222;Vorgeschichte&#8220; (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>; siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, Feld b; siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>, Felder 2a&#8211;2b). Demgegen&#252;ber besteht f&#252;r Entscheidungen in der ersten Pr&#252;fung in der Dom&#228;ne &#8222;k&#246;rperliche Untersuchung&#8220; kein signifikanter Zusammenhang mit den Noten in der nachfolgenden Pr&#252;fung in der Dom&#228;ne &#8222;Vorgeschichte&#8220; (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>; siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, Feld b; siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>, Feld 2c). Dies ergibt Sinn, da in diesen Dom&#228;nen unterschiedliche, in den Dom&#228;nen &#8222;Kommunikation&#8220; und &#8222;Vorgeschichte&#8220; jedoch &#228;hnliche F&#228;higkeiten bewertet werden.</Pgraph><Pgraph>Auch wenn alle drei Bewertungsdom&#228;nen der ersten Pr&#252;fung in signifikantem Zusammenhang zu den in der nachfolgenden Pr&#252;fung in der Dom&#228;ne &#8222;Kommunikation&#8220; erhaltenen Noten steht, sind die Entscheidungen in der ersten Pr&#252;fung in den Dom&#228;nen &#8222;allgemeine Kommunikation&#8220; und &#8222;klinische Kommunikation&#8220; wesentlich st&#228;rkere Pr&#228;diktoren als Entscheidungen in der ersten Pr&#252;fung in der Dom&#228;ne &#8222;k&#246;rperliche Untersuchung&#8220; (Cohens d&#61;0,725, 0,691 bzw. 0,388; siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>; siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, Feld c; siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>, Felder 3a&#8211;3c). Dies zeigt, dass, auch wenn der pr&#228;diktive Zusammenhang bei den meisten Dom&#228;nen besteht, er jedoch bei verwandten Dom&#228;nen am st&#228;rksten ist. </Pgraph><Pgraph>Aufgrund der in den OSCE-Pr&#252;fungen der zweiten Phase erforderlichen Fallspezifit&#228;t ist f&#252;r die Fallinterpretation sowohl eine kompetente Leistung innerhalb einer Station, um die relevanten Informationen zu eruieren, als auch grundlegendes klinisches Wissen, um Fallergebnisse zu erhalten und sie intelligent zu interpretieren, notwendig. Dies zeigt die hohe Effektst&#228;rke in Zusammenhang mit den Noten in der nachfolgenden OSCE-Pr&#252;fung in den Dom&#228;nen &#8222;Fallinterpretation&#8220; und &#8222;Fallzusammenfassung&#8220; (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Die medizinische Fakult&#228;t der UNSW hat festgelegt, dass eine gute Fallzusammenfassung auf mehreren in der OSCE-Pr&#252;fung der zweiten Phase bewerteten Faktoren beruht, einschlie&#223;lich klarer&#47;pr&#228;ziser allgemeiner Kommunikation, angemessener klinischer Fachsprache, Identifikation signifikanter Fallergebnisse und Aufzeigen von Differenzialdiagnosen <TextLink reference="21"></TextLink>. </Pgraph><Pgraph>Unver&#228;nderte Noten (Grenznoten) sind alle identisch und werden anhand der OBM2-basierten Entscheidung neu eingestuft. Ein pr&#228;diktiver Zusammenhang ist nur zu erwarten, wenn diese Entscheidungen valide sind. Wiederkehrende signifikante Zusammenh&#228;nge bei verschiedenen Bewertungsdom&#228;nen&#47;-kriterien (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>) deuten darauf hin, dass diese Voraussagbarkeit kein zuf&#228;lliges Ereignis ist. Zwischen den neueingestuften Noten und den zuk&#252;nftigen Noten besteht ein pr&#228;diktiver Zusammenhang; derartige pr&#228;diktive Zusammenh&#228;nge sind auch in der Literatur zu finden <TextLink reference="19"></TextLink>. Da die Entscheidungen diese Erwartungen widerspiegeln, vor allem bei verwandten Bewertungsdom&#228;nen&#47;-kriterien und weniger bei weniger verwandten Bewertungsdom&#228;nen&#47;-kriterien, erh&#246;ht sich die Validit&#228;t der Entscheidungen. </Pgraph><Pgraph>St&#246;rgr&#246;&#223;en wie der Pr&#252;fer, der Pr&#252;fungsstandort und die Stationen, an denen der Student gepr&#252;ft wird, k&#246;nnen Einfluss nehmen.  Jede dieser St&#246;rgr&#246;&#223;en wird im Folgenden besprochen.  </Pgraph><Pgraph>An der medizinischen Fakult&#228;t der UNSW werden verschiedene Organisationsstrategien angewendet, um Urteilsverzerrungen zu minimieren und Urteilsfehler zu vermeiden. F&#252;r die an der UNSW durchgef&#252;hrten OSCE-Pr&#252;fungen werden die Pr&#252;fer zuf&#228;llig ausgew&#228;hlt und den Pr&#252;fungsstandorten zugeteilt. Die Gutachter rotieren zwischen den verschiedenen Standorten, und es kommen externe Gutachter zum Einsatz <TextLink reference="24"></TextLink>. Dadurch ist es h&#246;chst unwahrscheinlich, dass ein Student in beiden aufeinanderfolgenden Jahren vom selben Pr&#252;fer bewertet wird. </Pgraph><Pgraph>Daten der UNSW zeigen, dass es keinen signifikanten Unterschied bei der Leistung in den OSCE-Pr&#252;fungen zwischen den verschiedenen Pr&#252;fungsstandorten gibt <TextLink reference="24"></TextLink>. Weiterhin werden die Studenten bei jeder OSCE-Pr&#252;fung den Pr&#252;fungsstandorten zuf&#228;llig zugeteilt. Daher werden sie in den aufeinanderfolgenden Jahren nicht zwangsl&#228;ufig am selben Standort gepr&#252;ft. </Pgraph><Pgraph>Die OSCE-Pr&#252;fungen der ersten und zweiten Phase sind so konzipiert, dass sie verschiedenen Studienpl&#228;nen gerecht werden und verschiedene F&#228;higkeiten bewertet werden <TextLink reference="21"></TextLink>. An den OSCE-Stationen, an denen die Studenten bewertet werden, wird nicht dieselbe F&#228;higkeit oder dasselbe Wissen gepr&#252;ft. Daher wird durch die Stationen, an denen die Studenten in der ersten OSCE-Pr&#252;fung bewertet werden, der Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung und den Noten in der nachfolgenden OSCE-Pr&#252;fung nicht ver&#228;ndert. Zus&#228;tzlich zeigen die Ergebnisse der ANOVA, dass bei keinen Bewertungsdom&#228;nen&#47;-kriterien ein signifikanter Zusammenhang zwischen der Station in der ersten Phase und den Pr&#252;fungsnoten in der zweiten Phase besteht.  </Pgraph><Pgraph>Nach Ausschluss dieser Variablen (Pr&#252;fer, Pr&#252;fungsstandort und Pr&#252;fungsstationen) ist es evident, dass der Gro&#223;teil der pr&#228;diktiven Natur mit den Entscheidungen in Zusammenhang steht.</Pgraph><Pgraph>Dies st&#252;tzt die Entscheidungen zur Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten. Die Validit&#228;t der Entscheidungen wurde durch eine Reihe robuster statistischer Tests festgestellt. Dieser Bericht st&#252;tzt zusammen mit fr&#252;heren Studien die Validit&#228;t dieser Entscheidungen <TextLink reference="7"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="17"></TextLink>. Somit beseitigen diese Entscheidungen Unsicherheiten der Pr&#252;fer bei Grenzpunktzahlen. Dadurch kann die Objektivit&#228;t bei der Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten erh&#246;ht werden.</Pgraph><Pgraph>Eine Einschr&#228;nkung der Studie besteht darin, dass Daten nur einer Kohorte von Entscheidungen an einer Universit&#228;t verwendet wurden. Die Bedeutung und die Reliabilit&#228;t der Studie k&#246;nnten verbessert werden, indem dieselben Tests f&#252;r OSCE-Daten aufeinanderfolgender Jahre von verschiedenen Kohorten und an verschiedenen Universit&#228;ten durchgef&#252;hrt w&#252;rden, eine Wiederholung f&#252;r diese Kohorte nach der dritten OSCE-Pr&#252;fung des Programms durchgef&#252;hrt w&#252;rde oder die OBM2 mit anderen Standard-Setting-Verfahren verglichen w&#252;rde. All dies kann in zuk&#252;nftigen Studien untersucht werden.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="7. Conclusion">
      <MainHeadline>7. Conclusion</MainHeadline><Pgraph>Decisions have previously been shown to be effective, reliable, defensible and feasible. Previous studies have also suggested that decisions have acceptable validity. This is the first study to demonstrate the predictive validity of decisions, thus further supporting the validity of the decisions. These results may enhance examiners&#8217; confidence when making high-stakes decisions to reclassify borderline grades.  </Pgraph><Pgraph>Further research may establish the OBM2&#8217;s unknown limitations. A similar validation study could be repeated when phase 3 OSCE data is available for this cohort (year 2020), to determine whether similar predictive validity is maintained when tested across a third consecutive exam. Furthermore, the OBM2 could be tested within different settings and different examination styles.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="7. Schlussfolgerung">
      <MainHeadline>7. Schlussfolgerung</MainHeadline><Pgraph>Es konnte bereits gezeigt werden, dass die Entscheidungen effizient, reliabel, belastbar und praktikabel sind. Weiterhin konnte in fr&#252;heren Studien gezeigt werden, dass die Entscheidungen eine akzeptable Validit&#228;t aufweisen. Die vorliegende Studie ist die erste Studie, die die Vorhersagevalidit&#228;t der Entscheidungen zeigt und so die Validit&#228;t der Entscheidungen zus&#228;tzlich st&#252;tzt. Diese Ergebnisse k&#246;nnen das Vertrauen der Pr&#252;fer bei folgenreichen Entscheidungen zur Neueinstufung von Grenznoten st&#228;rken.  </Pgraph><Pgraph>In weiteren Untersuchungen k&#246;nnen die bisher unbekannten Grenzen der OBM2 herausgestellt werden. Eine &#228;hnliche Validierungsstudie kann durchgef&#252;hrt werden, wenn die Daten der OSCE-Pr&#252;fung der dritten Phase f&#252;r diese Kohorte verf&#252;gbar sind (im Jahr 2020), um zu untersuchen, ob die Vorhersagevalidit&#228;t auch bei einer dritten nachfolgenden Pr&#252;fung &#228;hnlich ist. Weiterhin kann die OBM2 innerhalb verschiedener Kontexte und f&#252;r verschiedene Pr&#252;fungsformen getestet werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autor&#42;innen erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Rendel S</RefAuthor>
        <RefAuthor>Foreman P</RefAuthor>
        <RefAuthor>Freeman A</RefAuthor>
        <RefTitle>Licensing exams and judicial review: the closing of one door and opening of others&#63;</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Br J Gen Pract</RefJournal>
        <RefPage>8-9</RefPage>
        <RefTotal>Rendel S, Foreman P, Freeman A. Licensing exams and judicial review: the closing of one door and opening of others&#63; Br J Gen Pract. 2015;65(630):8-9. DOI: 10.3399&#47;bjgp15X683029</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3399&#47;bjgp15X683029</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Richard H</RefAuthor>
        <RefAuthor>Sen GT</RefAuthor>
        <RefAuthor>Jan V</RefAuthor>
        <RefTitle>The practical value of the standard error of measurement in borderline pass&#47;fail decisions</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>810-815</RefPage>
        <RefTotal>Richard H, Sen GT, Jan V. The practical value of the standard error of measurement in borderline pass&#47;fail decisions. Med Educ. 2008;42(8):810-815. DOI: 10.1111&#47;j.1365-2923.2008.03103.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2008.03103.x</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Yudkowsky R</RefAuthor>
        <RefAuthor>Tumuluru S</RefAuthor>
        <RefAuthor>Casey P</RefAuthor>
        <RefAuthor>Herlich N</RefAuthor>
        <RefAuthor>Ledonne C</RefAuthor>
        <RefTitle>A Patient Safety Approach to Setting Pass&#47;Fail Standards for Basic Procedural Skills Checklists</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Simul Healthc</RefJournal>
        <RefPage>277-282</RefPage>
        <RefTotal>Yudkowsky R, Tumuluru S, Casey P, Herlich N, Ledonne C. A Patient Safety Approach to Setting Pass&#47;Fail Standards for Basic Procedural Skills Checklists. Simul Healthc. 2014;9(5):277-282. DOI: 10.1097&#47;SIH.0000000000000044</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;SIH.0000000000000044</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Cizek GJ</RefAuthor>
        <RefAuthor>Bunch MB</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Standard setting: A guide to establishing and evaluating performance standards on tests</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Cizek GJ, Bunch MB. Standard setting: A guide to establishing and evaluating performance standards on tests. Thousand Oaks (CA): SAGE Publications Ltd; 2006.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Ben-David MF</RefAuthor>
        <RefTitle>AMEE Guide No. 18: Standard setting in student assessment</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>120-130</RefPage>
        <RefTotal>Ben-David MF. AMEE Guide No. 18: Standard setting in student assessment. Med Teach. 2000;22(2):120-130. DOI: 10.1080&#47;01421590078526</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;01421590078526</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Phillips G</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1996</RefYear>
        <RefBookTitle>Technical Issues in Large-Scale Performance Assessment</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Phillips G. Technical Issues in Large-Scale Performance Assessment. Washington: U.S. Department of Education; 1996.</RefTotal>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Coombes L</RefAuthor>
        <RefAuthor>Damodaran A</RefAuthor>
        <RefAuthor>Freeman A</RefAuthor>
        <RefAuthor>Jones P</RefAuthor>
        <RefAuthor>Lieberman S</RefAuthor>
        <RefAuthor>Poole P</RefAuthor>
        <RefAuthor>Rhee J</RefAuthor>
        <RefAuthor>Wilkinson T</RefAuthor>
        <RefAuthor>Harris P</RefAuthor>
        <RefTitle>Cut-scores revisited: feasibility of a new method for group standard setting</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>126</RefPage>
        <RefTotal>Shulruf B, Coombes L, Damodaran A, Freeman A, Jones P, Lieberman S, Poole P, Rhee J, Wilkinson T, Harris P. Cut-scores revisited: feasibility of a new method for group standard setting. BMC Med Educ. 2018;18(1):126. DOI: 10.1186&#47;s12909-018-1238-7</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-018-1238-7</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Wilkinson T</RefAuthor>
        <RefAuthor>Weller J</RefAuthor>
        <RefAuthor>Jones P</RefAuthor>
        <RefAuthor>Poole P</RefAuthor>
        <RefTitle>Insights into the Angoff method: results from a simulation study</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>134</RefPage>
        <RefTotal>Shulruf B, Wilkinson T, Weller J, Jones P, Poole P. Insights into the Angoff method: results from a simulation study. BMC Med Educ. 2016;16:134. DOI: 10.1186&#47;s12909-016-0656-7</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-016-0656-7</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Hurtz GM</RefAuthor>
        <RefAuthor>Hertz NR</RefAuthor>
        <RefTitle>How Many Raters Should be Used for Establishing Cutoff Scores with the Angoff Method&#63; A Generalizability Theory Study</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Educ Psychol Measurement</RefJournal>
        <RefPage>885-897</RefPage>
        <RefTotal>Hurtz GM, Hertz NR. How Many Raters Should be Used for Establishing Cutoff Scores with the Angoff Method&#63; A Generalizability Theory Study. Educ Psychol Measurement. 1999;59(6):885-897. DOI: 10.1177&#47;00131649921970233</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;00131649921970233</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Turner R</RefAuthor>
        <RefAuthor>Poole P</RefAuthor>
        <RefAuthor>Wilkinson T</RefAuthor>
        <RefTitle>The Objective Borderline method (OBM): a probability-based model for setting up an objective pass&#47;fail cut-off score for borderline grades in medical education programmes</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>231-144</RefPage>
        <RefTotal>Shulruf B, Turner R, Poole P, Wilkinson T. The Objective Borderline method (OBM): a probability-based model for setting up an objective pass&#47;fail cut-off score for borderline grades in medical education programmes. Adv Health Sci Educ Theory Pract. 2013;18(2):231-144. DOI: 10.1007&#47;s10459-012-9367-y</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-012-9367-y</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Wood T</RefAuthor>
        <RefAuthor>Humphrey-Murto S</RefAuthor>
        <RefAuthor>Norman G</RefAuthor>
        <RefTitle>Standard Setting in a Small Scale OSCE: A Comparison of the Modified Borderline-Group Method and the Borderline Regression Method</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>115-122</RefPage>
        <RefTotal>Wood T, Humphrey-Murto S, Norman G. Standard Setting in a Small Scale OSCE: A Comparison of the Modified Borderline-Group Method and the Borderline Regression Method. Adv Health Sci Educ Theory Pract. 2006;11(2):115-122. DOI: 10.1007&#47;s10459-005-7853-1</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-005-7853-1</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Behuniak P</RefAuthor>
        <RefAuthor>Archambault F</RefAuthor>
        <RefAuthor>Gable R</RefAuthor>
        <RefTitle>Angoff and Nedelsky Standard Setting Procedures: Implications for the Validity of Proficiency Test Score Interpretation</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>Educ Psychol Measurement</RefJournal>
        <RefPage>247-255</RefPage>
        <RefTotal>Behuniak P, Archambault F, Gable R. Angoff and Nedelsky Standard Setting Procedures: Implications for the Validity of Proficiency Test Score Interpretation. Educ Psychol Measurement. 1982;42(1):247-255. DOI: 10.1177&#47;0013164482421031</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;0013164482421031</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Poggio JP</RefAuthor>
        <RefTitle>An Empirical Investigation of the Angoff, Ebel and Nedelsky Standard Setting Methods</RefTitle>
        <RefYear>1981</RefYear>
        <RefBookTitle>65th Annual Meeting of the American Educational Research Association; 1981 Apr 13-17; Los Angeles, CA, United States</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Poggio JP. An Empirical Investigation of the Angoff, Ebel and Nedelsky Standard Setting Methods. In: 65th Annual Meeting of the American Educational Research Association; 1981 Apr 13-17; Los Angeles, CA, United States. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;eric.ed.gov&#47;&#63;id&#61;ED205552</RefTotal>
        <RefLink>https:&#47;&#47;eric.ed.gov&#47;&#63;id&#61;ED205552</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Poole P</RefAuthor>
        <RefAuthor>Jones P</RefAuthor>
        <RefAuthor>Wilkinson T</RefAuthor>
        <RefTitle>The Objective Borderline Method: a probabilistic method for standard setting</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Ass Eval High Educ</RefJournal>
        <RefPage>420-438</RefPage>
        <RefTotal>Shulruf B, Poole P, Jones P, Wilkinson T. The Objective Borderline Method: a probabilistic method for standard setting. Ass Eval High Educ. 2015;40(3):420-438. DOI: 10.1080&#47;02602938.2014.918088</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;02602938.2014.918088</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Adelstein BA</RefAuthor>
        <RefAuthor>Damodaran A</RefAuthor>
        <RefAuthor>Harris P</RefAuthor>
        <RefAuthor>Kennedy S</RefAuthor>
        <RefAuthor>O&#39;Sullivan A</RefAuthor>
        <RefAuthor>Taylor S</RefAuthor>
        <RefTitle>Borderline grades in high stakes clinical examinations: resolving examiner uncertainty</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>272</RefPage>
        <RefTotal>Shulruf B, Adelstein BA, Damodaran A, Harris P, Kennedy S, O&#39;Sullivan A, Taylor S. Borderline grades in high stakes clinical examinations: resolving examiner uncertainty. BMC Med Educ. 2018;18(1):272. DOI: 10.1186&#47;s12909-018-1382-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-018-1382-0</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Damodaran A</RefAuthor>
        <RefAuthor>Jones P</RefAuthor>
        <RefAuthor>Kennedy S</RefAuthor>
        <RefAuthor>Mangos G</RefAuthor>
        <RefAuthor>O&#39;Sullivan A</RefAuthor>
        <RefAuthor>Rhee J</RefAuthor>
        <RefAuthor>Tayler S</RefAuthor>
        <RefAuthor>Velan G</RefAuthor>
        <RefAuthor>Harris P</RefAuthor>
        <RefTitle>Enhancing the defensibility of examiners&#39; marks in high stake OSCEs</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>10</RefPage>
        <RefTotal>Shulruf B, Damodaran A, Jones P, Kennedy S, Mangos G, O&#39;Sullivan A, Rhee J, Tayler S, Velan G, Harris P. Enhancing the defensibility of examiners&#39; marks in high stake OSCEs. BMC Med Educ. 2018;18(1):10. DOI: 10.1186&#47;s12909-017-1112-z</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-017-1112-z</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Booth R</RefAuthor>
        <RefAuthor>Baker H</RefAuthor>
        <RefAuthor>Bagg W</RefAuthor>
        <RefAuthor>Barrow M</RefAuthor>
        <RefTitle>Using the Objective Borderline Method (OBM) to support Board of Examiners&#39; decisions in a medical programme</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>J Furth High Educ</RefJournal>
        <RefPage>425-434</RefPage>
        <RefTotal>Shulruf B, Booth R, Baker H, Bagg W, Barrow M. Using the Objective Borderline Method (OBM) to support Board of Examiners&#39; decisions in a medical programme. J Furth High Educ. 2017;41(3):425-434. DOI: 10.1080&#47;0309877X.2015.1117603</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;0309877X.2015.1117603</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Garson D</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>Validity and Reliabiity</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Garson D. Validity and Reliabiity. North Carolina: Statistical Publishing Associates; 2016.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Poole P</RefAuthor>
        <RefAuthor>Shulruf B</RefAuthor>
        <RefAuthor>Rudland J</RefAuthor>
        <RefAuthor>Wilkinson T</RefAuthor>
        <RefTitle>Comparison of UMAT scores and GPA in prediction of performance in medical school: a national study</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>163-171</RefPage>
        <RefTotal>Poole P, Shulruf B, Rudland J, Wilkinson T. Comparison of UMAT scores and GPA in prediction of performance in medical school: a national study. Med Educ. 2012;46(2):163-171. DOI: 10.1111&#47;j.1365-2923.2011.04078.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2011.04078.x</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>University of New South Wales</RefAuthor>
        <RefAuthor>Faculty of Medicine</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Phase 1 &#47; Graduate Entry Clinical Skills Student Guide 2018</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>University of New South Wales, Faculty of Medicine. Phase 1 &#47; Graduate Entry Clinical Skills Student Guide 2018. Kensington: The University of New South Wales; 2018.</RefTotal>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>University of New South Wales</RefAuthor>
        <RefAuthor>Faculty of Medicine</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Phase 2 Clinical SKills Guide 2018</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>University of New South Wales, Faculty of Medicine. Phase 2 Clinical SKills Guide 2018. Kensington: The University of New South Wales; 2018.</RefTotal>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>IBM Corporation</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>IBM SPSS Statistics for Windows</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>IBM Corporation. IBM SPSS Statistics for Windows. 24 ed. Armonk, NY: IBM Corporation; 2016.</RefTotal>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Wilson D</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Practical Meta-Analysis Effect Size Calculator</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Wilson D. Practical Meta-Analysis Effect Size Calculator. Fairfax: George Mason University; 2018.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Medical School Accreditation Committee</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Accreditation of University of New South Wales Faculty of Medicine</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Medical School Accreditation Committee. Accreditation of University of New South Wales Faculty of Medicine. Kingston: Australia Medical Council Limited; 2018.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Subsequent Overall Assessment Criteria Generated by Clinical Experts</Mark1> </Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Von klinischen Experten erstellte Gesamtbewertungskriterien f&#252;r die nachfolgende Pr&#252;fung </Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Independent Samples T-Test for the Association between Initial Decisions per Assessment Domain and Subsequent OSCE Marks per Assessment Criterion</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: t-Test f&#252;r unabh&#228;ngige Stichproben f&#252;r den Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung pro Bewertungsdom&#228;ne und den in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten pro Bewertungskriterium</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="614" width="1148">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: The Association between Initial Decisions per Assessment Domain and Subsequent OSCE Marks per Assessment Criterion</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Der Zusammenhang zwischen den Entscheidungen in der ersten Pr&#252;fung pro Bewertungsdom&#228;ne und den in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten pro Bewertungskriterium </Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="818" width="734">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: The Predictive Value of an Initial Decision per Assessment Domain for Subsequent OSCE Marks per Assessment Criterion by Station</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Der Vorhersagewert einer Entscheidung in der ersten Pr&#252;fung pro Bewertungsdom&#228;ne f&#252;r in der nachfolgenden OSCE-Pr&#252;fung erhaltenen Noten pro Bewertungskriterium</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>2</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>