<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle>
  <MetaData>
    <Identifier>zma000827</Identifier>
    <IdentifierDoi>10.3205/zma000827</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0008277</IdentifierUrn>
    <ArticleType language="de">Forschungsarbeit</ArticleType>
    <ArticleType language="en">research article</ArticleType>
    <TitleGroup>
      <Title language="de">Vergleich kollegialer Einzel- mit Gruppen-Reviews allgemeinmedizinischer Multiple-Choice-Fragen</Title>
      <TitleTranslated language="en">Comparison of Collegial Individual and Group Reviews of General Practice Multiple Choice Questions</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>B&#246;hme</Lastname>
          <LastnameHeading>B&#246;hme</LastnameHeading>
          <Firstname>Klaus</Firstname>
          <Initials>K</Initials>
          <AcademicTitle>Dr.</AcademicTitle>
        </PersonNames>
        <Address language="de">Universit&#228;tsklinik Freiburg, Lehrbereich Allgemeinmedizin, Els&#228;sserstra&#223;e 2m, 79110 Freiburg, Deutschland, Tel.: &#43;49 (0)761&#47;270-27460, Fax.:  &#43;49 (0)761&#47;270-27480<Affiliation>Universit&#228;tsklinik Freiburg, Lehrbereich Allgemeinmedizin, Freiburg, Deutschland</Affiliation></Address>
        <Address language="en">University Hospital Freiburg, School of General Practice, Els&#228;sserstra&#223;e 2m, 79110 Freiburg, Germany, Phone: &#43;49 (0)761&#47;270-27460, Fax: &#43;49 (0)761&#47;270-27480<Affiliation>University Hospital Freiburg, School of General Practice, Freiburg, Germany</Affiliation></Address>
        <Email>klaus.boehme&#64;uniklinik-freiburg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Schelling</Lastname>
          <LastnameHeading>Schelling</LastnameHeading>
          <Firstname>J&#246;rg</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>LMU M&#252;nchen, Lehrbereich Allgemeinmedizin, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>LMU M&#252;nchen, School of General Practice, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Streitlein-B&#246;hme</Lastname>
          <LastnameHeading>Streitlein-B&#246;hme</LastnameHeading>
          <Firstname>Irmgard</Firstname>
          <Initials>I</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Universit&#228;t Freiburg, Medizinische Fakult&#228;t, Studiendekanat, Freiburg, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>University of Freiburg, Medical Faculty, Dean of Studies Office, Freiburg, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Glassen</Lastname>
          <LastnameHeading>Glassen</LastnameHeading>
          <Firstname>Katharina</Firstname>
          <Initials>K</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Universit&#228;tsklinikum Heidelberg, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>University Hospital Heidelberg, Department for General Pracitce and Health Services&#39; Research, Heidelberg, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Sch&#252;bel</Lastname>
          <LastnameHeading>Sch&#252;bel</LastnameHeading>
          <Firstname>Jeannine</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Uniklinikum Dresden, Carus Hausarztpraxis, Dresden, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>University Hospital Dresden, Carus GP Surgery, Dresden, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>J&#252;nger</Lastname>
          <LastnameHeading>J&#252;nger</LastnameHeading>
          <Firstname>Jana</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Address language="en">
          <Affiliation>University of Heidelberg, Competence Centre for Medical Exams, Heidelberg, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">Medical Educatio</Keyword>
      <Keyword language="en">assessment</Keyword>
      <Keyword language="en">Multiple-Choice-Questions</Keyword>
      <Keyword language="en">Review</Keyword>
      <Keyword language="de">Medizinische Ausbildung</Keyword>
      <Keyword language="de">Pr&#252;fung</Keyword>
      <Keyword language="de">Multiple-Choice-Fragen</Keyword>
      <Keyword language="de">Review</Keyword>
      <SectionHeading language="en">medicine</SectionHeading>
      <SectionHeading language="de">Humanmedizin</SectionHeading>
    </SubjectGroup>
    <DateReceived>20110715</DateReceived>
    <DateRevised>20120330</DateRevised>
    <DateAccepted>20120403</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20120808</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <LanguageTranslation>engl</LanguageTranslation>
    <SourceGroup>
      <Journal>
        <ISSN>1860-3572</ISSN>
        <Volume>29</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Zeitschrift f&#252;r Medizinische Ausbildung</JournalTitle>
        <JournalTitleAbbr>GMS Z Med Ausbild</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>57</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Zielsetzung:</Mark1> Im Fach Allgemeinmedizin werden die obligat zu benotenden Leistungsnachweise an vielen Hochschulstandorten &#252;ber Klausuren mit Multiple-Choice-Fragen (MCF) erbracht. Zur Qualit&#228;tssicherung bietet sich u.a. ein Peer-Review-Verfahren der eingesetzten MCF an. F&#252;r die optimale Effektivit&#228;t und Effizienz solcher zeit- und personalintensiven Peer-Reviews ist nicht zuletzt die Verfahrensweise von Bedeutung. Ziel der Studie war es zu untersuchen, ob sich Einzel- von Gruppen-Reviews hinsichtlich definierter Parameter unterscheiden. </Pgraph><Pgraph><Mark1>Methodik:</Mark1> In einer kontrollierten Studie mit cross-over Design, durchgef&#252;hrt mit je drei allgemeinmedizinischen Reviewern vier verschiedener deutscher Hochschulstandorte, wurden die Beurteilungen der Reviewer von 80 MCF (f&#252;r jeden Teilnehmer jeweils 40 im Einzel-, 40 im Gruppen-Review) mit externen Beurteilungen durch ein Expertengremium und untereinander verglichen. Daneben wurden &#252;ber Frageb&#246;gen subjektive Einsch&#228;tzungen der Studienteilnehmer zum Review und der Zeitaufwand erfasst.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Statistisch signifikante Unterschiede in der Validit&#228;t und Reliabilit&#228;t fanden sich zwischen Einzel- und Gruppen-Review nicht. Der Zeitaufwand f&#252;r die Gruppen-Reviews lag im Mittel etwas h&#246;her als f&#252;r die Einzel-Reviews. Die subjektiven Einsch&#228;tzungen der Studienteilnehmer zur Zufriedenheit mit dem Review-Prozess, der Effektivit&#228;t und Wichtigkeit der Reviews lassen auf eine Pr&#228;ferenz f&#252;r den Gruppen-Review schlie&#223;en.</Pgraph><Pgraph><Mark1>Schlussfolgerungen:</Mark1> Eindeutige Empfehlungen f&#252;r oder gegen die Durchf&#252;hrung eines der beiden Review-Verfahren lassen sich aufgrund der Studienergebnisse nicht abgeben. Die spezifische Arbeitsstruktur und    &#8211;organisation sowie die Pr&#228;ferenzen der Mitarbeiter an den einzelnen Hochschulstandorten sollten bei der Wahl des Verfahrens ber&#252;cksichtigt werden.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Aims:</Mark1> In most German medical faculties, credits in general practice can be earned via exams using multiple-choice questions (MCQ). Measures such as peer-reviews may help assure the quality of these exams. In order to use time and personnel intensive peer reviews effectively and efficiently, the procedures used are key. Therefore, we wanted to find out whether there are differences between group and individual reviews regarding defined parameters.</Pgraph><Pgraph><Mark1>Methods: </Mark1>We conducted a controlled cross-over study with three GP reviewers from four different German universities. Each reviewed 80 MCQs, 40 individually and 40 within a group, including external assessments by a panel of experts. Furthermore all reviewers were asked to evaluate the review process and the time spent carrying out these reviews.</Pgraph><Pgraph><Mark1>Outcomes:</Mark1> We found no significant differences between the reliability and the validity of individual reviews versus group reviews. On average slightly more time was spent on group reviews compared with the individual reviews. The subjective assessments of the study participants regarding their satisfaction with the process and the efficiency and effectiveness of the reviews suggest a preference for group reviews.</Pgraph><Pgraph><Mark1>Conclusions: </Mark1>Based on this study, there are no definite recommendations for or against either approach. When choosing between the two, the specific work structures and organisation at the local faculty should be taken into account.</Pgraph></Abstract>
    <TextBlock language="de" linked="yes" name="Einleitung und Fragestellung">
      <MainHeadline>Einleitung und Fragestellung</MainHeadline><Pgraph>Die Approbationsordnung von 2002 <TextLink reference="1"></TextLink> brachte f&#252;r jedes Fach im klinischen Studienabschnitt Humanmedizin die Notwendigkeit mit sich, benotete Leistungsnachweise f&#252;r die Studierenden einzuf&#252;hren. Aus Gr&#252;nden der Praktikabilit&#228;t geschieht dies vielfach in Form von schriftlichen Pr&#252;fungen mit Multiple-Choice-Fragen (MCF), die sich durch eine zufriedenstellende Reliabilit&#228;t und Objektivit&#228;t auszeichnen <TextLink reference="2"></TextLink>. In der Literatur finden sich &#220;bersichten, die Regeln f&#252;r die Erstellung &#8222;guter&#8220; MCF sowohl auf formaler wie auch auf inhaltlicher Ebene beschreiben <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. Bis heute sind an deutschen medizinischen Fakut&#228;ten viele Autoren von MC-Fragen nicht in der Anwendung dieser Regeln geschult, auch ein standardisierter Review-Prozess f&#252;r die zum Einsatz kommenden Fragen existiert vielfach nicht <TextLink reference="6"></TextLink>. Dementsprechend ist die Qualit&#228;t der sich im Einsatz befindlichen MCF zumindest nicht gesichert. </Pgraph><Pgraph>Zur Gew&#228;hrleistung eines angemessenen  Niveaus der eingesetzten MCF  bietet sich im Vorfeld neben Pr&#252;fer-Schulungen ein standardisiertes Peer-Review-Verfahren an. Das Spektrum denkbarer Review-Verfahren reicht von einem Einzel-Review zu beurteilender Fragen &#252;ber mehrere Einzel-Reviews bis hin zu moderierten oder nicht moderierten Gruppen-Reviews, &#8222;face-to-face&#8220; oder virtuell <TextLink reference="7"></TextLink>. </Pgraph><Pgraph>Optimale Effektivit&#228;t und Effizienz der recht zeit- und personalintensiven Peer-Reviews h&#228;ngen von verschiedenen Faktoren ab. Die Frage der Validit&#228;t und Reliabilit&#228;t der Beurteilungen spielt dabei eine zentrale Rolle. Will man die Motivation von Reviewern st&#228;rken, so sollten diese mit dem Review-Prozess zufrieden sein, ferner sollten sie von der Effektivit&#228;t wie auch von der Wichtigkeit desselben &#252;berzeugt sein. Einen weiteren bedeutenden Faktor stellt der Zeitaufwand dar. </Pgraph><Pgraph>Seit November 2008 greift der Lehrbereich Allgemeinmedizin der Universit&#228;t Freiburg bei der Erstellung von MC-Klausuren auf ein web-basiertes elektronisches Pr&#252;fungssystem, entwickelt im &#8222;Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg&#8220; der Universit&#228;t Heidelberg, zur&#252;ck. Der Fragen-Pool des Lehrbereiches Allgemeinmedizin ist in diesem &#8222;Item-Management-System&#8220; (IMS) hinterlegt und dient als Grundlage f&#252;r die Erstellung der Freiburger Klausuren. </Pgraph><Pgraph>Bundesweit greifen mittlerweile 15 Fakult&#228;ten auf das IMS als elektronische Hilfe bei der Erstellung und Auswertung von Klausuren zur&#252;ck. Vereinfacht das System die organisatorischen Abl&#228;ufe schon deutlich, liegt ein wohl noch bedeutenderer Mehrwert darin, theoretisch auf die Pr&#252;fungsfragen anderer Fakult&#228;ten zugreifen und f&#252;r die eigenen Klausuren verwenden zu k&#246;nnen. Ein solcher Zugriff setzt einerseits die Bereitschaft der einzelnen Standorte voraus, anderen Fakult&#228;ten ihre Fragen zur Verf&#252;gung zu stellen. Andererseits war mit allen Nutzern des Systems konsentiert, dass nur Fragen in einen &#8222;&#246;ffentlichen&#8220;, also anderen Nutzern zug&#228;nglichen Pool gestellt werden k&#246;nnen, die einen definierten  Review-Prozess durchlaufen haben. </Pgraph><Pgraph>Im Rahmen der hier vorgestellten Studie sollten anhand folgender konkreter Fragestellungen Einzel-Reviews mit nicht moderierten &#8222;face-to-face&#8220;- Gruppen-Reviews verglichen werden:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Gibt es Unterschiede von Einzel- und Gruppenreviews bei der (a) H&#228;ufigkeit festgestellter Fehler (&#220;bereinstimmung der Reviewformen: &#8222;Reliabilit&#228;t) und (b) im Vergleich zu einem Standard-Review ausgewiesener Experten (&#220;bereinstimmung mit Standard: &#8222;Validit&#228;t&#8220;)&#63;</ListItem><ListItem level="1">Beeinflusst das Review-Verfahren die Zufriedenheit der Reviewer mit dem Prozess, ihre Einsch&#228;tzung der Effektivit&#228;t und der Wichtigkeit des durchgef&#252;hrten Reviews&#63;</ListItem><ListItem level="1">Unterscheidet sich der Zeitaufwand f&#252;r die Durchf&#252;hrung von Einzel- bzw. Gruppen-Reviews&#63;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Introduction and objectives">
      <MainHeadline>Introduction and objectives</MainHeadline><Pgraph>The Medical Licensure Act of 2002 <TextLink reference="1"></TextLink> introduced the requirement for graded student performance records in each subject of the clinical study section in human medicine. For practical reasons, this is usually done in the form of written exams using multiple choice questions (MCQ), which are considered to be of satisfactory reliability and objectivity <TextLink reference="2"></TextLink>. The literature contains general rules for creating &#8220;good&#8221; MCQs, both regarding form and content <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. To date, many authors of MCQs have not been trained in the application of these rules at German medical schools and, in many cases, no standardised review process for the questions used exists either <TextLink reference="6"></TextLink>. Accordingly, there is no quality assurance of the MCQs in use.</Pgraph><Pgraph>To ensure an adequate standard of MCQs in use, a standardised peer-review process in addition to examiner training would appear suitable. The range of possible review process is wide, including individually reviewing questions or multiple individuals reviewing questions, moderated, un-moderated, face to face and virtual reviews <TextLink reference="7"></TextLink>.</Pgraph><Pgraph>Optimal effectiveness and efficiency of the peer reviews which are rather time and labour intensive depend on several factors. In this, the question of validity and reliability of the assessments play a central role. If one wants to strengthen the motivation of reviewers, they should be satisfied with the review process and they should be convinced of the effectiveness as well as the importance of it. Another important factor is the time required.</Pgraph><Pgraph>Since November 2008 the general medicine subject area at the University of Freiburg has been drawing upon a web-based digital exam system in the preparation of MC exams, developed by the &#8220;Centre of Excellence for Medical Exams in Baden-W&#252;rttemberg&#8221; at the University of Heidelberg. The pool of questions for the general medicine subject area is held in this item management system (IMS) and used as the basis for creating exams at Freiburg.</Pgraph><Pgraph>In Germany, 15 departments now rely on the IMS as a digital tool in the preparation and evaluation of exams. While the system already significantly simplifies the organisational processes, a much more vital added benefit is that, in theory, a faculty can draw upon the exam questions of other faculties and use them for their own exams. Such access on the one hand requires the willingness of each faculty to share their questions with other faculties. On the other hand all users of the system had agreed that questions can only be placed in the public pool which can be accessed by other users if they have gone through a defined review process.</Pgraph><Pgraph>In the context of this study, individual reviews were compared with un-moderated face-to-face group reviews to investigate the following:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Are there differences between individual and group reviews in (a) the frequency of errors found (consistency of review forms: reliability) and (b) compared to a standard review by designated experts (consistency with a standard: validity)&#63;</ListItem><ListItem level="1">Does the review process influence the satisfaction of the reviewers with the process, their assessment of the effectiveness and importance of the reviews carried out&#63;</ListItem><ListItem level="1">Is there a difference in the time required for implementing individual or group reviews&#63;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><SubHeadline>Stichprobe </SubHeadline><Pgraph>F&#252;r die Studie ausgew&#228;hlt wurden vier allgemeinmedizinische Abteilungen deutscher Hochschulen, die ihre Bereitschaft zur Studienteilnahme erkl&#228;rten: Dresden, Freiburg, Heidelberg und LMU M&#252;nchen, im Folgenden aus Gr&#252;nden der Anonymisierung in willk&#252;rlicher Reihung als Uni 1-4 bezeichnet. Jeder Standort stellte drei Mitarbeiter, die sich abteilungsintern mit dem Erstellen sowie dem Review von MCF befassen. </Pgraph><SubHeadline>Item-Stichprobe </SubHeadline><Pgraph>Aus dem Fragenpool des Lehrbereiches Allgemeinmedizin der Universit&#228;t Freiburg wurden f&#252;r die Studie zuf&#228;llig 2 x 40 MCF (Gruppe A und B) ausgew&#228;hlt. Es handelte sich hierbei ausnahmslos um sog. Typ A-Fragen (positive oder negative Einfachauswahl aus f&#252;nf Wahlantworten).</Pgraph><SubHeadline>Materialien und technische Voraussetzungen </SubHeadline><Pgraph>Es ist eine der Funktionalit&#228;ten des IMS, alle erfassten Pr&#252;fungsfragen online mittels eines zehn Kriterien umfassenden Bewertungsbogens (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>)  einem Review unterziehen zu k&#246;nnen<Superscript>1</Superscript>. Ein Eingabefeld f&#252;r Freitextkommentare erm&#246;glicht es, Kritikpunkte zu konkretisieren und gezielte Korrekturvorschl&#228;ge zu unterbreiten.</Pgraph><Pgraph>Beurteilungsgrundlage f&#252;r s&#228;mtliche Reviews der Studie stellte eine &#8222;Kurz-Anleitung zum Review von MC-Fragen&#8220; des Kompetenzzentrums dar, die wiederum auf einschl&#228;giger Literatur zu dieser Thematik beruht <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>F&#252;r die Erfassung der Zufriedenheit mit dem Review-Prozess, der Effektivit&#228;t des Prozesses sowie der subjektiven Einsch&#228;tzung der Wichtigkeit des Reviews wurde ein Kurzfragebogen erstellt. Die Antworten waren anzugeben auf einer 6-stufigen Likert-Skala (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Ferner wurden die offenen Fragen &#8222;Was<Mark2> hat mir bei  dem Review am besten gefallen&#63;</Mark2>&#8220; und <Mark2>&#8222;Womit hatte ich beim Review am meisten Probleme&#63;&#8220;</Mark2> gestellt.</Pgraph><SubHeadline>Durchf&#252;hrung </SubHeadline><Pgraph>In einem ersten Schritt wurde &#252;ber ein Experten-Review aller 80 MCF ein Vergleichsstandard f&#252;r die Beurteilungen der Studienteilnehmer geschaffen. Das vierk&#246;pfige Gremium mit entsprechender Expertise (MME, bzw. Mitarbeiter des Kompetenzzentrums), besetzt mit drei Fachvertretern und einem fachfremden Kollegen, unterzog im &#8222;Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg&#8220; alle 80 MCF, die in der Studie zur Anwendung kommen sollten, in einer Sitzung einem Gruppen-Review.</Pgraph><Pgraph>Allen Studienteilnehmern wurde die &#8222;Kurz-Anleitung zum Review von MC-Fragen&#8220; zur Verf&#252;gung gestellt, in der die Kriterien der Checkliste f&#252;r den Review (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>) erl&#228;utert wurden. Eine dar&#252;ber hinausgehende Schulung der Reviewer fand nicht statt. Entsprechend dem Studiendesign (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>) waren dann an jedem Standort von jedem der drei Reviewer 40 MCF im Einzel- und 40 MCF im Gruppen-Review zu beurteilen.</Pgraph><Pgraph>F&#252;r die Gruppen-Reviews vereinbarten die Studienteilnehmer Termine, an denen alle 40 MCF in einer Sitzung beurteilt wurden. Bei den Einzel-Reviews hatten die Reviewer die M&#246;glichkeit, sich die Zeit f&#252;r die Beurteilungen frei einzuteilen und beliebig zu fraktionieren. </Pgraph><Pgraph>Jeweils im Anschluss an den Einzel- bzw. Gruppen-Review waren die Studienteilnehmer angehalten, den o.a. Kurzfragebogen auszuf&#252;llen.</Pgraph><SubHeadline>Statistik </SubHeadline><Pgraph>&#220;ber ein Experten-Review der f&#252;r diese Studie zum Einsatz kommenden MCF wurde f&#252;r jede Frage eine Referenz-Beurteilung, ein &#8222;Gold-Standard&#8220; geschaffen. Mit dieser externen Referenz wurden die Beurteilungen innerhalb der Studie verglichen und so ihre Validit&#228;t (G&#252;ltigkeit) &#252;berpr&#252;ft. Die Reliabilit&#228;t (Zuverl&#228;ssigkeit) wurde durch den Vergleich der festgestellten M&#228;ngel an den vier verschiedenen Standorten &#252;berpr&#252;ft.</Pgraph><Pgraph>Die insgesamt 3200 Einzel-Beurteilungen der innerhalb der Studie durchgef&#252;hrten Reviews (80 MCF x 10 Beurteilungskriterien x 4 Standorte) wurden dichotomisiert nach 0&#61;keine Abweichung vom Experten-Review und 1&#61;Abweichung vom Experten-Review, bzw. nach 0&#61;kein Mangel und 1&#61;geringer oder gravierender Mangel und so einer statistischen Analyse unterzogen. Bei den Einzel-Reviews wurde der gerundete Mittelwert der drei einzelnen Beurteilungen zum Vergleich herangezogen.</Pgraph><Pgraph>Die Variablen &#8222;Zahl der Abweichungen vom Vergleichsstandard&#8220; und &#8222;Anzahl der gefundenen Fehler&#8220; wurden varianzanalytisch (lineares gemischtes Modell, &#8222;Linear Mixed Model&#8220; <TextLink reference="8"></TextLink>) mit den festen Faktoren (&#8222;fixed factor&#8220;) &#8222;Review-Form&#8220; (Einzel&#47;Gruppe), &#8222;Standort&#8220; (Uni 1- Uni 4), &#8222;Fragengruppe&#8220; (MCF-Gruppe A &#47; MCF-Gruppe B) und &#8222;Durchgang&#8220; sowie dem Zufallsfaktor (&#8222;random factor&#8220;) &#8222;MCF&#8220; (d. h. es wird angenommen, dass die MCF eine Zufallsauswahl aus dem MCF-Pool darstellen) ausgewertet. Von prim&#228;rem Interesse waren dabei die Faktoren &#8222;Review-Form&#8220; und &#8222;Standort&#8220;, die anderen Faktoren dienten als Kontrollvariablen.</Pgraph><Pgraph>Die Variablen f&#252;r die Einzelkategorien sind bin&#228;r (Wertebereich 0 und 1) und wurden daher mit einem nichtlinearen gemischten Modell mit logistischer Linkfunktion analog analysiert (logistisch-normales Modell, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>).</Pgraph><Pgraph>Die statistische Auswertung der die Studie begleitenden Frageb&#246;gen erfolgte deskriptiv. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><SubHeadline>Sample </SubHeadline><Pgraph>Four general medical departments at German universities who declared their willingness to participate in the study were selected for the study: Dresden, Freiburg, Heidelberg and LMU Munich, hereinafter referred to in random order as Uni 1-4 for the sake of anonymity. Each site provided three employees who deal with the design and review of MCQs within their departments.</Pgraph><SubHeadline>Item Sample </SubHeadline><Pgraph>For the study, 2 x 40 MCQs (Group A and B) were randomly selected from the question pool of the general medicine subject area at the University of Freiburg. They were all so-called Type A questions (single positive or negative selection from five answer choices).</Pgraph><SubHeadline>Materials and technical prerequisites </SubHeadline><Pgraph>One of the functions of the IMS is that all recorded exam questions can be reviewed online using a ten-criteria evaluation form (see Table 1 <ImgLink imgNo="1" imgType="table"/>)<Superscript>1</Superscript>. An input field for free text comments makes it possible to record criticisms and to make specific suggestions for corrections.</Pgraph><Pgraph>The basis for assessing all reviews in this study was the &#8220;Short Guide to Reviewing MC Questions&#8221; by the competence centre, which in turn is based on the relevant literature on this subject <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>For evaluating satisfaction with the review process, its effectiveness and the subjective assessment of its importance, a short questionnaire was created. Answers were given using a 6-point Likert scale (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). In addition, there were two open questions: <Mark2>&#8220;Which part of the review did I like best&#63;&#8221;</Mark2> and <Mark2>&#8220;Which part of the review caused me the most problems&#63;&#8221;.</Mark2></Pgraph><SubHeadline>Conduct </SubHeadline><Pgraph>The first step was creating a comparative standard for the assessment of study participants through a review of all 80 MCQs by experts. The four-member committee, all of whom had appropriate experience (MME or employee of the Centre of Excellence), was composed of three specialist representatives and a non-specialist colleague. The &#8220;Centre of Excellence for Exams in Medicine in Baden-W&#252;rttemberg&#8221; subjected all 80 MCQs which were going to be part of the study to a group review.</Pgraph><Pgraph>The &#8220;Brief Guide to Reviewing MC Questions&#8221;, which explains the checklist criteria for the review (see Table 1 <ImgLink imgNo="1" imgType="table"/>), was made available to all study participants. No further training of the reviewers took place. According to the study design (see Table 2 <ImgLink imgNo="2" imgType="table"/>), each site the three reviewers then assessed 40 MCQs 40 individually and 40 MCQs in review groups.</Pgraph><Pgraph>For the group reviews, the study participants agreed dates when all 40 MCQs were assessed in a single session. In dealing with the individual reviews, the reviewers had the opportunity to work to their own timetable.</Pgraph><Pgraph>Following both the individual and the group reviews, the study participants were required to fill in the short questionnaire.</Pgraph><SubHeadline>Statistics </SubHeadline><Pgraph>Through a review of all MCQs used in this study by a panel of experts, a reference assessment, a gold standard, was set for each question. The assessments of this study were compared to this external reference to check its validity. The reliability was tested by comparing the identified deficiencies at the four different sites.</Pgraph><Pgraph>All of the 3200 individual assessments carried within this study&#8217;s reviews (80 MCQs &#215; 10 assessment criteria x 4 sites) were dichotomized as follows: 0 &#61; no deviation from the expert review and 1 &#61; deviation from the expert review and 0 &#61; no defect and 1 &#61; slight or severe defect and thus subjected to statistical analysis. For the individual reviews, the rounded average of the three individual assessments was used for comparison.</Pgraph><Pgraph>The variables &#8220;Number of deviations from the gold standard&#8221; and &#8220;Number of errors found&#8221; were analysed using variance analysis (linear mixed model <TextLink reference="8"></TextLink>) with the fixed factors &#8220;review form&#8221; (single&#47;group), &#8220;location&#8221; (Uni 1 - Uni 4), &#8220;question group&#8221; (MCQ Group A&#47;MCQ Group B) and &#8220;pass&#8221; as well as the random factor &#8220;MCQ&#8221; (i.e. it is assumed that the MCQs represent a random selection from the MCQ pool). Of primary interest were the factors &#8220;review form&#8221; and &#8220;location&#8221;, the other factors were used as control variables.</Pgraph><Pgraph>The variables for the individual categories are binary (values 0 and 1) and were therefore analysed with a similar non-linear mixed model with a logistic link function (logistic-normal model <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>).</Pgraph><Pgraph>The statistical analysis of the questionnaires accompanying the study was done descriptively.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Zusammensetzung der Stichprobe </SubHeadline><Pgraph>An der Studie nahmen zw&#246;lf Allgemeinmediziner von vier deutschen Hochschulstandorten teil, acht Frauen und vier M&#228;nner. Das Alter der Teilnehmer reichte von 24 bis 61 Jahren, im Mittel betrug es 41 Jahre (SD&#61;14,6).</Pgraph><SubHeadline>Validit&#228;t  </SubHeadline><Pgraph>Die Ergebnisse der Abweichungen der Studien-Reviews vom Experten-Review sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> dargestellt. Statistisch signifikante Unterschiede fanden sich weder zwischen der Art des Reviews (Einzel- vs. Gruppenreview), noch zwischen Durchgang 1 und Durchgang 2, noch zwischen Fragengruppe A und Fragengruppe B. Ein signifikanter Unterschied fand sich lediglich zwischen den einzelnen Reviewer-Gruppen der verschiedenen Standorte. </Pgraph><SubHeadline>Reliabilit&#228;t </SubHeadline><Pgraph>Die Anzahl der im Rahmen der Studien-Reviews festgestellten M&#228;ngel sind in Tabelle 4 <ImgLink imgNo="4" imgType="table"/> dargestellt. Bei der Gesamtbetrachtung &#252;ber alle 3200 Kriterien fanden sich auch hier keine signifikanten Unterschiede zwischen der Art des Reviews (Einzel- vs. Gruppen-Review), dem Durchgang sowie der Fragengruppe. Ein solcher fand sich auch hier nur zwischen den Standorten.</Pgraph><SubHeadline>Frageb&#246;gen </SubHeadline><Pgraph>Die Frage nach der Zufriedenheit mit dem Review-Prozess beantworteten die Studienteilnehmer nach dem Einzel-Review im Mittel mit 4,92 (SD&#61;0,69), nach dem Gruppen-Review mit 5,17 (SD&#61;0,83). Die Frage nach der Effektivit&#228;t wurde wie folgt beantwortet: nach dem Einzel-Review im Mittel mit 4,92 (SD&#61;0,69), nach dem Gruppen-Review mit 5,58 (SD&#61;0,67). Die Wichtigkeit des Reviews wurde nach dem Einzel-Review im Mittel mit 5,75 (SD&#61;0,45) bewertet, nach dem Gruppen-Review mit 6,00 (SD&#61;0). </Pgraph><Pgraph>Die Freitextkommentare zu den Fragen <Mark2>&#8222;Was hat mir bei dem Review am besten gefallen&#63;&#8220;</Mark2> und <Mark2>&#8222;Womit hatte ich beim Review am meisten Probleme&#8220;</Mark2>  lassen sich wie folgt zusammenfassen:</Pgraph><Pgraph>Aus Sicht der Reviewer war der positivste Aspekt beim Einzel-Review die freie Zeiteinteilung, beim Gruppen-Review wurden der kollegiale Gedankenaustausch und der damit verbundene Lerneffekt hervorgehoben. Beim Einzel-Review wurden h&#228;ufiger Probleme mit unklaren Bewertungskriterien bei fehlenden R&#252;cksprachem&#246;glichkeiten beklagt, im Gruppen-Review die zeitlichen Abstimmungsprobleme, der h&#228;ufig nicht leicht herzustellende Konsens bei den Bewertungen sowie die mit dieser Review-Art verbundene lange Sitzungsdauer mit entsprechenden Konzentrationsproblemen.</Pgraph><SubHeadline>Zeitaufwand </SubHeadline><Pgraph>Die durchschnittliche Bearbeitungszeit f&#252;r die 40 Fragen im Einzel-Review betrug 113 Minuten (SD&#61;44), im Gruppen-Review 139 Minuten (SD&#61;48). </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><SubHeadline>Sample Composition </SubHeadline><Pgraph>Twelve GPs from four German universities, eight women and four men, took part in the study. The participants&#8217; ages ranged from 24 to 61 years, the average age was 41 years (SD&#61;14.6).</Pgraph><SubHeadline>Validity  </SubHeadline><Pgraph>The results of the deviations of the study reviews from the expert reviews are presented in Table 3 <ImgLink imgNo="3" imgType="table"/>. There were no statistically significant differences, either between the type of review (single vs. group review), or between Pass 1 and Pass 2, or between Question Group A and Question Group B. A significant difference was found only between the individual reviewer groups of the different locations.</Pgraph><SubHeadline>Reliability </SubHeadline><Pgraph>The number of deficiencies identified as part of the review study are shown in Table 4 <ImgLink imgNo="4" imgType="table"/>. Overall, no significant differences between the nature of the review (single vs. group review), the pass and the question group were found for all the 3200 criteria. The only significant difference was also found to be between the sites.</Pgraph><SubHeadline>Questionnaires </SubHeadline><Pgraph>In response to the question regarding satisfaction with the review process, following the individual reviews the study participants responded with an average of 4.92 (SD&#61;0.69), following the review group with 5.17 (SD&#61;0.83). The question on effectiveness was answered as follows: following individual reviews with an average of 4.92 (SD&#61;0.69), following group review with 5.58 (SD&#61;0.67). The importance of the review following individual reviews was rated 5.75 (SD&#61;0.45) on average, following group review 6.00 (SD&#61;0).</Pgraph><Pgraph>The free text comments on the questions <Mark2>&#8220;Which part of the review did I like best&#63;&#8221;</Mark2> and <Mark2>&#8220;Which part of the review caused me the most problems&#63;&#8221;</Mark2> can be summarised as follows:</Pgraph><Pgraph>From the perspective of the reviewer, the most positive aspect of the individual reviews was the freedom in time-planning, where for the group reviews it was the collegial exchange of ideas and the associated learning effects. Commonly cited problems in individual review were complaints of vague evaluation criteria in the absence of opportunities for asking questions, whereas in the group reviews it was timing problems, as it is often not easy to produce consensus in carrying out assessments and the long sessions associated with this type of review and the resulting concentration problems.</Pgraph><SubHeadline>Time Expenditure </SubHeadline><Pgraph>The average processing time for the 40 questions in individual reviews was 113 minutes (SD&#61;44), 139 minutes (SD&#61;48) in group reviews.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Dass der systematische kollegiale Review von MCQs die Qualit&#228;t der Pr&#252;fungsfragen verbessert, konnte f&#252;r den deutschen Sprachraum bereits hinreichend dargestellt werden <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. Was die Vor- und Nachteile verschiedener Review-Verfahrens angeht, finden sich wenige Hinweise <TextLink reference="7"></TextLink>, die hier vorgestellte Studie sollte helfen, die f&#252;r die Praxis relevante Frage nach den Vor- und Nachteilen von Einzel- im Vergleich zu Gruppen-Reviews zu kl&#228;ren:</Pgraph><SubHeadline>Validit&#228;t </SubHeadline><Pgraph>Die Ergebnisse dieser Studie zeigen, dass beide Review-Verfahren in gleicher Weise valide sind. Es ergibt sich somit keine Entscheidungsgrundlage, eine der beiden Varianten vorrangig zu empfehlen.</Pgraph><Pgraph>Statistisch signifikante Unterschiede in den Beurteilungen der MCF fanden sich allerdings zwischen den Reviewern der vier einzelnen Standorte. Die &#8222;Kurz-Anleitung zum Review von MC-Fragen&#8220;  allein, obwohl auf den gleichen Grundlagen wie das Wissen der &#8222;Experten&#8220; beruhend, war offensichtlich nicht geeignet, &#252;ber die vier Universit&#228;tsstandorte hinweg zu homogenen Beurteilungen zu kommen. Bei den Abweichungen vom Experten-Review gab es &#252;ber alle Checklisten-Items hinweg betrachtet einen signifikanten Unterschied. Das Ergebnis legt den Schluss nahe, neben andernorts geforderten Autorenschulungen <TextLink reference="4"></TextLink> bei breitfl&#228;chiger Einf&#252;hrung eines standardisierten Review-Verfahrens eine Schulung der Reviewer zu empfehlen <TextLink reference="13"></TextLink>. </Pgraph><SubHeadline>Reliabilit&#228;t </SubHeadline><Pgraph>Auch die an den verschiedenen Standorten festgestellten M&#228;ngel waren &#252;ber alle Checklisten-Items betrachtet nicht davon abh&#228;ngig, ob die Fragen im Einzel- oder im Gruppen-Review beurteilt worden waren. Somit ergibt sich auch hier keine Entscheidungsgrundlage f&#252;r eine der beiden Varianten.</Pgraph><Pgraph>Anders verhielt es sich wieder beim Vergleich der Hochschulstandorte untereinander: hier fanden sich statistisch signifikante Unterschiede bei allen Items, die einer statistischen Auswertung zugef&#252;hrt werden konnten. Die Forderung nach einer Reviewer-Schulung l&#228;sst sich somit bekr&#228;ftigen.</Pgraph><SubHeadline>Frageb&#246;gen </SubHeadline><Pgraph>M&#246;chte man sicherstellen, dass sich bundesweit m&#246;glichst viele Lehrende an einem wechselseitigen Review von MCF nachhaltig beteiligen, sollte sichergestellt sein, dass sie von der Notwendigkeit eines solchen Vorgehens &#252;berzeugt sind und die Verfahrensweise aus ihrer Sicht effektiv und subjektiv zufriedenstellend ist. Aus diesem Grund wurden die einzelnen Reviews von Frageb&#246;gen begleitet, die diese Parameter abfragten. </Pgraph><Pgraph>&#220;ber alle vier Standorte gemittelt erhielten sowohl die Fragen nach der Zufriedenheit, der Effektivit&#228;t des Review-Prozesses, als auch nach der Einsch&#228;tzung der Wichtigkeit des Reviews eine geringf&#252;gig h&#246;here Zustimmung nach dem Gruppen-Review als nach dem Einzel-Review. Betrachtet man die Fragen f&#252;r die einzelnen Standorte getrennt, findet sich die gr&#246;&#223;ere Zustimmung nach dem Gruppen-Review nahezu durchgehend wieder. Lediglich an einem Standort (Uni 1) fand die Frage nach der Zufriedenheit mit dem Review-Prozess mehr Zustimmung nach dem Einzel-Review. Auch hier w&#228;ren gruppendynamische Prozesse zu diskutieren: der Standort Uni 1 hatte mit 210 Minuten Bearbeitungszeit im Gruppen-Review die l&#228;ngste Zeit von allen Review-Sitzungen ben&#246;tigt. Dies k&#246;nnte auf Probleme schlie&#223;en lassen, zu gemeinsam verantworteten Entscheidungen zu finden.</Pgraph><Pgraph>Die Freitextkommentare zu den Einzel- und Gruppen-Reviews spiegeln die zu erwartenden Vor- und Nachteile der beiden Verfahren wieder: die freie Zeiteinteilung steht beim Einzel-Review den fehlenden R&#252;ckkopplungsm&#246;glichkeiten mit Kollegen gegen&#252;ber. Beim Gruppen-Review erkennt man, dass die zeitlichen Abstimmungsprobleme mit dem h&#228;ufig angef&#252;hrten und als positiv erachteten kollegialen Gedankenaustausch und dem damit verbundenen Lerneffekt im Widerspruch stehen. </Pgraph><SubHeadline>Zeitaufwand </SubHeadline><Pgraph>Betrachtet man lediglich den Fragenpool des Lehrbereiches Allgemeinmedizin in Freiburg, der ca. 280 MCF umfasst (andere Standorte m&#246;gen &#252;ber deutlich umfangreichere Pools verf&#252;gen), so l&#228;sst sich der enorme Zeitaufwand erahnen, der f&#252;r den Review des Bestandes aller allgemeinmedizinischen Abteilungen und Lehrbereiche erforderlich ist. Insofern sind die im Rahmen der Studie ermittelten Zeiten bei der Diskussion um das praxistauglichere Review-Verfahren zu ber&#252;cksichtigen: f&#252;r die Gruppen-Reviews von 40 MCF wurden im Durchschnitt 26 Minuten mehr ben&#246;tigt als f&#252;r die  Einzel-Reviews. Folgte man allein diesem Kriterium, m&#252;sste eine Empfehlung in Richtung Einzel-Reviews ausgesprochen werden. Interessanterweise wird dieser etwas h&#246;here Zeitaufwand in den Freitextkommentaren nicht thematisiert.</Pgraph><SubHeadline>Schw&#228;chen </SubHeadline><Pgraph>Die relativ kleine Stichprobe der Reviewer, die zudem aus Gr&#252;nden der Machbarkeit keine Zufallsstichprobe darstellte, schr&#228;nkt die Verallgemeinerbarkeit der Studienergebnisse ein. Da bewusst die Mitarbeiter in den allgemeinmedizinischen Abteilungen und Lehrbereichen ausgew&#228;hlt worden waren, die sich auch in der Alltagsroutine mit dem Erstellen und&#47;oder dem Review von Pr&#252;fungsfragen befassen ohne &#252;ber eine spezifische Zusatzausbildung zu verf&#252;gen, wurden zwangsl&#228;ufig Diskrepanzen bei medizinischer Erfahrung und testtheoretischem Vorwissen in Kauf genommen. Beides schr&#228;nkt die Vergleichbarkeit ein.</Pgraph><Pgraph>Die zehn Items umfassende Checkliste, anhand derer die MCF zu beurteilen waren, bildet nicht alle in der Literatur <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink> aufgef&#252;hrten Kriterien zur Erstellung &#8222;guter&#8220; MCF ab. Einige Items m&#252;ssen als redundant angesehen werden, andere Bewertungskriterien, wie die wichtige Frage nach der Relevanz einer MCF <TextLink reference="11"></TextLink>, fehlen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>There is already sufficient evidence in German-speaking countries that the systematic collegial review of MCQs improves the quality of exam questions <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. There are only a few indications as to the advantages and disadvantages of different review process <TextLink reference="7"></TextLink>. This study was intended to help clarify the practical questions about the advantages and disadvantages of individual vs group reviews.</Pgraph><SubHeadline>Validity </SubHeadline><Pgraph>The results of this study show that are review processes are equally valid. There is therefore no basis upon which we could recommend one over the other.</Pgraph><Pgraph>Statistically significant differences in the assessments of MCQs were found, however, between the reviewers of the four individual sites. The &#8220;Short Guide to Reviewing MC Questions&#8221; alone, although based on the same basis as the knowledge of the &#8220;experts&#8221;, apparently is not suitable for ensuring homogeneous assessments across the four university sites. In terms of the deviations from expert&#8217;s review, there was one significant difference across all checklist items. The result suggests that in addition to author training required elsewhere <TextLink reference="4"></TextLink> and wide-scale introduction of a standardised review process, reviewer training should be recommended <TextLink reference="13"></TextLink>.</Pgraph><SubHeadline>Reliability </SubHeadline><Pgraph>The deficiencies observed at the four locations not dependent on whether the questions were assessed individually or in groups were viewed across all checklist items. There is therefore, again, no basis for deciding for a particular version.</Pgraph><Pgraph>In contrast, the comparison of university sites with each other revealed statistically significant differences for all items which could be statistically analysed. The demand for reviewer training can thus be affirmed.</Pgraph><SubHeadline>Questionnaires </SubHeadline><Pgraph>If the goal is to ensure that throughout Germany as many tutors participate in a mutual and sustainable review of MCQs, it must be ensured that they are convinced of the necessity of such an approach and that the methodology is effective and subjectively satisfactory from their point of view. For this reason, the individual reviews were accompanied by questionnaires which queried these parameters.</Pgraph><Pgraph>Averaged across all four sites, for both the question regarding satisfaction, the effectiveness of the review process and the importance of the review, slightly higher approval was awarded following group reviews compared to individual reviews. When analysing the questions for each site separately, the higher approval following group reviews is replicated almost consistently. Only at one site (Uni 1), was the question regarding satisfaction with the review process ranked higher following individual reviews. In this case too, group dynamics should be considered, as the Uni 1 site took the longest of all review sessions, with 210 minutes of processing time in group reviews. This could suggest problems when trying to come to decisions with joint responsibility.</Pgraph><Pgraph>The free text comments on individual and group reviews reflect the expected advantages and disadvantages of both methods once again, juxtaposing the freedom to plan in individual reviews with of the lack of feedback opportunities from colleagues. It becomes obvious that in group reviews the timing issues are in contradiction with the often mentioned (and positively seen) collegial exchange of ideas and the associated learning effects.</Pgraph><SubHeadline>Time Expenditure </SubHeadline><Pgraph>If we consider only the pool of questions of general medicine in Freiburg which includes approximately 280 MCQs (though other sites may have much larger pools), we can guess the enormous amount of time necessary for reviewing the entire set for all general medical departments and subject areas. In this respect, the timings found by this study may be considered when discussing the more practical review process. Group reviews of 40 MCQs on average took 26 minutes longer than individual reviews. If one followed this criterion alone, there would have to be a pronounced recommendation of individual reviews. Interestingly, this extra need for time is not raised in the free text answers.</Pgraph><SubHeadline>Weaknesses </SubHeadline><Pgraph>The relatively small sample of reviewers, which for feasibility reasons was not a random sample also limits the generalisability of the study results. As employees of general medical departments and subject areas were consciously selected (i.e. people who in their daily routine are tasked with creating and&#47;or reviewing exam questions without special additional training) this meant that inevitable discrepancies in medical experience and prior theoretical knowledge had to be accepted. Both factors limit the comparability.</Pgraph><Pgraph>The ten-item checklist against which the MCQs were judged did not reflect all criteria for the creation of &#8220;good&#8221; MCQs given in the literature <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. Some items must be considered redundant while other criteria, such as the important question of the relevance of MCQs <TextLink reference="11"></TextLink>, are missing.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Schlussfolgerungen">
      <MainHeadline>Schlussfolgerungen</MainHeadline><Pgraph>Bei der Suche nach einer Entscheidungshilfe f&#252;r die Empfehlung des besser geeigneten  Review-Verfahrens k&#246;nnen die Ergebnisse dieser Studie durchaus hilfreich sein.</Pgraph><Pgraph>Wie im Ergebnisteil dargestellt und in der Diskussion ausgef&#252;hrt, l&#228;sst sich ein statistisch signifikanter Unterschied in der Validit&#228;t und Reliabilit&#228;t beider Vorgehensweisen nicht darstellen, hier&#252;ber allein ist eine Entscheidung f&#252;r oder gegen eines der Verfahren nicht abzuleiten.</Pgraph><Pgraph>Vor diesem Hintergrund bekommen die subjektiven Einsch&#228;tzungen der Studienteilnehmer zu den Reviews umso mehr Gewicht. Diese tendieren mehr in Richtung Gruppen-Review. Der Zeitfaktor wird dabei scheinbar von den Studienteilnehmern der Zufriedenheit sowie der subjektiven Einsch&#228;tzung zur Effektivit&#228;t des Prozesses untergeordnet. </Pgraph><Pgraph>Die spezifische Situation vor Ort kann bei der Auswahl des Verfahrens nachvollziehbar eine entscheidende Rolle spielen: sind die Reviewer wissenschaftliche oder klinisch t&#228;tige Mitarbeiter, die f&#252;r gew&#246;hnlich in einer Abteilung r&#228;umlich zusammenarbeiten, wird die Wahl eher auf relativ einfach zu terminierende Gruppen-Reviews fallen k&#246;nnen. Werden die Reviews in der Regel von niedergelassenen Lehrbeauftragten durchgef&#252;hrt (wie in der Allgemeinmedizin h&#228;ufig &#252;blich), mag der Einzel-Review vom eigenen Arbeitsplatz aus sinnvoller und praktikabler erscheinen. </Pgraph><Pgraph>Aus Gr&#252;nden der Praktikabilit&#228;t kamen in der Studie nur Typ A-Fragen zur Anwendung. Grunds&#228;tzlich sollten die Ergebnisse jedoch auch auf andere Fragenformate &#252;bertragbar sein.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusions">
      <MainHeadline>Conclusions</MainHeadline><Pgraph>The results of this study do offer some help when trying to reach a decision about which review process may be recommended as the better.</Pgraph><Pgraph>As was shown in the results section and explained in the discussion, no statistically significant difference regarding validity and reliability of both procedures could be found which means that it will not be possible to decide for one or the other solely based on these factors.</Pgraph><Pgraph>Against this background, the subjective assessments of the study participants on the reviews gain in weight. These tended more towards group reviews. It would appear that the time factor is subordinated to the satisfaction and the subjective assessment of the effectiveness of the process by the study participants.</Pgraph><Pgraph>The specifics of the situation on the ground can understandably play a crucial role when selecting a method. If the reviewers are scientific or clinically-based staff who usually work together in a department, the selection will tend towards group reviews which are relatively easy to terminate. If the reviews will tend to be carried out by established lecturers (as is common in general medicine), individual reviews at their own workplace could seem more reasonable and practicable.</Pgraph><Pgraph>For practical reasons this study only looked at Type A questions. But essentially, the results should be transferable to other question formats.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anmerkung">
      <MainHeadline>Anmerkung</MainHeadline><Pgraph><Superscript>1</Superscript> Im IMS ist diesem Bewertungsbogen ein hier nicht n&#228;her zu definierender Algorithmus hinterlegt, der die Fragen entweder f&#252;r den &#246;ffentlichen Ordner freigibt oder zur Korrektur an die Autoren verweist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Note">
      <MainHeadline>Note</MainHeadline><Pgraph><Superscript>1</Superscript> In the IMS this evaluation form is based on an algorithm for which no further details are available which either makes the questions available to the public folder or refers them to the authors for correction.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>F&#252;r die statistische Beratung zu diesem Projekt gilt mein besonderer Dank Dr. Andreas M&#246;ltner, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin - Baden W&#252;rttemberg, Universit&#228;t Heidelberg</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgement">
      <MainHeadline>Acknowledgement</MainHeadline><Pgraph>My special thanks for support with the statistical aspects of this project goes towards Dr. Andreas M&#246;ltner, at the Competence Centre for Exams in Medicine - Baden W&#252;rttemberg, University of Heidelberg  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Bundesministerium f&#252;r Gesundheit</RefAuthor>
        <RefTitle>Approbationsordnung f&#252;r &#196;rzte vom 27.06.2002</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>BGBL</RefJournal>
        <RefPage>2405-2435</RefPage>
        <RefTotal>Bundesministerium f&#252;r Gesundheit. Approbationsordnung f&#252;r &#196;rzte vom 27.06.2002. BGBL. 2002:2405-2435.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Schellberg D</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Grundlegende quantitative Analysen medizinischer Pr&#252;fungen</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc53</RefPage>
        <RefTotal>M&#246;ltner A, Schellberg D, J&#252;nger J. Grundlegende quantitative Analysen medizinischer Pr&#252;fungen. GMS Z Med Ausbild. 2006;23(3):Doc53. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Haladyna TM</RefAuthor>
        <RefAuthor>Downing SM</RefAuthor>
        <RefAuthor>Rodrigues MC</RefAuthor>
        <RefTitle>A review of multiple-choice item-writing guidelines for a classroom assessment</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Appl Meas Educ</RefJournal>
        <RefPage>309-344</RefPage>
        <RefTotal>Haladyna TM, Downing SM, Rodrigues MC. A review of multiple-choice item-writing guidelines for a classroom assessment. Appl Meas Educ. 2002;15:309-344. DOI: 10.1207&#47;S15324818AME1503&#95;5</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1207&#47;S15324818AME1503&#95;5</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Krebs R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2004</RefYear>
        <RefBookTitle>Anleitung zur Herstellung von MC-Fragen und MC-Pr&#252;fungen f&#252;r die &#228;rztliche Ausbildung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Krebs R. Anleitung zur Herstellung von MC-Fragen und MC-Pr&#252;fungen f&#252;r die &#228;rztliche Ausbildung. Bern: Institut f&#252;r Medizinische Lehre IMS, Abteilung f&#252;r Ausbildungs- und Examensforschung AAE; 2004.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>AG Progress Test Medizin</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2003</RefYear>
        <RefBookTitle>Progress Test Medizin. Leitfaden f&#252;r Fragenautorinnen und &#8211;autoren des Progress Test Medizin</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>AG Progress Test Medizin. Progress Test Medizin. Leitfaden f&#252;r Fragenautorinnen und &#8211;autoren des Progress Test Medizin. Berlin: Charit&#233; Universit&#228;tsmedizin; 2003.</RefTotal>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Lammerding-K&#246;ppel M</RefAuthor>
        <RefAuthor>Rau T</RefAuthor>
        <RefAuthor>Obertacke U</RefAuthor>
        <RefAuthor>Biller S</RefAuthor>
        <RefAuthor>Narci&#223; E</RefAuthor>
        <RefTitle>Durchf&#252;hrung der universit&#228;ren Pr&#252;fungen im klinischen Abschnitt des Medizinstudiums nach den Leitlinien des GMA-Ausschusses Pr&#252;fungen: Eine Bestandsaufnahme der medizinischen Fakult&#228;ten in Baden-W&#252;rttemberg</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc57</RefPage>
        <RefTotal>J&#252;nger J, M&#246;ltner A, Lammerding-K&#246;ppel M, Rau T, Obertacke U, Biller S, Narci&#223; E. Durchf&#252;hrung der universit&#228;ren Pr&#252;fungen im klinischen Abschnitt des Medizinstudiums nach den Leitlinien des GMA-Ausschusses Pr&#252;fungen: Eine Bestandsaufnahme der medizinischen Fakult&#228;ten in Baden-W&#252;rttemberg. GMS Z Med Ausbild. 2010;27(4):Doc57. DOI: 10.3205&#47;zma000694</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000694</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Kazubke E</RefAuthor>
        <RefAuthor>Sch&#252;ttpelz-Brauns K</RefAuthor>
        <RefTitle>Gruppenleistungen beim Review von Multiple-Choice-Fragen &#8211; ein Vergleich von face-to-face und virtuellen Gruppen, mit und ohne Moderation</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc68</RefPage>
        <RefTotal>Kazubke E, Sch&#252;ttpelz-Brauns K. Gruppenleistungen beim Review von Multiple-Choice-Fragen &#8211; ein Vergleich von face-to-face und virtuellen Gruppen, mit und ohne Moderation. GMS Z Med Ausbild. 2010;27(5):Doc68. DOI: 10.3205&#47;zma000705</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000705</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Brown H</RefAuthor>
        <RefAuthor>Prescot R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Applied Mixed Models in Medicine, Second Edition</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Brown H, Prescot R. Applied Mixed Models in Medicine, Second Edition. Oxford&#47;UK: John Wiley &#38; Sons, Ltd; 2006. DOI: 10.1002&#47;0470023589</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;0470023589</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Beitler PJ</RefAuthor>
        <RefAuthor>Landis JR</RefAuthor>
        <RefTitle>A Mixed-effects Model for Catagorical Data</RefTitle>
        <RefYear>1985</RefYear>
        <RefJournal>Biometr</RefJournal>
        <RefPage>991-1000</RefPage>
        <RefTotal>Beitler PJ, Landis JR. A Mixed-effects Model for Catagorical Data. Biometr. 1985;41:991-1000. DOI: 10.2307&#47;2530970</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2307&#47;2530970</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Wolfinger R</RefAuthor>
        <RefAuthor>SUGI Proceedings</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1999</RefYear>
        <RefBookTitle>Fitting Nonlinear Models with the New NLMIXED Procedure</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Wolfinger R, SUGI Proceedings. Fitting Nonlinear Models with the New NLMIXED Procedure. Cary&#47;NC: SAS Institute Inc; 1999.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Kropf R</RefAuthor>
        <RefAuthor>Krebs R</RefAuthor>
        <RefAuthor>Rogausch A</RefAuthor>
        <RefAuthor>Beyeler C</RefAuthor>
        <RefTitle>Auswirkungen angeleiteter Itemanalysebesprechungen mit Dozierenden auf die Qualit&#228;t von Multiple Choice-Pr&#252;fungen</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc46</RefPage>
        <RefTotal>Kropf R, Krebs R, Rogausch A, Beyeler C. Auswirkungen angeleiteter Itemanalysebesprechungen mit Dozierenden auf die Qualit&#228;t von Multiple Choice-Pr&#252;fungen. GMS Z Med Ausbild. 2010;27(3):Doc46. DOI: 10.3205&#47;zma000683</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000683</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Weih M</RefAuthor>
        <RefAuthor>Harms D</RefAuthor>
        <RefAuthor>Rauch C</RefAuthor>
        <RefAuthor>Segarra L</RefAuthor>
        <RefAuthor>Reulbach U</RefAuthor>
        <RefAuthor>Degirmenci U</RefAuthor>
        <RefAuthor>de Zwaan M</RefAuthor>
        <RefAuthor>Schwab S</RefAuthor>
        <RefAuthor>Kornhuber J</RefAuthor>
        <RefTitle>Qualit&#228;tsverbesserung von Multiple-Choice-Pr&#252;fungen in Psychiatrie, Psychosomatik, Psychotherapie und Neurologie</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Nervenarzt</RefJournal>
        <RefPage>324-328</RefPage>
        <RefTotal>Weih M, Harms D, Rauch C, Segarra L, Reulbach U, Degirmenci U, de Zwaan M, Schwab S, Kornhuber J. Qualit&#228;tsverbesserung von Multiple-Choice-Pr&#252;fungen in Psychiatrie, Psychosomatik, Psychotherapie und Neurologie. Nervenarzt. 2009;80(3):324-328. DOI: 10.1007&#47;s00115-008-2618-8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s00115-008-2618-8</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Rotthoff T</RefAuthor>
        <RefAuthor>Soboll S</RefAuthor>
        <RefTitle>Qualit&#228;tsverbesserung von MC Fragen: Ein exemplarischer Weg f&#252;r eine medizinische Fakult&#228;t</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc45</RefPage>
        <RefTotal>Rotthoff T, Soboll S. Qualit&#228;tsverbesserung von MC Fragen: Ein exemplarischer Weg f&#252;r eine medizinische Fakult&#228;t. GMS Z Med Ausbild. 2006;23(3):Doc45. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000264.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000264.shtml</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Checkliste f&#252;r den Review von MC-Fragen</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 1:  Checklist for the review of MC questions</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="de">2de</MediaID>
          <MediaID language="en">2en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Ablaufschema zum Review allgemeinmedizinischer Pr&#252;fungsfragen               (Gruppe A&#61;MCF 1-40, Gruppe B&#61;MCF 41-80)</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 2: Flow chart for review of general medical exam questions (Group A&#61;MCQs 1-40, Group B&#61;MCQs 41-80)</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="de">3de</MediaID>
          <MediaID language="en">3en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Anzahl der Abweichungen vom Experten-Review in den Reviews der 4 Universit&#228;tsstandorte im Einzel- (ER) bzw. Gruppenreview (GR) in allen Einzel-Kriterien der Review-Checkliste einschlie&#223;lich Signifikanzniveaus</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 3: Number of deviations from the expert review in the reviews of the four university sites in the individual (IR) and group reviews (GR) in all individual criteria of the review checklist, including levels of significance</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="de">4de</MediaID>
          <MediaID language="en">4en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Anzahl der mit M&#228;ngeln bewerteten Einzel-Kriterien der 4 Universit&#228;tsstandorte im Einzel- (ER) und Gruppenreview (GR) einschlie&#223;lich Signifikanzniveaus</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 4: Number of separate criteria assessed as deficient of the 4 university sites in individual (IR) and group reviews (GR), including levels of significance</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>4</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="495" width="620">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Kurzfragebogen zu den Reviews</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 1:  Short questionnaire on the reviews</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>