<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001210</Identifier>
    <IdentifierDoi>10.3205/zma001210</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0012109</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Language Matters: Development of an Objective Structured Language Test for Foreign Physicians &#8211; Results of a Pilot Study in Germany</Title>
      <TitleTranslated language="de">Sprache z&#228;hlt: Entwicklung eines objektiven strukturierten Sprachtests f&#252;r ausl&#228;ndische &#196;rztinnen und &#196;rzte &#8211; Ergebnisse einer Pilotstudie in Deutschland</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Lenz</Lastname>
          <LastnameHeading>Lenz</LastnameHeading>
          <Firstname>Holger</Firstname>
          <Initials>H</Initials>
        </PersonNames>
        <Address language="en">Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, Pettenkoferstr. 8A, D-80336 M&#252;nchen, Germany<Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Germany</Affiliation></Address>
        <Address language="de">Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, Pettenkoferstr. 8A, 80336 M&#252;nchen, Deutschland<Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Deutschland</Affiliation></Address>
        <Email>holger.lenz&#64;med.uni-muenchen.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Opitz</Lastname>
          <LastnameHeading>Opitz</LastnameHeading>
          <Firstname>Ansgar</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>LMU M&#252;nchen, Lehrstuhl f&#252;r Empirische P&#228;dagogik und P&#228;dagogische Psychologie, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>LMU M&#252;nchen, Lehrstuhl f&#252;r Empirische P&#228;dagogik und P&#228;dagogische Psychologie, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>ansgar.opitz&#64;psy.lmu.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Huber</Lastname>
          <LastnameHeading>Huber</LastnameHeading>
          <Firstname>Dana</Firstname>
          <Initials>D</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>LMU M&#252;nchen, (ehem.) Institut f&#252;r Deutsch als Fremdsprache, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>LMU M&#252;nchen, (ehem.) Institut f&#252;r Deutsch als Fremdsprache, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>dana.huber&#64;text23.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Jacobs</Lastname>
          <LastnameHeading>Jacobs</LastnameHeading>
          <Firstname>Fabian</Firstname>
          <Initials>F</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>fabian.jacobs&#64;med.uni-muenchen.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Paik</Lastname>
          <LastnameHeading>Paik</LastnameHeading>
          <Firstname>Wolfgang Gang</Firstname>
          <Initials>WG</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>LMU M&#252;nchen, Medizinstudierender, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>LMU M&#252;nchen, Medizinstudierender, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>g.paik&#64;campus.lmu.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Roche</Lastname>
          <LastnameHeading>Roche</LastnameHeading>
          <Firstname>J&#246;rg</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>LMU M&#252;nchen, Institut f&#252;r Deutsch als Fremdsprache, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>LMU M&#252;nchen, Institut f&#252;r Deutsch als Fremdsprache, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>roche&#64;daf.lmu.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Fischer</Lastname>
          <LastnameHeading>Fischer</LastnameHeading>
          <Firstname>Martin R.</Firstname>
          <Initials>MR</Initials>
          <AcademicTitle>Prof. Dr. med.</AcademicTitle>
          <AcademicTitleSuffix>MME</AcademicTitleSuffix>
        </PersonNames>
        <Address language="en">
          <Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Klinikum der Universit&#228;t M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Email>martin.fischer&#64;med.uni-muenchen.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">medical language</Keyword>
      <Keyword language="en">exam</Keyword>
      <Keyword language="en">foreign physicians</Keyword>
      <Keyword language="de">Pr&#252;fung</Keyword>
      <Keyword language="de">Fachsprache</Keyword>
      <Keyword language="de">ausl&#228;ndische &#196;rzte</Keyword>
      <SectionHeading language="en">Language Tests</SectionHeading>
      <SectionHeading language="de">Sprachtests</SectionHeading>
    </SubjectGroup>
    <DateReceived>20180620</DateReceived>
    <DateRevised>20181205</DateRevised>
    <DateAccepted>20181219</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20190215</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>36</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>2</ArticleNo>
    <Fundings>
      <Funding fundId="G32g-G8517.1-2015/5-91">Bayerischen Staatsministerium f&#252;r Gesundheit und Pflege (StMGP)</Funding>
    </Fundings>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Zielsetzung: </Mark1>Entwicklung einer wissenschaftlich fundierten und standardisierten Fachsprachenpr&#252;fung f&#252;r das Bundesland Bayern gem&#228;&#223; den Vorgaben der 87. Gesundheitsministerkonferenz (GMK). Der SAM &#8211; Sprachtest f&#252;r ausl&#228;ndische Mediziner soll Teil des Approbationsverfahrens ausl&#228;ndischer &#196;rzte und &#196;rztinnen sein. In situativen Pr&#252;fungsstationen soll er fachsprachliche und kommunikative Kompetenzen auf C1-Niveau abpr&#252;fen. </Pgraph><Pgraph><Mark1>Methodik: </Mark1>F&#252;r vier je zehnmin&#252;tige Mini-Interviews wurden Fallvignetten ausgearbeitet, f&#252;r die 40-min&#252;tige schriftliche Pr&#252;fungsstation, die aus zwei Teilaufgaben besteht, wurde ein Video einer Anamnese sowie kommentierte Laborergebnisse als Basis der Aufgabenstellungen erstellt. Fachsprachlichen Kompetenzen wurden anhand von Analysen wissenschaftlicher Literatur und empirischer Beispiele fixiert und als Items zu Bewertungsskalen f&#252;r jede Teilstation zusammengefasst. In drei Simulationen wurden die Pr&#252;fungen per Video (SAM-Pr&#252;fungssoftware) aufgezeichnet und im Anschluss von Bewerterteams bewertet.  </Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>19 Probanden nahmen an drei Simulationen teil. Eine Goldstandardsetzung konnte bei 18 von ihnen durchgef&#252;hrt werden. Eine ROC-Analyse ergab einen AUC-Wert von .83, was die prognostische Qualit&#228;t des SAM best&#228;tigt. Die Reliabilit&#228;t des SAM konnte nur f&#252;r zehn Probanden berechnet werden. Die mit Cronbachs Alpha berechnete interne Konsistenz betrug .85. Die Bestehensgrenze wurde mithilfe des Youden-Index ermittelt. F&#252;r den SAM ergab sich dabei die Grenze von &#62;60&#37;.</Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Mit dem SAM wurde eine valide Fachsprachenpr&#252;fung mit hoher Test-Objektivit&#228;t vorgelegt, die in authentischen Kommunikationssituationen und einem standardisierten Setting die  Fachsprachenkenntnisse  im geforderten C1-Niveau abpr&#252;ft. Mit weiteren Erprobungen und einer gr&#246;&#223;eren Stichprobe kann der SAM weiter validiert und eine h&#246;here Test-Reliabilit&#228;t sichergestellt werden.  </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Objective: </Mark1>To develop a scientifically sound and standardized medical language examination for the State of Bavaria according to the requirements set forth by the 87<Superscript>th</Superscript> Conference of State Health Ministers. This <Mark2>Sprachtest f&#252;r Ausl&#228;ndische Mediziner</Mark2> (SAM, Language Test for Foreign Physicians) ought to become part of the licensing procedure for foreign physicians in Germany. Using testing stations that are situation-based, it will assess medical language competence and communication skills at the proficiency level of C1.</Pgraph><Pgraph><Mark1>Methods: </Mark1>Case scenarios for four mini-interviews of 10 minutes each were developed. For the written part of the exam, consisting of two separate testing stations with a combined duration of 40 minutes, one video of a physician taking a patient&#8217;s history and one annotated set of laboratory results were developed. Based on the analysis of existing scientific literature as well as real-life examples, features and characteristics of professional medical language were identified. This served as the basis for the development of itemized rating scales for each of the testing stations. The exam was validated in three simulated trial runs. Each run was video-recorded and subsequently graded by a team of test-raters. </Pgraph><Pgraph><Mark1>Results: </Mark1>19 participants took part in the three trial runs. A benchmark (gold standard) could be set for 18 of these. A ROC-analysis yielded an AUC-value of .83. This confirmed the predictive quality of the SAM-test. The reliability of the SAM-test could be calculated for only ten participants. The internal consistency, calculated with the use of Cronbach&#8217;s Alpha, was .85. The pass&#47;fail mark was calculated based on the Youden-Index and yielded a result of &#62;60&#37;.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> The SAM-test presents a statistically valid medical language examination with a high level of objectivity. As required, it tests language proficiency at the level of C1 and uses authentic communication scenarios within a standardized test setting. Additional studies with larger test samples will help to further validate this test and thus guarantee a higher degree of reliability. </Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><Pgraph>&#8220;Anyone who focuses only on the slightly increasing number of physicians closes his eyes to the whole truth. In reality, the gap between demands for medical care and the capacities to give it continues to widen steadily.&#8221; <TextLink reference="1"></TextLink>. Thus commented the president of the German Medical Association, Frank Ulrich Montgomery, on the nationwide statistic for physicians from 2016. For some time now, buzzwords such as &#8220;shortage of physicians&#8221; and &#8220;shortage of skilled workers&#8221; have been circulating through the public discourse on health policy <TextLink reference="2"></TextLink>. More and more physicians from foreign countries continue to close the gap: within the past five years, their number in Germany has nearly doubled. It reached a record high in 2016 with a total of 41.658 <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>As they go through the process of integrating into their everyday professional lives, however, foreign physicians are confronted with a number of technical, administrative and cultural challenges that are partly driven by a lack of language proficiency. Insufficient or deficient communication skills often result in a lower quality of treatment, lower levels of patient satisfaction as well as intercollegiate conflicts and therefore pose a significant threat to patient safety. In extreme cases, failure to communicate successfully can be the decisive factor whether a patient dies or lives <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Proficient communication that clears misunderstandings and prevents them is a vital element of medical practice <TextLink reference="9"></TextLink>. </Pgraph><Pgraph>Therefore, the 87<Superscript>th</Superscript> <Mark2>Gesundheitsministerkonferenz</Mark2> (GMK, Conference of State Health Ministers) resolved to make obligatory a nationwide language exam for healthcare professionals and, at the same time, specified a number of minimum requirements. Those requirements include one simulated conversation between the healthcare professional and a patient; the composition of a document in written form as it commonly occurs in the daily routine of the healthcare professional; and a conversation with a member of the same profession. Each part should last 20 minutes <TextLink reference="10"></TextLink> (cp. Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). To this date, there are no common standards for the theoretical and methodological framework of this test. The formal requirements as established by the GMK refer mostly to the language level C1 when used as an expression of language in a professional context or setting. </Pgraph><Pgraph>It is true that the requirements did create the necessary framework for higher standards of language proficiency. The responsibility to guarantee language exams of high quality, however, was shifted to the individual states. As can be seen from an overview issued by the <Mark2>Marburger Bund</Mark2>, the conceptualization of the actual exam varies greatly from state to state <TextLink reference="11"></TextLink>. The lack of a common national exam, however, causes the risk of so called &#8220;exam tourism&#8221;. This means that foreign medical professionals will try to pass the examination in those states, in which the exam is supposedly easier to pass than in other states. In 2016, the state of Bavaria represented by the <Mark2>Staatsministerium f&#252;r Gesundheit und Pflege</Mark2> (StMGP, State Healthcare Department), commissioned an interdisciplinary research team from the medical faculty, the Institute for Medical Education, the Department of German as a Foreign Language and from psychometrics at the <Mark2>Ludwig-Maximilians-University</Mark2> (LMU) with the development of a valid, reliable, fair, authentic, objective and viable <Mark2>Sprachpr&#252;fung f&#252;r ausl&#228;ndische Mediziner</Mark2> (SAM, Language Test for Foreign Physicians). </Pgraph><Pgraph>In the Anglo-American world, the Australian test model can be considered as the leading model, since it, too, is based on similar scientific and methodological standards <TextLink reference="12"></TextLink>. An analysis of this model, however, has shown that international test models can be used only as a general guideline. Even the Australian model does not meet all scientific criteria of test development <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>. This made it absolutely necessary to create an independent methodological foundation for the SAM-test. This article outlines the design of the SAM-test and discusses the initial testing phase along with its results.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><Pgraph>&#8222;Wer nur die leicht steigenden Arztzahlen betrachtet, verschlie&#223;t die Augen vor der ganzen Wahrheit. Tats&#228;chlich &#246;ffnet sich die Schere zwischen Behandlungsbedarf und Behandlungskapazit&#228;ten immer weiter.&#8220; <TextLink reference="1"></TextLink>. So kommentierte der Pr&#228;sident der Bundes&#228;rztekammer Frank Ulrich Montgomery die bundesweite &#196;rztestatistik f&#252;r das Jahr 2016. L&#228;ngst sind &#8222;&#196;rztemangel&#8220; und &#8222;Fachkr&#228;ftemangel&#8220; fest etablierte Schlagw&#246;rter im gesundheitspolitischen Diskurs <TextLink reference="2"></TextLink>. Die Versorgungsl&#252;cke schlie&#223;en immer mehr &#196;rztinnen und &#196;rzte aus dem Ausland, deren Zahl sich in den letzten f&#252;nf Jahren fast verdoppelt und 2016 mit insgesamt 41.658 in Deutschland ein neues Rekordhoch erreicht hat <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>Beim Integrationsprozess in den Berufsalltag sind diese aber mit fachbezogenen, administrativen und kulturellen Herausforderungen konfrontiert, die sich immer auch sprachlich manifestieren. Mangelnde oder mangelhafte Kompetenzen f&#252;hren oft zu sinkender Behandlungsqualit&#228;t, geringer Patientenzufriedenheit und interkollegialen Konflikten und gef&#228;hrden somit erheblich die Patientensicherheit. Im Extremfall entscheidet das Scheitern von Kommunikation sogar &#252;ber Leben und Tod <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Kompetente Kommunikation, die Missverst&#228;ndnisse  ausr&#228;umt und verhindert, ist ein vitales Element &#228;rztlicher Praxis <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>Daher beschloss die 87. Gesundheitsministerkonferenz (GMK) 2014 die bundesweite Einf&#252;hrung einer Fachsprachenpr&#252;fung (FSP) f&#252;r Berufst&#228;tige in verkammerten akademischen Heilberufen unter Vorgabe grundlegender Mindestanforderung. Die Anforderungen schlie&#223;en ein simuliertes Berufsangeh&#246;riger-Patienten-Gespr&#228;ch, das Anfertigen eines in der &#228;rztlichen Praxis vorkommenden Schriftst&#252;ckes und ein Gespr&#228;ch mit einem Angeh&#246;rigen derselben Berufsgruppe ein. F&#252;r jeden Teil wurden 20 Minuten veranschlagt <TextLink reference="10"></TextLink> (vgl. Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Bis dato gibt es keine gemeinsamen Standards f&#252;r die testtheoretischen und methodischen Rahmenbedingungen der FSP. Die formellen Rahmenvorgaben der GMK beziehen sich vor allem auf das Sprachniveau C1 in einer fachsprachlichen Auspr&#228;gung. Mit diesen Vorgaben wurden zwar notwendige Rahmenbedingungen f&#252;r h&#246;here sprachliche Standards geschaffen; gleichzeitig liegt die Verantwortung, qualitativ hochwertige FSPen zu garantieren, bei den einzelnen L&#228;ndern. Anhand einer &#220;bersicht des Marburger Bunds zeigt sich eindr&#252;cklich die Diversit&#228;t in der Umsetzung der Sprachpr&#252;fung zwischen einzelnen Bundesl&#228;ndern <TextLink reference="11"></TextLink>. Das Fehlen einer bundesweit einheitlichen FSP birgt wiederum die Gefahr des &#8222;Pr&#252;fungstourismus&#8220;, der darin besteht, dass sich ausl&#228;ndische &#196;rztinnen und &#196;rzte bevorzugt in L&#228;ndern zur Pr&#252;fung anmelden, in denen die Pr&#252;fung leichter zu bew&#228;ltigen ist als in anderen Bundesl&#228;ndern. Der Freistaat Bayern, vertreten durch das Staatsministerium f&#252;r Gesundheit und Pflege (StMGP), beauftragte 2016 daher ein interdisziplin&#228;res Forscherteam der Ludwig-Maximilians-Universit&#228;t (LMU) aus den Bereichen Medizin, Medizindidaktik, Deutsch als Fremdsprache (DaF) und Psychometrie mit der Entwicklung einer validen, reliablen, fairen, authentischen, objektiven und &#246;konomisch durchf&#252;hrbaren Sprachpr&#252;fung f&#252;r ausl&#228;ndische Mediziner (SAM). Im englischsprachigen Raum gilt das australische Verfahren als f&#252;hrendes, da es auf &#228;hnlichen wissenschaftlich-methodischen Standards aufbaut <TextLink reference="12"></TextLink>. Eine Analyse dieses Verfahrens hat gezeigt, dass internationale Modelle zwar als Orientierungshilfe dienen k&#246;nnen. Auch das australische Verfahren entspricht jedoch nicht allen Kriterien der wissenschaftlichen Testentwicklung <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>. Eine eigenst&#228;ndige methodische Fundierung des SAM war deshalb unumg&#228;nglich. Der vorliegende Artikel skizziert die Konzeption und Pilotierung des SAM und stellt bisherige Ergebnisse vor.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Project Description and Methodology">
      <MainHeadline>2. Project Description and Methodology</MainHeadline><Pgraph>Considering the requirements as stated in the resolution of the 87th GMK, the research team developed a design concept that primarily focused on meeting the quality criteria of objectivity, reliability, validity and authenticity <TextLink reference="10"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>.</Pgraph><SubHeadline2>2.1. Design of the examination</SubHeadline2><Pgraph>The schematic design of the exam can be seen as displayed in figure 1 <ImgLink imgNo="1" imgType="figure"/>. <Mark2>Taking A Patient&#8217;s History and Patient Consultation Before A Surgical Procedure</Mark2> were chosen as topics for the part of doctor-patient-communication. When <Mark2>Taking A Patient&#8217;s History</Mark2>, the examination candidate has to verbally obtain information relevant to the patient&#8217;s medical condition, allow adequate time for the patient to report about his symptoms and create an atmosphere of respect. At the same time, the candidate&#8217;s ability to understand spoken language is tested. During the <Mark2>Patient Consultation</Mark2>, the focus shifts towards the transmission of information. The physician needs to explain the process of the upcoming surgical procedure, point out potential risks and give detail instructions about post-surgical precautions and measures. Focus of this test section is the use of vernacular (avoiding technical medical terms), ascertaining that the patient has understood all relevant information as well as verbally and nonverbally expressing empathy toward the patient&#8217;s questions and concerns.</Pgraph><Pgraph>A prototypical communication situation for the part &#8216;intercollegiate communication&#8217; is the presentation of a patient&#8217;s case to others: <Mark2>Relating A Patient&#8217;s History</Mark2> and condition to the senior physician. In this section of the test, which is also based on a simulated case scenario, the examinee has to use technical medical language and terminology to demonstrate successful communication with a colleague (here: a senior physician). Both the act of relaying information as well as stating clear and clarifying questions should be done in a concise way and with accuracy. </Pgraph><Pgraph>In contrast with other medical language exams in Germany and as required by the GMK, the SAM-test also includes the examination of communicative proficiency when it comes to conversations between physicians and professionals from other healthcare professions <TextLink reference="10"></TextLink>. The<Mark2> Instructive Conversation With A Nurse</Mark2> was thus chosen as a typical scenario for this type of communication format. In this test section, clearly stated instructions have to be given to a nurse. This should also happen while using appropriate technical language and terminology in a respectful atmosphere. </Pgraph><Pgraph>For the written part of the exam, an analysis of 200 physician letters from the fields of surgery and internal medicine at the university hospital of the LMU revealed that physician letters generally consist of four structural elements. Two of those, <Mark2>Case History and Reason for Admission</Mark2> and <Mark2>History and Treatment Plan</Mark2> were included in the SAM-test because of their high level of difficulty. The written part tests the examinee&#8217;s ability to receive and process language input along with the ability of making verbal expression in written form. </Pgraph><Pgraph>Cases from the subject areas of general medicine, internal medicine and surgery were chosen for the case scenarios. These areas generally correspond with the content areas of a subsequent examination that foreign physicians from countries which are not members of the European Union have to take in order to demonstrate their medical-technical know-how at the level of the 3<Superscript>rd</Superscript> State Examination before receiving their license to practice. Thus, setting the focus on these subject areas can be seen as justified regardless of the personal specialty area of each candidate.</Pgraph><Pgraph>Case scenarios were kept as general as possible in order to avoid focusing the exam too much on content specific to one area of medical practice. During the <Mark2>Patient Consultation</Mark2>, for example, examinees deal with scenarios from common surgical procedures such as a thyroidectomy or a tonsillectomy.</Pgraph><SubHeadline2>2.2. Format of the examination</SubHeadline2><Pgraph>The OSCE-format (Objective Structured Clinical Examination) was chosen for the SAM-test to meet the real (authentic) demands of everyday professional practice and at the same time create conditions comparable to those existing for medical students, who have to prove their medical know-how at a university. According to Miller, OSCE-exams offer the opportunity to not simply reproduce knowledge, but to show what one has learned in a practical, context-driven setting <TextLink reference="17"></TextLink>. From the viewpoint of medical educators, OSCEs have established themselves as reliable and valid instruments when it comes to testing clinical-practical knowledge <TextLink reference="18"></TextLink>. Brandes and Bagnasce et al. have further shown that OSCEs are well suited as a methodological setting for measuring communication skill levels in cultural and professional contexts <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>. Analogous to the OSCE-concept of multiple short test scenarios with a length of five to ten minutes, the SAM has been designed with two testing stations of ten minutes each for each one of the two areas that examine oral proficiency (cp. figure 1 <ImgLink imgNo="1" imgType="figure"/>). This leads to an increase in reliability, since the performance of the examinee can be observed four times in four different contexts. Additionally, ten minute scenarios more realistically represent the time frame available to physicians during their daily routine, which therefore increases the level of authenticity of the test. </Pgraph><SubHeadline2>2.3. The problem of interdependent testing station results</SubHeadline2><Pgraph>Current medical language examinations often use one case scenario throughout the entire test. From a psychometric point of view, however, this concept presents challenges: if <Mark2>one</Mark2> case scenario is used throughout the entire exam, this creates a dependency between the assessment items for each testing station of the exam: the results in one area no longer depend solely on the performance in that area, but also on the performance in preceding test areas <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>Additionally, the &#8220;one case scenario&#8221; model leads to a drastic reduction of<Mark2> fairness</Mark2>: if the candidate is accidentally tested in an area that s&#47;he is especially familiar with due to former experience or past medical education, his or her test performance is automatically better. Finally, using a model in which test areas are independent of each other alleviates the exchange of case scenarios that need to be removed from the exam due to repeated use: if a test consist of multiple case scenarios, it is possible to compare the level of difficulty of a new case scenario with the level of difficulty of existing ones; if, however, a test consists of only one case scenario, the exchange of that one scenario automatically leads to the exchange of the entire test. This, however, makes it impossible to assess the level of difficulty of the new case scenario in relation to other case scenarios. Therefore, different case scenarios with multiple testing stations have been used for the SAM-test.</Pgraph><SubHeadline2>2.4. Implementation and assessment</SubHeadline2><Pgraph>Every language examination that aims at testing the examinee&#39;s productive and receptive language abilities has to create communication situations that are as realistic as possible (authentic) and as reproducible as possible (objective and fair). This ensures that all candidates are tested within the same communicative contexts. To create such standardized communication settings, the SAM-test makes use of trained actors for the roles of the &#8220;patient&#8221; and the &#8220;nurse&#8221;. The role of the senior physician is filled by an actual, real-life physician. </Pgraph><Pgraph>Both the actor simulating the patient and the real-life physician attend multiple training units to prepare for their roles. The main emphasis of the training units is to create standardized test settings (objectivity, fairness) and to evoke language patterns that are specific to each case scenario. A script for the simulated patient with detailed instructions and additional questions was developed. </Pgraph><Pgraph>Current medical language examinations in other German states assess the examinee&#39;s performance in a synchronous way: a group of raters present in the testing room observe the candidate&#39;s performance and evaluate it, often with the help of standardized assessment sheets. Synchronous assessments of oral performance, however, are problematic in many ways: what is expressed verbally is fleeting by nature and cannot be reviewed; assessment is also made &#8220;out of the (ongoing) situation&#8221; and raters are often participants in the communication situation. </Pgraph><Pgraph>Asynchronous assessment with raters who are not part of the communication situation and who only assess the oral parts of the exam, however, allows for repeated, independent and standardized listening to the candidate&#8217;s performance and thus increases the objectivity of results. Therefore, oral test parts are video-recorded in the SAM-test. This method of testing and performance evaluation, called VOSCE (Video-Recorded Objective Structured Clinical Examination), has successfully proven to be a feasible, reliable and valid method to assess communication ability in other medical contexts <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>. Since storing and accessing recorded test data can be problematic in view of strict data protection and privacy laws, a special software program was developed. This program records each performance through an external camera attached to a laptop computer and stores the recorded, pseudonymized data on a password-protected server, which allows for secure access of recordings by the team of test raters at a later point in time. This team consists of one physician and one linguist with a background in German as a Second Language theory and test methodology. An itemized rating scale was developed for each testing station (<Mark2>History Taking, Patient Consultation</Mark2>, etc.). For each item, the rater must choose between three different possibilities: &#8220;Standard was met&#8221;, &#8220;Standard was not met&#8221; and &#8220;Not sure&#8221;. The option &#8220;Standard was met&#8221; is equivalent to one point, the option &#8220;Standard was not met&#8221; to 0 points and the option &#8220;Not sure&#8221; to 0.5 points. All items are categorized according to the typical structure of the professional language in use, the linguistic pattern or style, the behavior in the communication situation as well as the global impression of the performance in the communication situation as a whole. Each rating scale consists of between 11 and 17 items, which adds up to a total of 83 items for the SAM-test (cp. table 1 <ImgLink imgNo="1" imgType="table"/>). An example of a rating scale for the subpart <Mark2>History Taking</Mark2> can be found in attachment 1 <AttachmentLink attachmentNo="1"/>.</Pgraph><Pgraph>A supplementary sheet for each rating scale explains the intended use of the items and gives case-specific examples. This complies with the requirements of the Association of Language Testers in Europe (ALTE) for language test assessment procedures <TextLink reference="24"></TextLink>, and increases the probability of a standardized and consistent rating process. Additionally, the test-developers provided a training session (ca. one hour) for each new team of test-raters in order to explain the rating process and answer any pending questions. </Pgraph><Pgraph>Rating of test performances first occurs individually. Afterwards, the team of raters has to agree unanimously whether a candidate passes or fails the test. After assessing the test performance individually, raters compare their results and must reach a consensus for any diverging assessment of the rating scale items. The cumulative result of all six testing stations finally decides whether a candidate passes the test or not. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Projektbeschreibung und Methodik">
      <MainHeadline>2. Projektbeschreibung und Methodik</MainHeadline><Pgraph>Unter R&#252;cksichtnahme auf die im Eckpunktepapier der 87. GMK genannten Vorgaben entwickelte das SAM-Team ein Konzept, das v.a. die testtheoretischen G&#252;tekriterien der Objektivit&#228;t, Reliabilit&#228;t, Validit&#228;t und Authentizit&#228;t erf&#252;llen soll <TextLink reference="10"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>.</Pgraph><SubHeadline2>2.1. Pr&#252;fungsaufbau</SubHeadline2><Pgraph>Der Aufbau des SAM ist in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> dargestellt. F&#252;r den Bereich Arzt-Patienten-Kommunikation wurde das F&#252;hren eines <Mark2>Anamnesegespr&#228;chs</Mark2>, sowie das F&#252;hren eines vorbereitenden <Mark2>Aufkl&#228;rungsgespr&#228;chs &#252;ber eine Operation</Mark2> (OPV) gew&#228;hlt. Beim <Mark2>Anamnesegespr&#228;ch muss</Mark2> der Pr&#252;fling die f&#252;r eine Anamnese notwendigen Informationen vom Patienten einholen, ihm Raum zum Berichten &#252;ber Beschwerden einr&#228;umen und eine respektvolle Gespr&#228;chsatmosph&#228;re schaffen. Gleichzeitig wird die rezeptive Sprachkompetenz gepr&#252;ft. Im Teilbereich OPV liegt der Fokus auf der Informationsvermittlung. Der Arzt soll dem Patienten den Ablauf einer bevorstehenden Operation, die Risiken des Eingriffs, sowie postoperative Verhaltensma&#223;nahmen vermitteln. Das Augenmerk liegt hier auf der Verwendung von Laiensprache (allgemeinsprachliche Ausdr&#252;cke statt medizinischer Fachbegriffe), dem R&#252;ckversichern, dass der Patient alle Informationen verstanden hat, sowie dem verbalen und nonverbalen Ausdruck von Empathie bei Bedenken und Fragen.</Pgraph><Pgraph>Als prototypische Kommunikationssituation f&#252;r professionelle Interaktion wurde die <Mark2>Patientenvorstellung</Mark2> &#8211; der Stationsarzt berichtet dem Oberarzt &#8211; ermittelt. Hier soll der Gepr&#252;fte in einer simulierten Patientenvorstellung unter Einsatz berufssprachlicher Begriffe und Redewendungen das Kommunizieren unter Kollegen (hier: Oberarzt) unter Beweis stellen. Sowohl die Informationsweitergabe als auch R&#252;ckfragen sollen knapp und pr&#228;zise formuliert werden. </Pgraph><Pgraph>Im Gegensatz zu anderen Fachsprachentests in Deutschland schlie&#223;t der SAM auch die per GMK geforderte &#220;berpr&#252;fung fachsprachlicher Kompetenzen zwischen &#196;rzten und Angeh&#246;rigen anderer Heilberufe ein <TextLink reference="10"></TextLink>. Als typische Kommunikationssituation wurde hierf&#252;r das Anweisungsgespr&#228;ch <Mark2>mit einem Krankenpfleger&#47;einer -pflegerin</Mark2> gew&#228;hlt. Im Arzt-Pfleger-Gespr&#228;ch werden klar verst&#228;ndliche Weisungen an einen Pfleger weitergegeben. Dies soll ebenfalls unter Verwendung berufssprachlicher Begriffe und Redewendungen in respektvoller Gespr&#228;chsatmosph&#228;re geschehen. </Pgraph><Pgraph>F&#252;r den schriftlichen Teilbereich des Tests ergab eine Korpusanalyse von 200 Arztbriefen aus Chirurgie und Innerer Medizin am Klinikum der LMU hinsichtlich Struktur und sprachlicher Gestaltung, dass Arztbriefe in der Regel aus vier typischen Strukturelementen bestehen. Von diesen wurden zwei &#8211; <Mark2>Anamnese mit Aufnahmegrund</Mark2> und <Mark2>Verlauf und Procedere</Mark2> &#8211; aufgrund der hohen sprachlichen Anforderung in den schriftlichen Teil des SAM &#252;bernommen. Der schriftliche Teil pr&#252;ft die Rezeptionsf&#228;higkeit und Verarbeitung sprachlichen Inputs, sowie die schriftsprachliche Ausdrucksf&#228;higkeit des Pr&#252;flings.</Pgraph><Pgraph>F&#252;r die Fallvignetten wurden F&#228;lle aus den Fachbereichen &#8222;Allgemeinmedizin&#8220;,  &#8222;Innere Medizin&#8220; und &#8222;Chirurgie&#8220; gew&#228;hlt. Diese Bereiche decken sich weitgehend mit den Inhalten der Kenntnispr&#252;fung, die ausl&#228;ndische &#196;rztinnen und &#196;rzte aus Drittstaaten (nicht EU) nach erfolgreichem Bestehen der Fachsprachenpr&#252;fung ablegen m&#252;ssen, um ihr medizinisch-fachliches Wissen auf Niveau des 3. Staatsexamen nachzuweisen, bevor sie die Approbation erhalten. </Pgraph><Pgraph>Unabh&#228;ngig von der pers&#246;nlichen fachlichen Spezialisierung der Pr&#252;flinge kann daher eine Konzentration auf diese Fachgebiete als gerechtfertigt angesehen werden. </Pgraph><Pgraph>Um eine Fokussierung der Pr&#252;fung auf fachspezifische Inhalte zu vermeiden, wurden die Fallszenarien so allgemein wie m&#246;glich gehalten. Z.B. behandelt das Aufkl&#228;rungsgespr&#228;ch h&#228;ufige chirurgische Eingriffe wie die Operation an der Schilddr&#252;se oder die Tonsillektomie. </Pgraph><SubHeadline2>2.2. Pr&#252;fungsformat</SubHeadline2><Pgraph>Um den realen (authentischen) Anforderungen der Berufspraxis gerecht zu werden und damit gleichzeitig vergleichbare Bedingungen zum Nachweis medizinischer Kompetenzen im Studium anzusetzen, wurde das <Mark2>OSCE</Mark2>-Format (Objective Structured Clinical Examination) f&#252;r den SAM gew&#228;hlt. Nach Miller bieten OSCE-Pr&#252;fungen die M&#246;glichkeit, Wissen nicht nur zu reproduzieren, sondern Gelerntes in kontextuell-situativer Praxis zu <Mark2>zeigen</Mark2> <TextLink reference="17"></TextLink>. Aus medizindidaktischer Sicht haben sich OSCEs als reliables und valides Instrument zur Pr&#252;fung klinisch-praktischer F&#228;higkeiten international etabliert <TextLink reference="18"></TextLink>. Brandes und Bagnasco et al. haben zudem gezeigt, dass sich OSCEs auch als methodisches Setting f&#252;r die Messung kommunikativer Kompetenzen in kulturellen und professionellen Kontexten eignen <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>. </Pgraph><Pgraph>Analog zum OSCE-Konzept kurzer Pr&#252;fungsstationen von f&#252;nf bis zehn Minuten sieht der SAM jeweils zwei Stationen &#224; zehn Minuten f&#252;r jeden der zwei m&#252;ndlichen Pr&#252;fungsbereiche vor (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Dies f&#252;hrt zu einer erh&#246;hten Reliabilit&#228;t, da das Verhalten des Pr&#252;fungsteilnehmers dadurch insgesamt viermal  in unterschiedlichen Kontexten beobachtet werden kann. Zehnmin&#252;tige Stationen stellen zudem eine realistische Abbildung der zeitlichen Ressourcen im Arbeitsalltag von &#196;rztinnen und &#196;rzten dar, was sich wiederum positiv auf das Authentizit&#228;tskriterium auswirkt.</Pgraph><SubHeadline2>2.3. Abh&#228;ngigkeit der Pr&#252;fungsteile</SubHeadline2><Pgraph>Bestehende Fachsprachenpr&#252;fungen testen meist einen einzigen Fall &#252;ber alle vorgegebenen Pr&#252;fungsbereiche hinweg. Aus psychometrischer Sicht ist dieses Konzept problematisch: kommt <Mark2>ein</Mark2> Pr&#252;fungsfall &#252;ber die gesamte Pr&#252;fung zum Einsatz, entsteht dadurch ein Abh&#228;ngigkeitsverh&#228;ltnis zwischen den Bewertungskriterien der Pr&#252;fungsbereiche. Die Leistung in einem Bereich h&#228;ngt dann nicht mehr ausschlie&#223;lich von der Kompetenz in diesem Bereich ab, sondern auch von der Leistung in bereits durchlaufenen Testabschnitten <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>Zugleich f&#252;hrt das Ein-Fall-Szenario zu einer deutlichen Reduktion der Fairness: bekommt der Teilnehmer z. B. zuf&#228;llig einen Fall aus einem  Fachgebiet, mit dem er oder sie durch bisherige &#228;rztliche T&#228;tigkeit besonders vertraut ist, f&#252;hrt dies automatisch zu einer besseren Pr&#252;fungsleistung und umgekehrt. Schlie&#223;lich erleichtert das Modell voneinander unabh&#228;ngiger Testbereiche den durch Pr&#252;fungsverschlei&#223; bedingten Austausch &#228;lterer Fallszenarien: besteht ein Test aus mehreren F&#228;llen, ist es m&#246;glich, die Schwierigkeit eines neu eingef&#252;hrten Falls mit den bestehenden F&#228;llen mit bekannter Schwierigkeit zu vergleichen; besteht ein Test dagegen nur aus einem Fall, bedeutet der Austausch eines Falls automatisch den Austausch des gesamten Tests. Somit ist keine vergleichbare Einsch&#228;tzung der Schwierigkeit des neuen Falls m&#246;glich. F&#252;r den SAM liegen daher unterschiedliche F&#228;lle pro Pr&#252;fungsbereich zugrunde.</Pgraph><SubHeadline2>2.4. Durchf&#252;hrung und Bewertung </SubHeadline2><Pgraph>Jede Sprachpr&#252;fung, die die rezeptive und produktive Sprachleistung der Teilnehmer testen soll, muss Kommunikationssituationen schaffen, die so realit&#228;tsnah wie m&#246;glich (authentisch) und so wiederholbar wie m&#246;glich (objektiv und fair) sind. Damit wird gew&#228;hrleistet, dass alle Teilnehmer im gleichen kommunikativen Kontext getestet werden. Um solch standardisierte Kommunikationssituationen zu schaffen, werden im SAM ausgebildete Schauspieler f&#252;r die Rollen &#8222;Patient&#8220; und &#8222;Pflegekraft&#8220; eingesetzt. Die Rolle des vorgesetzten Arztes im Arzt-Arzt-Gespr&#228;ch &#252;bernimmt ein Arzt.</Pgraph><Pgraph>Sowohl Schauspielpatienten als auch Arzt wurden in mehrst&#252;ndigen Einheiten trainiert und geschult. Hauptaugenmerk der Schulungen lag dabei auf der Vereinheitlichung der Pr&#252;fungssituation (Objektivit&#228;t, Fairness) und dem Evozieren fallspezifischer Sprachhandlungen. Pro m&#252;ndliche Station wurde ein Skript f&#252;r die Schauspielpatienten mit detaillierten Gespr&#228;chsanleitungen und Zusatzfragen erarbeitet. </Pgraph><Pgraph>Bereits bestehende Fachsprachpr&#252;fungen in anderen Bundesl&#228;ndern bewerten die Leistung der gepr&#252;ften Person synchron: mehrere Pr&#252;fer sitzen mit im Raum und bewerten die Leistung des Pr&#252;flings, meist auf Grundlage vorgefertigter Bewertungsb&#246;gen. Synchrone Bewertungen m&#252;ndlicher Pr&#252;fungsleistungen sind jedoch in verschiedener Hinsicht problematisch: das Gesagte ist fl&#252;chtig und kann nicht wiederholt werden; es wird zudem nur &#8216;aus der Situation&#8217; bewertet und das oft von einer an der Kommunikationssituation beteiligten Person. </Pgraph><Pgraph>Eine asynchrone Bewertung mit unabh&#228;ngigen Bewertern hingegen, die nur den m&#252;ndlichen Text bewerten, erm&#246;glicht das wiederholte, unabh&#228;ngige, standardisierte Anh&#246;ren der Pr&#252;fungsleistung und steigert somit die Auswertungsobjektivit&#228;t. Im SAM werden die m&#252;ndlichen Teilbereiche daher per Video aufgezeichnet. Diese VOSCE (<Mark2>Video-Recorded Objective Structured Clinical Examination</Mark2>) genannte Pr&#252;fungs- und Bewertungsform wurde bereits als durchf&#252;hrbare, reliable und valide Methode zur Bewertung kommunikativer F&#228;higkeiten in anderen medizinischen Kontexten erfolgreich erprobt <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>. Da Speicherung und Zugriff auf aufgezeichnete Pr&#252;fungsleistungen aus datenschutztechnischen Gr&#252;nden oft problematisch ist, wurde hierf&#252;r eigens ein Computerprogramm entwickelt, das die Pr&#252;fungsleistungen &#252;ber eine an einem Laptop angeschlossene Kamera aufzeichnet, diese auf einem gesch&#252;tzten Server pseudonymisiert speichert und dem Bewerterteam schlie&#223;lich zu einem sp&#228;teren Zeitpunkt sicheren Zugang zu den Dateien gew&#228;hrt.</Pgraph><Pgraph>Das Bewerterteam besteht dabei aus einer &#196;rztin oder einem Arzt und einem Sprachwissenschaftler mit testmethodischem Fachwissen zu Deutsch als Fremdsprache. F&#252;r die Bewertung wurde pro Pr&#252;fungsstation (Anamnese, OPV, etc.) eine eigene Skala entwickelt. Die Bewerter w&#228;hlen bei jedem Item eine von drei Antwortm&#246;glichkeiten: &#8222;Trifft eher zu&#8220;, &#8222;Trifft eher nicht zu&#8220; und &#8222;Uneindeutig&#8220;. Die Antwortoption &#8222;Trifft eher zu&#8220; wird mit einem Punkt bewertet, die Option &#8222;Trifft eher nicht zu&#8220; mit 0 Punkten und die Option &#8222;Uneindeutig&#8220; mit 0,5 Punkten. Die zu bewertenden Items sind bez&#252;glich der fachsprachentypischen Struktur, der sprachlichen Gestaltung und des kommunikativen Verhaltens, sowie der globalen Einsch&#228;tzung des gesamten Gespr&#228;chs gruppiert. Pro Teilstation wurden zwischen 11 und 17 Items erstellt, was einer Gesamtzahl von 83 Items f&#252;r den SAM insgesamt entspricht (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Eine Beispielskala f&#252;r die Station Anamnesegespr&#228;ch findet sich in Anhang 1 <AttachmentLink attachmentNo="1"/>.</Pgraph><Pgraph>Ein der Skala angeh&#228;ngtes Beiblatt erkl&#228;rt die Intention und die Verwendung der Items im Bewertungsprozess und gibt fallspezifische Beispiele. Dies entspricht den Forderungen der Association of Language Testers in Europe (ALTE) zur Bewertung von Sprachtests <TextLink reference="24"></TextLink> und steigert die Wahrscheinlichkeit einer einheitlichen Bewertung. Zus&#228;tzlich erhielt das Bewerterteam direkt vor der ersten Bewertung eine ca. einst&#252;ndige Schulung durch die Testautoren, in denen das Bewertungsverfahren und die Skalen erkl&#228;rt und Fragen beantwortet wurden.</Pgraph><Pgraph>Die Experten m&#252;ssen einstimmig &#252;ber das Bestehen oder Nicht-Bestehen eines Pr&#252;flings entscheiden, wobei die Bewertung zun&#228;chst getrennt erfolgt. Nach getrennter Bewertung vergleichen die Bewerter das Ergebnis und einigen sich bei abweichender Bewertung auf einen Wert. Die kumulative Leistung in den sechs Teilbereichen entscheidet schlie&#223;lich &#252;ber Bestehen oder Nichtbestehen. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Pilot Testing of the SAM-Test">
      <MainHeadline>3. Pilot Testing of the SAM-Test</MainHeadline><SubHeadline2>3.1. Implementation</SubHeadline2><Pgraph>During the pilot testing phase, the SAM-test was validated in three simulated trial runs. A total of 19 candidates participated in the trial runs. These came either from the pool of international medical students at the LMU (n&#61;10) or from the pool of international physicians who live in Germany, but do not yet have their license to practice medicine (n&#61;9). With the help of these simulations, it could be determined how feasible it was to implement the design of the SAM-test. Additionally, the results were used to determine to which degree rater evaluations of performances are in agreement, to measure reliability, to evaluate the prognostic ability of the test and to determine the pass&#47;fail mark. In order to determine the pass&#47;fail mark and to understand the prognostic ability of the test, a benchmark (gold standard) was used: In addition to the (regular) assessment of participants&#8217; performance in the SAM-test by a team of test raters, an expert team consisting of two professionals from the subject areas &#8220;Medicine&#8221; and &#8220;German as a Foreign Language&#8221; with many years of experience in assessing communication performances joined the rating process. These experts used a global rating system to determine whether candidates had reached the minimal requirement of the C1 language level. Comparing the itemized results of the regular rating team with the assessment of the two expert raters (which was used as the gold standard) allowed for evaluating the quality of the SAM-test as well as for setting the pass&#47;fail mark. </Pgraph><SubHeadline2>3.2. Results</SubHeadline2><Pgraph>It is best to use Cohens Kappa to determine as to which degree the two raters&#39; performance evaluations are in agreement. This indicates to what extent the consensus of the two raters is higher when compared with a set of randomly generated evaluations. Possible values range from 0 to 1. Through the use of training sessions, the SAM-team was able to raise the consensual value of evaluations from .49 to .72. At the end of the pilot testing phase, the percentage of consensual evaluations was at 88&#37; (cp. to 80&#37; at the outset). </Pgraph><Pgraph>Because of missing data as well as minor adjustments of the rating scales between the first and subsequent trial runs, the reliability of the overall SAM-scale could only be calculated for ten candidates and 81 items. The internal consistency of this set of 81 items, calculated with the use of Cronbach&#39;s alpha, was .85. The reliability values for each testing station (for which there is more data) can be seen in table 1 <ImgLink imgNo="1" imgType="table"/>. </Pgraph><Pgraph>On average, all candidates fulfilled M&#61;55&#37; (SD&#61;22&#37;) of the 83 items of the six rating scales. A benchmark (gold standard) could be set for 18 candidates. Five were rated as reaching the minimum qualification of the C1 language level. The performance result of M&#61;69&#37; (SD&#61;19&#37;) of these five candidates was higher than the performance result of those who did not achieve the minimum requirements according to the benchmark (gold standard) (M&#61;46&#37;, SD&#61;14&#37;). To accurately examine the prognostic ability of the SAM-test (in relation to the eligibility of the candidates), a ROC-analysis was used (receiver operating characteristics) <TextLink reference="25"></TextLink>. This analysis determines to what extent the performance in a test corresponds with the &#8220;actual&#8221; proficiency of the candidate (represented by the benchmark). The global quality level of the test can thus be quantified by using the AUC-value (area under the curve). The AUC-value can range from 0 to 1. An AUC-value of 0.5 means that the test is no better than mere chance in determining which candidate is qualified and which one is not. An AUC-value of 1 means that the assessment of all candidates is correct. For the SAM-test, an AUC-value of .83 was determined. According to current test methods, this shows a strong effect and emphasizes the prognostic quality of the SAM-test <TextLink reference="26"></TextLink>.</Pgraph><Pgraph>Moreover, the pass&#47;fail mark was determined with the help of the ROC-analysis. To do this, the Youden-Index was used <TextLink reference="27"></TextLink>. This index combines the sensitivity (the number of candidates who are qualified and are correctly identified as such by the test) and specificity (the number of candidates who are not qualified and are correctly identified as such by the test) of the test into one single value. Higher values are desired. A pass&#47;fail mark of 50&#37; produced a value of .49. At this mark, the values of sensitivity and specificity were at .80 and .69 respectively. The PPV (positive predictive value; the probability that a candidate is truly qualified once the pass&#47;fail mark has been reached) lies at .50 for this threshold, and the NPV (negative predictive value; the probability that a candidate is truly unqualified if the pass&#47;fail mark is not reached) at .90. A pass&#47;fail mark of &#62;60&#37; results in a Youden-Index value of .52. Even though the sensitivity drops to .60, the specificity value rises to .92. The PPV is .75 and the NPV .86. If the Youden-Index is used as a criterion and one assumes that the highest priority of any medical language examination is to prevent possible damage to the general public, a more conservative threshold of &#62;60&#37; should be used. In this context, &#8220;conservative&#8221; means that a candidate whose performance falls in the borderline area between qualified and unqualified is deemed as unqualified. The data of the trial runs even allow for the possibility to raise the pass&#47;fail mark to 70&#37;. Without loss of sensitivity, this would result in a rise of the specificity value to 1. However, since the distribution of data suggests that at such a pass&#47;fail rate, the sensitivity value would drop off once larger data sets are used, and since the specificity value at the &#62;60&#37; mark is already very high (.92&#37;), a pass&#47;fail mark of &#62;60&#37; is suggested for the SAM-test. Table 2 <ImgLink imgNo="2" imgType="table"/> represents an overview of the most important statistical results.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Pilotierung des SAM">
      <MainHeadline>3. Pilotierung des SAM</MainHeadline><SubHeadline2>3.1. Durchf&#252;hrung</SubHeadline2><Pgraph>In der Pilotierungsphase wurde der Test in drei Simulationen erprobt. Insgesamt nahmen an den drei Simulationen 19 Pr&#252;flinge teil. Testteilnehmer waren dabei entweder ausl&#228;ndische Medizinstudierende der LMU (n&#61;10), oder ausl&#228;ndische &#196;rztinnen und &#196;rzte, die noch keine Approbation in Deutschland haben (n&#61;9). Mit Hilfe der Simulationen konnte einerseits die Durchf&#252;hrbarkeit des Tests &#252;berpr&#252;ft werden. Andererseits wurden die Ergebnisse genutzt, um die Beobachter&#252;bereinstimmung, Reliabilit&#228;t und prognostische G&#252;te des SAM zu bestimmen, sowie, um die Bestehensgrenze festzulegen. </Pgraph><Pgraph>Um die prognostische G&#252;te zu &#252;berpr&#252;fen und die Bestehensgrenze festzulegen, wurde ein sogenannter Goldstandard ermittelt: neben der regul&#228;ren Beurteilung der Pr&#252;fungsleistungen von einem Bewerterteam, kam ein Expertenteam mit langj&#228;hriger Erfahrung in der Bewertung kommunikativer Pr&#252;fungsleistungen aus den Bereichen Medizin und Deutsch als Fremdsprache zum Einsatz. Diese Experten beurteilten auf globaler Ebene, ob die Pr&#252;flinge mindestens das C1-Niveau erreicht haben. Der Vergleich der regul&#228;r bewerteten Items mit diesem globalen Expertenurteil, das den sogenannten Goldstandard darstellt, erlaubt es die Qualit&#228;t des SAM zu beurteilen und eine Bestehensgrenze festzulegen. </Pgraph><SubHeadline2>3.2. Ergebnisse</SubHeadline2><Pgraph>Die &#220;bereinstimmung des Bewerterteams bei der Beurteilung der 83 Items l&#228;sst sich am besten mit Cohens Kappa ermitteln. Dies gibt an, inwieweit die &#220;bereinstimmung der beiden Bewerter bzgl. der abgegebenen Bewertungen im Vergleich mit zuf&#228;llig generierten Bewertungen h&#246;her ausf&#228;llt. M&#246;gliche Werte liegen zwischen 0 und 1. Die so erfasste &#220;bereinstimmung lie&#223; sich durch die durchgef&#252;hrten Schulungen von .49 auf .72 steigern. Die prozentuale &#220;bereinstimmung lag am Ende der Pilotierungsphase bei 88&#37; (zu Beginn: 80&#37;).</Pgraph><Pgraph>Aufgrund fehlender Daten und leicht unterschiedlicher Itemzusammenstellungen zwischen der ersten und den weiteren beiden Erprobungen konnte die Reliabilit&#228;t der Gesamtskala des SAM nur f&#252;r zehn Pr&#252;flinge anhand 81 Items berechnet werden. F&#252;r die Menge dieser 81 Items betrug die mit Cronbachs alpha berechnete interne Konsistenz .85. Die Reliabilit&#228;ten der Teilstationen (f&#252;r die mehr Daten vorhanden sind) k&#246;nnen Tabelle 1 <ImgLink imgNo="1" imgType="table"/> entnommen werden.</Pgraph><Pgraph>Im Durchschnitt erf&#252;llten die Pr&#252;flinge M&#61;55&#37; (SD&#61;20&#37;) der 83 Items der sechs Skalen. Die Goldstandardsetzung konnte bei 18 Pr&#252;flingen durchgef&#252;hrt werden. F&#252;nf wurden dabei als fachsprachlich qualifiziert (auf dem C1-Niveau) eingestuft. Die Leistung dieser f&#252;nf Pr&#252;flinge im SAM lag dabei mit M&#61;69&#37; (SD&#61;19&#37;) &#252;ber der Leistung derer, die laut Goldstandard nicht als fachsprachlich qualifiziert gelten (M&#61;46&#37;, SD&#61;14&#37;). Um die prognostische Qualit&#228;t des SAM (in Bezug auf die Eignung der Pr&#252;flinge) genauer zu untersuchen, wurde eine sogenannte ROC-Analyse (receiver operating characteristic) durchgef&#252;hrt <TextLink reference="25"></TextLink>. Diese ermittelt, inwieweit die Pr&#252;fungsleistung in einem Test mit der &#8222;wirklichen&#8220; Leistung der Pr&#252;flinge (die durch den Goldstandard abgebildet wird) &#252;bereinstimmt. Die globale G&#252;te des Tests kann dabei mit Hilfe des AUC-Werts (area under the curve) quantifiziert werden. Der AUC-Wert kann zwischen 0 und 1 liegen. Eine AUC von .5 bedeutet, dass der Test nicht besser als der Zufall zwischen geeigneten und ungeeigneten Pr&#252;flingen unterscheidet. Eine AUC von 1 bedeutet, dass alle Pr&#252;flinge korrekt eingesch&#228;tzt werden. F&#252;r den SAM ergab sich eine AUC von .83, was nach g&#228;ngigen Messverfahren einer gro&#223;en Effektst&#228;rke entspricht und damit die prognostische Qualit&#228;t des SAM unterstreicht <TextLink reference="26"></TextLink>.</Pgraph><Pgraph>Mit Hilfe der ROC-Analyse wurde zudem die Bestehensgrenze ermittelt. Dabei wurde der Youden-Index herangezogen <TextLink reference="27"></TextLink>. Dieser Index kombiniert die Sensitivit&#228;t (die Rate der qualifizierten Pr&#252;flinge, die vom Test korrekt erkannt werden) und Spezifit&#228;t (die Rate der unqualifizierten Pr&#252;flinge, die vom Test korrekt erkannt werden) des Tests zu einem einzelnen Wert. H&#246;here Werte sind dabei w&#252;nschenswert. Eine Bestehensgrenze von &#62;50&#37; erzielte dabei den Wert .49. An dieser Grenze betragen die Sensitivit&#228;t .80 und die Spezifit&#228;t .69. Der PPV (positive predictive value; die Wahrscheinlichkeit, dass ein Pr&#252;fling wirklich qualifiziert ist, wenn die Bestehensgrenze erreicht wird) liegt an dieser Schwelle bei .50 und der NPV (negative predictive value; die Wahrscheinlichkeit, dass ein Pr&#252;fling wirklich nicht qualifiziert ist, wenn die Bestehensgrenze nicht erreicht wird) liegt bei .90.</Pgraph><Pgraph>Eine Bestehensgrenze von &#62;60&#37; erreicht einen Youden-Index von .52. Zwar sinkt die Sensitivit&#228;t auf .60, aber die Spezifit&#228;t steigt daf&#252;r auf .92. Der PPV betr&#228;gt .75 und der NPV .86. Wenn man den Youden-Index als Kriterium heranzieht und davon ausgeht, dass es die h&#246;chste Priorit&#228;t eines Tests ist, der &#252;ber die Zulassung zur Arbeit als Arzt entscheidet, m&#246;glichen Schaden von der Bev&#246;lkerung abzuwenden, so sollte die konservative Grenze von &#62;60&#37; herangezogen werden. &#8222;Konservativ&#8220; bedeutet in diesem Zusammenhang, dass ein Pr&#252;fling im Grenzbereich eher als unqualifiziert eingestuft wird. Die Daten der Erprobung erlauben sogar die M&#246;glichkeit, die Grenze auf &#62;70&#37; zu legen. Ohne Sensitivit&#228;tsverlust w&#252;rde dabei die Spezifit&#228;t auf 1 steigen. Da die Verteilung der Daten allerdings nahelegt, dass die Sensitivit&#228;t bei einer gr&#246;&#223;eren Datenmenge bei einer solchen Grenze abfallen w&#252;rde, und da die Spezifit&#228;t mit .92 bereits sehr hoch ist bei einer Grenze von &#62;60&#37;, wird zu einer Grenze von &#62;60&#37; f&#252;r den SAM geraten. Tabelle 2 <ImgLink imgNo="2" imgType="table"/> bietet eine &#220;bersicht der wichtigsten Ergebnisse.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Discussion and Conclusion">
      <MainHeadline>4. Discussion and Conclusion</MainHeadline><Pgraph>Good results were achieved especially in the areas of fairness, authenticity and objectivity. In this context, it is important to again emphasize the importance of coaching all actors who participate as simulated patients in the communication situation. Only if the simulated patient acts in a consistent matter towards each and every candidate can a reproducible test environment be guaranteed. The resulting increase in test-objectivity in turn has a positive effect on the reliability and validity of the test. Inversely, the low reliability value of the testing station <Mark2>Patient Consultation</Mark2> could possibly be explained by referring to the occasional but unintended observation of simulated patients giving assistance during the communication situation. It is possible that simulated patients (who do not have a background in medicine) give cues to weaker candidates out of a feeling of empathy. This would reduce the systematic variance of results and thus affect reliability. This and other data collected within the context of this project about the respective peculiarities and challenges that both simulated patients and exam candidates encounter within each communication situation of the test can therefore serve as an initial basis for the development of a standardized, scientifically verified training method. </Pgraph><Pgraph>Another strength of the SAM-test lies within the concept of evaluating test performances in an asynchronous manner. Test raters who experience the communication situation &#8220;live&#8221; or are even part of the communication situation themselves increase the risk of introducing <Mark2>bias</Mark2> into the rating of the candidate&#39;s performance. The model of asynchronous assessment of test performance used in the SAM-test contributes to a fair and objective evaluation of all examinees und thus reduces the risk of legal complaints on the part of exam candidates. </Pgraph><Pgraph>The validity values of the SAM-test based on the ROC-analysis of data from the pilot testing phase are promising. This is especially so considering that, according to the benchmark (gold standard), the rate of qualified candidates was low, which in turn complicates the process of identifying qualified candidates. When analyzing the results, it is furthermore important to bear in mind that half of the participants in the trial runs were foreign students. Since students have less experience and knowledge than experienced physicians, it is possible that this contributed to a distortion of the collective performance results of all candidates. Within the sample group of experienced physicians, the rate of qualified candidates should thus be higher. It is further necessary to take into consideration that the relatively small sample group from all three trial runs implies a high level of uncertainty of all test parameters. A more systematic validation of the test is therefore absolutely necessary. For example, the overall good validity of rating scales during the pilot testing phase and subsequent performance assessment is at odds with the unsatisfactory reliability values of the rating scales for two testing stations (<Mark2>Patient Consultation</Mark2> and<Mark2> Instructing a Nurse</Mark2>). Future trials that intend to reduce the deficiency of above mentioned scales and aim at increasing the psychometric quality of all scales could therefore especially benefit from trial samples of larger size and consisting of a more homogenous group of candidates respective their language ability and proficiency. A more precise measurement of the reliability value of the SAM-test would thus be a natural consequence of a larger sample size. </Pgraph><Pgraph>Another weakness of the SAM-test lies in the initial investment costs needed for setting up the test environment (software program and training of the simulated patients and raters). The longer the SAM-test runs, however, the more should its strengths serve to offset this disadvantage. </Pgraph><Pgraph>Further action is needed regarding the distribution of the number of items for the rating scales. The item number for the scales of each individual testing station varies between 11 and 17. In order to give equal weight to the scale of each testing station, a retroactive adjustment is recommended to avoid the need to artificially increase or decrease the number of items. Before calculating the total sum value for the entire test, the point value achieved in each of the six testing stations would have to be multiplied by different coefficients so that the candidate can achieve exactly <Superscript>1</Superscript>&#8260;<Subscript>6</Subscript> of the total maximum points in each testing station.  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Diskussion und Schlussfolgerung">
      <MainHeadline>4. Diskussion und Schlussfolgerung</MainHeadline><Pgraph>Besonders in den Bereichen der Test-Fairness, Authentizit&#228;t und Objektivit&#228;t konnten gute Ergebnisse erzielt werden. In diesem Zusammenhang ist die Wichtigkeit der Schulung der an der Kommunikationssituation beteiligten Schauspielpatienten nochmals zu betonen. Erst das korrekte Verhalten der Schauspielpatienten dem jeweiligen Pr&#252;fungsteilnehmer gegen&#252;ber gew&#228;hrleistet eine konstante Testumgebung. Die dadurch erh&#246;hte Test-Objektivit&#228;t wirkt sich ihrerseits positiv auf die Reliabilit&#228;t und Validit&#228;t aus. So k&#246;nnte umgekehrt auch die geringe Reliabilit&#228;t der Teilstation OP-Vorbereitung eventuell durch nicht vorgesehene Hilfestellungen der Schauspielpatienten, die teilweise bei der Erprobung beobachtet wurden, erkl&#228;rt werden. Es k&#246;nnte sein, dass die Schauspielpatienten (die keinen medizinischen Hintergrund besitzen) aus Mitgef&#252;hl mit schw&#228;cheren Pr&#252;fungsteilnehmern diesen Stichworte geben. Dies w&#252;rde die systematische Varianz der Ergebnisse und damit die Reliabilit&#228;t reduzieren. Diese und andere im Rahmen der vorliegenden Arbeit gesammelten Daten zu den speziellen Anforderungen und Schwierigkeiten, denen die Schauspielpatienten und Pr&#252;fungsteilnehmer im Rahmen der Pr&#252;fungssituation begegnen, k&#246;nnen dabei als erste Grundlage f&#252;r die Entwicklung einer standardisierten, wissenschaftlich gesicherten Schulungsmethodik dienen.</Pgraph><Pgraph>Eine weitere St&#228;rke des SAM bietet der Ansatz der asynchronen Bewertung der Pr&#252;fungsleistung. Pr&#252;fer, die die Kommunikationssituation selbst miterleben oder sogar selbst daran beteiligt sind, erh&#246;hen die Gefahr der Verzerrung (<Mark2>Bias</Mark2>) der Leistungsbewertung. Das im SAM verfolgte Modell der asynchronen Bewertung tr&#228;gt zu einer fairen und objektiven Bewertung aller Teilnehmer bei und reduziert somit das Potential rechtlicher Beschwerden seitens der Pr&#252;flinge. </Pgraph><Pgraph>Die Validit&#228;tswerte des SAM basierend auf der ROC-Analyse der Pilotierungsdaten sind vielversprechend. Dies gilt besonders, wenn man bedenkt, dass die Rate geeigneter Teilnehmer laut Goldstandard gering war, was die Erkennung der geeigneten Kandidaten erschwert. Bei der Bewertung der Ergebnisse muss dabei bedacht werden, dass es sich bei mehr als der H&#228;lfte der Probanden um ausl&#228;ndische Studierende handelte. Da Studierende im Vergleich zu bereits erfahrenen &#196;rzten insgesamt geringere Kenntnisse mitbringen, kann dies zu einer Verzerrung des Gesamtbilds der Pr&#252;fungsleistungen aller Teilnehmer beitragen. In einer Stichprobe erfahrener &#196;rzte sollte die Rate geeigneter Kandidaten h&#246;her liegen. Des Weiteren muss bedacht werden, dass die Unsicherheit aller Kennwerte aufgrund der relativ kleinen Erprobungs-Stichprobe noch hoch ist. Der Test sollte daher dringend systematisch validiert werden. Beispielsweise standen der insgesamt guten Skalenvalidit&#228;t w&#228;hrend der bisherigen Testsimulation und -auswertung unzureichend abgesicherte Reliabilit&#228;ten zweier Einzelskalen gegen&#252;ber (OP-Vorbereitung und Pflegeanweisungen). Zuk&#252;nftige Simulationen, die die Schw&#228;che der genannten Einzelskalen verringern und die psychometrische Qualit&#228;t aller Skalen verbessern wollen, profitieren folglich besonders von Stichproben, deren Umfang gr&#246;&#223;er und deren Verh&#228;ltnis zwischen Pr&#252;fungsteilnehmern auf dem C1-Niveau und solchen unterhalb des C1-Niveaus ausgeglichener w&#228;re. Die genauere Bestimmung der Test-Reliabilit&#228;t w&#228;re eine weitere nat&#252;rliche Folge einer erweiterten Datenmenge.</Pgraph><Pgraph>Eine weitere Schw&#228;che des SAM ist, dass zu Beginn einige Investitionen (Aufnahmesoftware und Schulung der Schauspielpatienten und Bewerterteams) in die Pr&#252;fungslogistik get&#228;tigt werden m&#252;ssen. Im Langzeitbetrieb sollten die St&#228;rken des SAM diesen Nachteil allerdings mehr als ausgleichen.  </Pgraph><Pgraph>Weiterer Handlungsbedarf liegt in der Verteilung der Itemanzahl der Bewertungsskalen. Die Itemanzahl der verschiedenen Teilstationen schwankt zwischen 11 und 17. Um die gleiche Gewichtung aller Teilstationen sicherzustellen, wird eine nachtr&#228;gliche Anpassung empfohlen um die Itemanzahl nicht k&#252;nstlich erh&#246;hen oder reduzieren zu m&#252;ssen. Bevor der Summenwert f&#252;r den Test berechnet wird, m&#252;sste dabei die Punktzahl der sechs Teilstationen durch eine Multiplikation mit unterschiedlichen Faktoren so gewichtet werden, dass jeweils <Superscript>1</Superscript>&#8260;<Subscript>6</Subscript> der maximal m&#246;glichen Gesamtpunktzahl in jeder Teilstation erworben werden kann. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Outlook">
      <MainHeadline>5. Outlook</MainHeadline><Pgraph>To this date, the SAM-test represents the first and only scientific concept of a medical language test within Germany. In addition to the parameters set out by the GMK, quality standards of test and measurement theory such as objectivity, reliability, validity, authenticity, fairness and feasibility were closely adhered to as guiding principles of design and implementation. The SAM-test is also currently the only medical language examination in Germany that includes the aspect of inter-professional communication. In addition to the introduction of the communication setting between a physician and a nurse, it is conceivable to include further situations that produce inter-professional communication situations. In view of the goal to create and maintain a scientific and robust examination, it must be noted that further simulated trials are necessary.</Pgraph><Pgraph>It is further recommended to compare the SAM-test with other examinations to see how they measure up to the quality standards of test and measurement theory. Only then can the goal of a unified national exam, which reliably tests foreign physicians at the language level of C1 and thus guarantees patient safety, finally be reached. At the time of this writing, one additional comparative study with the goal of validating examinations currently used in the state of Bavaria is being planned. It is the professed aim of the test developers to see the SAM-test being used in the foreseeable future and thus to contribute to the lasting improvement of current methods of testing &#8211; not only in the State of Bavaria.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Ausblick">
      <MainHeadline>5. Ausblick</MainHeadline><Pgraph>Beim SAM handelt es sich um den ersten und bis dato einzigen bundesweiten Ansatz einer wissenschaftlich fundierten Fachsprachpr&#252;fung. Zus&#228;tzlich zu den per GMK-Beschluss vorgegebenen Rahmenbedingungen wurden testtheoretische G&#252;tekriterien wie Objektivit&#228;t, Reliabilit&#228;t, Validit&#228;t, Authentizit&#228;t, Fairness und &#214;konomie als Leitprinzipien in der Testentwicklung verfolgt. Als bisher einzige Fachsprachenpr&#252;fung in Deutschland bezieht der SAM die interprofessionelle Kommunikation  mit ein. Neben der bisher erprobten Kommunikation zwischen einem Arzt und einer Pflegedienstleitung ist die Ausweitung auf weitere Situationen der interprofessionellen Kommunikation denkbar. Im Hinblick auf einen wissenschaftlich und damit auch rechtlich soliden Test muss der SAM jedoch in weiteren Simulationen erprobt und getestet werden. </Pgraph><Pgraph>Des Weiteren wird empfohlen, testmethodische Kennwerte anderer Testverfahren mit denen des SAM zu vergleichen. Nur so kann das Ziel eines bundesweit einheitlichen Fachsprachentests, der ausl&#228;ndische &#196;rzte reliabel auf C1 Niveau pr&#252;ft und somit die Patientensicherheit gew&#228;hrleistet, letztendlich erreicht werden. Derzeit ist eine weitere Validierung der in Bayern eingesetzten Verfahren mittels einer Vergleichsstudie geplant. Es ist das erkl&#228;rte Ziel der Testentwickler, den Sprachtest mittelfristig als Beitrag zu einer nachhaltigen Verbesserung gegenw&#228;rtiger Testverfahren zum Einsatz zu bringen, nicht nur in Bayern.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>For the sustainable support of the project, we would also like to thank Prof. Dr. med. Matthias Siebeck, Department of General, Visceral, Transplantation, Vascular and Thoracic Surgery of LMU Munich</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>F&#252;r die nachhaltige Unterst&#252;tzung des Projekts bedanken wir uns ferner bei Prof. Dr. Matthias Siebeck, Klinik f&#252;r Allgemeine, Viszeral-, Transplantations-, Gef&#228;&#223;- und Thoraxchirurgie der LMU M&#252;nchen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Funding">
      <MainHeadline>Funding</MainHeadline><Pgraph>We would like to thank the Bavarian State Ministry for Health and Care (StMGP) for the support of the project under grant number G32g-G8517.1-2015&#47;5-91.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="F&#246;rderung">
      <MainHeadline>F&#246;rderung</MainHeadline><Pgraph>Wir bedanken uns beim Bayerischen Staatsministerium f&#252;r Gesundheit und Pflege (StMGP) f&#252;r die Unterst&#252;tzung des Projekts unter dem F&#246;rderkennzeichen G32g-G8517.1-2015&#47;5-91.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Bundes&#228;rztekammer</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>Die Schere zwischen Behandlungsbedarf und Behandlungskapazit&#228;ten &#246;ffnet sich</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bundes&#228;rztekammer. Die Schere zwischen Behandlungsbedarf und Behandlungskapazit&#228;ten &#246;ffnet sich. Berlin: Bundes&#228;rztekammer; 2017. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.bundesaerztekammer.de&#47;presse&#47;pressemitteilungen&#47;news-detail&#47;die-schere-zwischen-behandlungsbedarf-und-behandlungskapazitaeten-oeffnet-sich&#47;</RefTotal>
        <RefLink>http:&#47;&#47;www.bundesaerztekammer.de&#47;presse&#47;pressemitteilungen&#47;news-detail&#47;die-schere-zwischen-behandlungsbedarf-und-behandlungskapazitaeten-oeffnet-sich&#47;</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Bundes&#228;rztekammer</RefAuthor>
        <RefAuthor>Kassen&#228;rztliche Bundesvereinigung</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Dem deutschen Gesundheitswesen gehen die &#196;rzte aus&#33; Studie zur Altersstruktur- und Arztzahlentwicklung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bundes&#228;rztekammer, Kassen&#228;rztliche Bundesvereinigung. Dem deutschen Gesundheitswesen gehen die &#196;rzte aus&#33; Studie zur Altersstruktur- und Arztzahlentwicklung. 5th ed. Berlin: Bundes&#228;rztekammer und Kassen&#228;rztliche Bundesvereinigung; 2010. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.kbv.de&#47;media&#47;sp&#47;Arztzahlstudie&#95;2010.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.kbv.de&#47;media&#47;sp&#47;Arztzahlstudie&#95;2010.pdf</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Bundes&#228;rztekammer</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>&#196;rztestatistik zum 31. Dezember 2016</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bundes&#228;rztekammer. &#196;rztestatistik zum 31. Dezember 2016. Berlin: Bundes&#228;rztekammer; 2017. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.bundesaerztekammer.de&#47;fileadmin&#47;user&#95;upload&#47;downloads&#47;pdf-Ordner&#47;Statistik2016&#47;Stat16AbbTab.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.bundesaerztekammer.de&#47;fileadmin&#47;user&#95;upload&#47;downloads&#47;pdf-Ordner&#47;Statistik2016&#47;Stat16AbbTab.pdf</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Wichmann R</RefAuthor>
        <RefTitle>Weitere Zehn Jahre Warten hilft nicht</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Praxisguide D Krankenhaus</RefJournal>
        <RefPage>14-15</RefPage>
        <RefTotal>Wichmann R. Weitere Zehn Jahre Warten hilft nicht. Praxisguide D Krankenhaus. 2015;(1):14-15.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Karimi P</RefAuthor>
        <RefAuthor>Rudenko O</RefAuthor>
        <RefTitle>Am Anfang verstand ich null</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Praxisguide D Krankenhaus</RefJournal>
        <RefPage>20-21</RefPage>
        <RefTotal>Karimi P, Rudenko O. Am Anfang verstand ich null. Praxisguide D Krankenhaus. 2015;(1):20-21.</RefTotal>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Arndt J</RefAuthor>
        <RefTitle>Sprachbarrieren im Krankenhaus &#8211; Wenn dem Arzt die Worte fehlen</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Pneumologie</RefJournal>
        <RefPage>564-566</RefPage>
        <RefTotal>Arndt J. Sprachbarrieren im Krankenhaus &#8211; Wenn dem Arzt die Worte fehlen. Pneumologie. 2016;70(9):564-566. DOI: 10.1055&#47;s-0042-114156</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1055&#47;s-0042-114156</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>AG Leipzig</RefAuthor>
        <RefTitle>Aufkl&#228;rung durch einen Arzt, der die deutsche Sprache nicht beherrscht</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>MedR</RefJournal>
        <RefPage>582-583</RefPage>
        <RefTotal>AG Leipzig. Aufkl&#228;rung durch einen Arzt, der die deutsche Sprache nicht beherrscht. MedR. 2003;10:582-583.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Roche J</RefAuthor>
        <RefTitle>Zur Frage der Deutschkenntnisse</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Sprache Beruf</RefJournal>
        <RefPage>316-318</RefPage>
        <RefTotal>Roche J. Zur Frage der Deutschkenntnisse. Sprache Beruf. 2014;7:316-318.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Schr&#246;der H</RefAuthor>
        <RefTitle>Theoretische Aspekte der Arzt-Patienten-Interaktion</RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Der gute Arzt aus interdisziplin&#228;rer Sicht Ergebnisse eines Expertentreffens</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Schr&#246;der H. Theoretische Aspekte der Arzt-Patienten-Interaktion. In: Witt C, ed. Der gute Arzt aus interdisziplin&#228;rer Sicht Ergebnisse eines Expertentreffens. Essen: Natur und Medizin; 2010.</RefTotal>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Gesundheitsministerkonferenz</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Beschluss der 87. Gesundheitsministerkonferenz am 26. und 27. Juni 2014 . TOP 7.3 Eckpunkte zur &#220;berpr&#252;fung der f&#252;r die Berufsaus&#252;bung erforderlichen Deutschkenntnisse in den akademischen Heilberufen</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gesundheitsministerkonferenz. Beschluss der 87. Gesundheitsministerkonferenz am 26. und 27. Juni 2014 . TOP 7.3 Eckpunkte zur &#220;berpr&#252;fung der f&#252;r die Berufsaus&#252;bung erforderlichen Deutschkenntnisse in den akademischen Heilberufen. Hamburg: Gesundheitsministerkonferenz; 2014. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.gmkonline.de&#47;documents&#47;TOP73BerichtP&#95;Oeffentl&#95;Bereich.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.gmkonline.de&#47;documents&#47;TOP73BerichtP&#95;Oeffentl&#95;Bereich.pdf</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Marburger Bund</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Deutschkenntnisse &#8211; Anforderungen in den Bundesl&#228;ndern f&#252;r die Approbationserteilung Stand: Januar 2018</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Marburger Bund. Deutschkenntnisse &#8211; Anforderungen in den Bundesl&#228;ndern f&#252;r die Approbationserteilung Stand: Januar 2018. Berlin: Marburger Bund; 2018. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.marburger-bund.de&#47;sites&#47;default&#47;files&#47;files&#47;2018-09&#47;deutschkenntnisse-german-requirements-approbation.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.marburger-bund.de&#47;sites&#47;default&#47;files&#47;files&#47;2018-09&#47;deutschkenntnisse-german-requirements-approbation.pdf</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>McNamara T</RefAuthor>
        <RefTitle>Item Response Theory and the validation of an ESP test for health professionals</RefTitle>
        <RefYear>1990</RefYear>
        <RefJournal>Language Test</RefJournal>
        <RefPage>52-76</RefPage>
        <RefTotal>McNamara T. Item Response Theory and the validation of an ESP test for health professionals. Language Test. 1990;7(1):52-76. DOI: 10.1177&#47;026553229000700105</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;026553229000700105</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Woodward-Kron R</RefAuthor>
        <RefAuthor>Elder C</RefAuthor>
        <RefTitle>A Comparative Discourse Study of Simulated Clinical Roleplays in Two Assessment Contexts: Validating a Specific-Purpose Language Test</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Language Test</RefJournal>
        <RefPage>251-270</RefPage>
        <RefTotal>Woodward-Kron R, Elder C. A Comparative Discourse Study of Simulated Clinical Roleplays in Two Assessment Contexts: Validating a Specific-Purpose Language Test. Language Test. 2016;33(2):251-270. DOI: 10.1177&#47;0265532215607399</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0265532215607399</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>McNamara</RefAuthor>
        <RefAuthor>T</RefAuthor>
        <RefTitle>Problematising content validity: the Occupational English Test (OET) as a measure of medical communication. Melbourne Papers</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>Language Test</RefJournal>
        <RefPage>19-43</RefPage>
        <RefTotal>McNamara, T. Problematising content validity: the Occupational English Test (OET) as a measure of medical communication. Melbourne Papers. Language Test. 1997;6(1):19-43.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Moosbrugger H</RefAuthor>
        <RefAuthor>Kelava A</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2008</RefYear>
        <RefBookTitle>Testtheorie und Fragebogenkonstruktion</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Moosbrugger H, Kelava A. Testtheorie und Fragebogenkonstruktion. Berlin: Springer; 2008. DOI: 10.1007&#47;978-3-540-71635-8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;978-3-540-71635-8</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Bachman L</RefAuthor>
        <RefAuthor>Palmer A</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2013</RefYear>
        <RefBookTitle>Language testing in practice</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bachman L, Palmer A. Language testing in practice. Oxford: Oxford University Press; 2013.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Corkill D</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2012</RefYear>
        <RefBookTitle>Handbuch zur Entwicklung und Durchf&#252;hrung von Sprachtests</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Corkill D. Handbuch zur Entwicklung und Durchf&#252;hrung von Sprachtests. Frankfurt a.M.: Telc; 2012.</RefTotal>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>OSCE &#8211; praktische Tipps zur Implementierung einer klinisch-praktischen Pr&#252;fung</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc47</RefPage>
        <RefTotal>Nikendei C, J&#252;nger J. OSCE &#8211; praktische Tipps zur Implementierung einer klinisch-praktischen Pr&#252;fung. GMS Z Med Ausbild. 2006;23(3):Doc47. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Brandes H</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>&#220;berpr&#252;fung kommunikativer F&#228;higkeiten der Studierenden des Reformstudienganges Medizin der Charit&#233; Berlin mit Hilfe einer OSCE-Station</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Brandes H. &#220;berpr&#252;fung kommunikativer F&#228;higkeiten der Studierenden des Reformstudienganges Medizin der Charit&#233; Berlin mit Hilfe einer OSCE-Station. Berlin: Charit&#233; &#8211; Universit&#228;tsmedizin Berlin, Medizinischen Fakult&#228;t; 2006.</RefTotal>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Bagnasco A</RefAuthor>
        <RefAuthor>Tolotti A</RefAuthor>
        <RefAuthor>Pagnucci N</RefAuthor>
        <RefAuthor>Torre G</RefAuthor>
        <RefAuthor>Timmins F</RefAuthor>
        <RefAuthor>Aleo G</RefAuthor>
        <RefAuthor>Sasso L</RefAuthor>
        <RefTitle>How to maintain equity and objectivity in assessing the communication skills in a large group of student nurses during a long examination session, using the Objective Structured Clinical Examination (OSCE)</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Nurse Educ Today</RefJournal>
        <RefPage>54-60</RefPage>
        <RefTotal>Bagnasco A, Tolotti A, Pagnucci N, Torre G, Timmins F, Aleo G, Sasso L. How to maintain equity and objectivity in assessing the communication skills in a large group of student nurses during a long examination session, using the Objective Structured Clinical Examination (OSCE). Nurse Educ Today. 2016;38:54-60. DOI: 10.1016&#47;j.nedt.2015.11.034</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.nedt.2015.11.034</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Kiehl C</RefAuthor>
        <RefAuthor>Simmenroth-Nayda A</RefAuthor>
        <RefAuthor>Goerlich Y</RefAuthor>
        <RefAuthor>Entwistle A</RefAuthor>
        <RefAuthor>Schiekirka S</RefAuthor>
        <RefAuthor>Ghadimi B</RefAuthor>
        <RefAuthor>Raupach T</RefAuthor>
        <RefAuthor>Koenig S</RefAuthor>
        <RefTitle>Standardized and quality-assured video-recorded examination in undergraduate education: informed consent prior to surgery</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>J Surg Res</RefJournal>
        <RefPage>64-73</RefPage>
        <RefTotal>Kiehl C, Simmenroth-Nayda A, Goerlich Y, Entwistle A, Schiekirka S, Ghadimi B, Raupach T, Koenig S. Standardized and quality-assured video-recorded examination in undergraduate education: informed consent prior to surgery. J Surg Res. 2014;191(1):64-73. DOI: 10.1016&#47;j.jss.2014.01.048</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.jss.2014.01.048</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Eckes T</RefAuthor>
        <RefTitle>Die Beurteilung sprachlicher Kompetenz auf dem Pr&#252;fstand. Fairness in der beurteilergest&#252;tzten Leistungsmessung</RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Fremdsprachliches Handeln beobachten, messen, evaluieren Neue methodische Ans&#228;tze der Kompetenzforschung und der Videographie</RefBookTitle>
        <RefPage>65-97</RefPage>
        <RefTotal>Eckes T. Die Beurteilung sprachlicher Kompetenz auf dem Pr&#252;fstand. Fairness in der beurteilergest&#252;tzten Leistungsmessung. In: Aguado K., Schramm K., Vollmer H, eds. Fremdsprachliches Handeln beobachten, messen, evaluieren Neue methodische Ans&#228;tze der Kompetenzforschung und der Videographie. Frankfurt a.M.: Lang; 2010. S.65-97.</RefTotal>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Kecker G</RefAuthor>
        <RefTitle>Was macht eine gute Sprachpr&#252;fung aus&#63; Qualit&#228;tssicherung beim TestDaF</RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>Lerngruppenspezifik in DaF, DaZ, DaM</RefBookTitle>
        <RefPage>145-64</RefPage>
        <RefTotal>Kecker G. Was macht eine gute Sprachpr&#252;fung aus&#63; Qualit&#228;tssicherung beim TestDaF. In: Drumbl H, Kletschko D, Sorrentino D, Zanin R, eds. Lerngruppenspezifik in DaF, DaZ, DaM. Bozen: Bozen University Press; 2016. S.145-64.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Association of Language Testers in Europe (ALTE)</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Handreichungen f&#252;r Testautoren</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Association of Language Testers in Europe (ALTE). Handreichungen f&#252;r Testautoren. 2nd ed. Bochum: Association of Language Testers in Europe (ALTE); 2005. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.testdaf.de&#47;fileadmin&#47;Redakteur&#47;Bilder&#47;Aktuelles&#47;2007&#47;ALTE&#95;Deutsche&#95;HR&#95;Vorwort.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.testdaf.de&#47;fileadmin&#47;Redakteur&#47;Bilder&#47;Aktuelles&#47;2007&#47;ALTE&#95;Deutsche&#95;HR&#95;Vorwort.pdf</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Fawcett T</RefAuthor>
        <RefTitle>An introduction to ROC analysis</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Patt Recogn Lett</RefJournal>
        <RefPage>861-874</RefPage>
        <RefTotal>Fawcett T. An introduction to ROC analysis. Patt Recogn Lett. 2006;27(8):861-874. DOI: 10.1016&#47;j.patrec.2005.10.010</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.patrec.2005.10.010</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Rice M</RefAuthor>
        <RefAuthor>Harris G</RefAuthor>
        <RefTitle>Comparing effect sizes in follow-up studies: ROC Area, Cohen&#39;s d, and r</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Law Human Behav</RefJournal>
        <RefPage>615-620</RefPage>
        <RefTotal>Rice M, Harris G. Comparing effect sizes in follow-up studies: ROC Area, Cohen&#39;s d, and r. Law Human Behav. 2005;29(15):615-620. DOI: 10.1007&#47;s10979-005-6832-7</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s10979-005-6832-7</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Youden W</RefAuthor>
        <RefTitle>Index for rating diagnostic tests</RefTitle>
        <RefYear>1950</RefYear>
        <RefJournal>Cancer</RefJournal>
        <RefPage>32-35</RefPage>
        <RefTotal>Youden W. Index for rating diagnostic tests. Cancer. 1950;3(1):32-35. DOI: 10.1002&#47;1097-0142(1950)3:1&#60;32::AID-CNCR2820030106&#62;3.0.CO;2-3</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;1097-0142(1950)3:1&#60;32::AID-CNCR2820030106&#62;3.0.CO;2-3</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Reliability values of the individual testing stations of the SAM-test </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Reliabilit&#228;ten der Teilstationen des SAM</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Overview of the most important statistical data of the SAM-test</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: &#220;bersicht der wichtigsten Test-Statistiken des SAM</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="607" width="715">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Schematic design of the language test for foreign physicians</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Schematischer Aufbau der Sprachpr&#252;fung f&#252;r ausl&#228;ndische Mediziner unter Ber&#252;cksichtigung der per GMK festgelegten Mindestanforderungen</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="zma001210.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;1.pdf" size="140789" url="">1en</MediaID>
          <MediaID filename="zma001210.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;1.pdf" size="146622" url="">1de</MediaID>
          <AttachmentTitle language="en">Language Test for Foreign Physicians</AttachmentTitle>
          <AttachmentTitle language="de">Sprachpr&#252;fung f&#252;r ausl&#228;ndische Mediziner (SAM)</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>1</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>