<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle>
  <MetaData>
    <Identifier>mibe000094</Identifier>
    <IdentifierDoi>10.3205/mibe000094</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-mibe0000947</IdentifierUrn>
    <ArticleType>Originalarbeit</ArticleType>
    <TitleGroup>
      <Title language="de">Software zur Behandlung und Ersetzung fehlender Werte</Title>
      <TitleTranslated language="en">Software for handling and replacement of missing data </TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Mayer</Lastname>
          <LastnameHeading>Mayer</LastnameHeading>
          <Firstname>Benjamin</Firstname>
          <Initials>B</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r Biometrie, Universit&#228;t Ulm, Ulm, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Muche</Lastname>
          <LastnameHeading>Muche</LastnameHeading>
          <Firstname>Rainer</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address>Institut f&#252;r Biometrie, Universit&#228;t Ulm, Schwabstrasse 13, 89075 Ulm, Deutschland<Affiliation>Institut f&#252;r Biometrie, Universit&#228;t Ulm, Ulm, Deutschland</Affiliation></Address>
        <Email>rainer.muche&#64;uni-ulm.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hohl</Lastname>
          <LastnameHeading>Hohl</LastnameHeading>
          <Firstname>Kathrin</Firstname>
          <Initials>K</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Biberach a.d. Riss, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">missing values</Keyword>
      <Keyword language="en">missing value software</Keyword>
      <Keyword language="de">fehlende Werte</Keyword>
      <Keyword language="de">Software f&#252;r fehlende Werte</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20091027</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <SourceGroup>
      <Journal>
        <ISSN>1860-9171</ISSN>
        <Volume>5</Volume>
        <Issue>2</Issue>
        <JournalTitle>GMS Medizinische Informatik, Biometrie und Epidemiologie</JournalTitle>
        <JournalTitleAbbr>GMS Med Inform Biom Epidemiol</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>15</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes">
      <Pgraph>In der medizinischen Forschung treten im Zuge einer Datenanalyse oftmals fehlende Werte auf. Dieser Umstand stellt aus verschiedenen Gr&#252;nden ein Problem dar: Aufgrund fehlender Werte f&#252;hren beispielsweise Standardmethoden f&#252;r die Analyse von Daten zu verzerrten Sch&#228;tzern und einem Powerverlust, da diese vollst&#228;ndiges Datenmaterial voraussetzen und deshalb die unvollst&#228;ndigen F&#228;lle nicht ber&#252;cksichtigen. Zudem bedeuten fehlende Werte einen gewissen Informationsverlust, weshalb die Aussagekraft der Ergebnisse einer Studie mit fehlenden Werten als geringer zu bewerten ist, als wenn alle Daten zur Verf&#252;gung gestanden h&#228;tten. Seit einigen Jahren gibt es Methoden zur Ersetzung fehlender Werte (Rubin, Schafer), um diese Probleme anzugehen und teilweise zu l&#246;sen. Mit diesem Artikel m&#246;chten wir daher zum einen die verf&#252;gbare Software zur Behandlung und Ersetzung fehlender Werte vorstellen und zum anderen eine &#220;bersicht geben &#252;ber die vorhandenen Informationsm&#246;glichkeiten. Dabei werden die methodischen Aspekte der Ersetzungsstrategien nur kurz umrissen. </Pgraph>
    </Abstract>
    <Abstract language="en" linked="yes">
      <Pgraph>In medical research missing values often arise in the course of a data analysis. This fact constitutes a problem for different reasons, so e.g. standard methods for analyzing data lead to biased estimates and a loss of statistical power due to missing values, since those methods require complete data sets and therefore omit incomplete cases for the analyses. Furthermore missing values imply a certain loss of information for what reason the validity of results of a study with missing values has to be rated less than in a case where all data had been available. For years there are methods for replacement of missing values (Rubin, Schafer) to tackle these problems and solve them in parts. Hence in this article we want to present the existing software to handle and replace missing values on the one hand and give an outline about the available options to get information on the other hand. The methodological aspects of the replacement strategies are delineated just briefly in this article. </Pgraph>
    </Abstract>
    <TextBlock linked="yes" name="1 Einleitung">
      <MainHeadline>1 Einleitung</MainHeadline>
      <Pgraph>In nahezu allen klinischen Studien stellen fehlende Werte einen problematischen Aspekt dar. Das Ziel einer vollst&#228;ndigen Datenerhebung kann nur selten erreicht werden, da aufgrund verschiedenster Ursachen zumindest einzelne Fehlwerte nicht immer vermieden werden k&#246;nnen. Gew&#246;hnliche Auswertungsmodelle, wie sie in den meisten statistischen Standardsoftwareprodukten implementiert sind, basieren jedoch auf einem vollst&#228;ndigen Datensatz der erfordert, dass f&#252;r alle Variablen jeder einzelne Wert vorhanden ist. Im Falle eines fehlenden Wertes muss deshalb die betreffende Beobachtungseinheit, z.B. ein Patient, aus dem Auswertungskollektiv gestrichen werden, wenn die Daten mit Hilfe der Standardpakete analysiert werden sollen. </Pgraph>
      <Pgraph>Dieser Ansatz bezeichnet die Vorgehensweise der so genannten Complete Case Analyse (CCA), bei der nur vollst&#228;ndig erhobene Beobachtungseinheiten f&#252;r die Datenanalyse ber&#252;cksichtigt werden. Die CCA bringt jedoch eine ganze Reihe bedeutender Probleme mit sich, die ihre Verwendbarkeit mehr als in Frage stellen: Die Nichtber&#252;cksichtigung ganzer Beobachtungseinheiten kann dazu f&#252;hren, dass die Fallzahl drastisch reduziert wird, die Variabilit&#228;t der Merkmale sich ver&#228;ndert, die Aussagekraft der Studie vermindert wird und Parametersch&#228;tzer aufgrund der evtl. zerst&#246;rten Strukturgleicheit verzerrt sind. Dar&#252;ber hinaus steht sie in Widerspruch zu einem sehr angesehenen Auswertungsprinzip, der so genannten Intention-to-treat-Analyse, bei der alle Studienteilnehmer entsprechend der Randomisierung auszuwerten und f&#252;r die Analyse zu ber&#252;cksichtigen sind. Unter Beachtung der genannten Gr&#252;nde ist es umso verwunderlicher, dass die CCA dennoch h&#228;ufig angewandt wird <TextLink reference="14"></TextLink>, <TextLink reference="26"></TextLink>.</Pgraph>
      <Pgraph>Beispielhaft f&#252;r die z.T. enorme Reduktion der Fallzahl bei CCA betrachte man einen Datensatz mit 25 Variablen, wobei (nur) 3&#37; der Werte je Variable zuf&#228;llig fehlen m&#246;gen. Unter der Annahme, dass die fehlenden Werte &#252;ber den Datensatz hinweg gleichverteilt sind, werden demnach 1&#8211;0.97<Superscript>25</Superscript>&#61;0.53 der Beobachtungen, also mehr als die H&#228;lfte, nicht ber&#252;cksichtigt. Je gr&#246;&#223;er der Anteil an fehlenden Werten und je gr&#246;&#223;er die Anzahl an Variablen ist, desto gr&#246;&#223;er ist die Wahrscheinlichkeit f&#252;r einen Powerverlust bei statistischen Verfahren.</Pgraph>
      <Pgraph>Die gr&#246;&#223;te Problematik fehlender Werte ist die m&#246;gliche Verzerrung der Ergebnisse und die resultierende Verringerung der Aussagekraft der Studie. Die Verzerrung kann sich auf die gesch&#228;tzten Behandlungsunterschiede beziehen, die Vergleichbarkeit der Studienarme beeinflussen und die Repr&#228;sentativit&#228;t des Auswertungskollektivs in Frage stellen (so genannter Selektionsbias). Wenn beispielsweise alle Patienten mit einem geringen (keinem) Therapieerfolg in der Placebogruppe die Studie abbrechen und nur diejenigen in der Studie verbleiben, die sich zumindest teilweise verbessern, so kann der tats&#228;chliche gro&#223;e Behandlungsunterschied bei einer CCA nicht festgestellt werden, da die Daten f&#252;r den Behandlungsmisserfolg in der Auswertung nicht ber&#252;cksichtigt werden. </Pgraph>
      <Pgraph>Fehlende Werte f&#252;hren vor allem dann zu nicht vergleichbaren Studienarmen oder zu einem nichtrepr&#228;sentativen Auswertungskollektiv (im Vergleich zur Grundgesamtheit), wenn die fehlenden Werte systematisch auftreten. Die Aussagekraft der Ergebnisse ist in derartigen Situationen stark eingeschr&#228;nkt. </Pgraph>
      <Pgraph>Speziell in der Auswertung gro&#223;er epidemiologischer Datens&#228;tze ist die Durchf&#252;hrung einer CCA sehr problematisch. Die epidemiologischen Auswertungsmodelle enthalten in der Regel eine relativ gro&#223;e Anzahl von Einflussgr&#246;&#223;en, um die Strukturgleichheit der prim&#228;r interessierenden Risikogruppen zu sichern. Je mehr Variablen das Modell jedoch enth&#228;lt, desto gr&#246;&#223;er ist die Wahrscheinlichkeit, dass bei einer der Variablen ein fehlender Wert auftritt und somit die gesamte Beobachtung in der Auswertung nicht ber&#252;cksichtigt wird. Mit zunehmender Anzahl an Einflussgr&#246;&#223;en reduziert sich daher die Fallzahl entsprechend dem vorab genannten Beispiel, was sich unmittelbar auf die Power auswirkt. </Pgraph>
      <Pgraph>Um das Problem fehlender Werte angemessener behandeln zu k&#246;nnen als im Zuge einer CCA, wurden in den letzten Jahrzehnten verschiedene Ersetzungsstrategien zur Behandlung fehlender Werte entwickelt. Dabei wird im Wesentlichen zwischen der so genannten Single Imputation und der Multiple Imputation unterschieden. Bei Single Imputation wird jeder fehlende Wert durch einen plausiblen Wert ersetzt. Dazu stehen deterministische (Mittelwertersetzung, hot deck&#47;cold deck, Regressionsersetzung) und stochastische Methoden (gesch&#228;tzter Wert wird um zuf&#228;lligen Korrekturterm erweitert) zur Verf&#252;gung. Bei der Multiple Imputation wird ein fehlender Wert durch mehrere plausible Werte ersetzt auf Basis von Verteilungs- oder MCMC-Methoden. Dar&#252;ber hinaus existieren auch noch modellbasierte Strategien zum Umgang mit fehlenden Werten, welche die Missing Values nicht explizit ersetzen, jedoch den zu Grunde liegenden Mechanismus der fehlenden Werte im Datenmodell ber&#252;cksichtigen.</Pgraph>
      <Pgraph>Dieser Artikel soll eine Auflistung geeigneter Softwarel&#246;sungen mit entsprechenden Anmerkungen f&#252;r die Bearbeitung von fehlenden Werten in realen Datens&#228;tzen sein, die jedoch nicht vollst&#228;ndig sein kann. Die Autoren haben sich nicht zum Ziel gesetzt, zudem einen ausf&#252;hrlichen Ergebnisvergleich der verschiedenen Softwaretools zu pr&#228;sentieren, der einen deutlich h&#246;heren Arbeitsaufwand bedeutet und den Rahmen dieser Ver&#246;ffentlichung &#252;berschritten h&#228;tte. Die Software unterliegt einer st&#228;ndigen Weiterentwicklung (Verbesserung&#63;) mit neuen Versionen und&#47;oder neuen Methoden. Die nachfolgend genannten Programme und zugeh&#246;rigen Internet-Adressen geben den Stand von Februar 2009 und die Erfahrungen der Autoren mit den verschiedenen Systemen wieder. Aus den angegebenen Quellen zitierte Informationen konnten nicht alle gepr&#252;ft werden und sollten von Anwendern dementsprechend mit Vorsicht behandelt werden. In wieweit die Programme und Routinen validiert sind, sollte in der jeweiligen Dokumentation stehen und dort nachgelesen werden. </Pgraph>
      <Pgraph>Der Artikel ist wie folgt aufgebaut: Zu Beginn wird in Abschnitt 2 ein &#220;berblick gegeben zur Diagnostik fehlender Werte, au&#223;erdem werden die wichtigsten Ersetzungsstrategien der Single Imputation und der Multiple Imputation vorgestellt. Anschlie&#223;end werden im Abschnitt 3 einige Internetseiten angegeben, die neben vielen Informationen zu fehlenden Daten auch &#220;bersichten &#252;ber Softwarel&#246;sungen pr&#228;sentieren. Dies geschieht in der Annahme, dass diese Seiten von den jeweiligen Autoren weiter gepflegt werden. Im Abschnitt 4 werden zwei Spezialprogramme zum Umgang mit fehlenden Werten pr&#228;sentiert: das Programm NORM und die kommerzielle Software SOLAS. Inzwischen werden auch in den gro&#223;en, bekannten Statistiksoftwarepaketen L&#246;sungen f&#252;r den Umgang mit fehlenden Werten angeboten. Im Abschnitt 5 werden L&#246;sungen f&#252;r SAS, SPSS, S-Plus&#47;R und STATA beschrieben. Weitere Softwarel&#246;sungen, die f&#252;r die eine oder andere Anwendungssituation geeigneter sein k&#246;nnen, werden abschlie&#223;end &#252;berblicksm&#228;&#223;ig im Abschnitt 6 aufgelistet. Am Ende des Artikels findet sich dann eine kurze Zusammenfassung der vorgestellten theoretischen und praktischen Aspekte, sowie einige Empfehlungen zur Nutzung der Software. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="2 Missing Data Diagnostic und Ersetzungsstrategien">
      <MainHeadline>2 Missing Data Diagnostic und Ersetzungsstrategien</MainHeadline>
      <Pgraph>Die Aussagekraft von Studienergebnissen basierend auf einem Datensatz mit (urspr&#252;nglich) fehlenden Werten h&#228;ngt stark von den Ergebnissen der Missing Data Diagnostic ab. Ein Teil davon besteht aus der Beschreibung, bei welcher Variablen bzw. Beobachtung wie viele fehlende Werte auftreten. Anhand dieser Ergebnisse k&#246;nnen m&#246;gliche Fehler bei der Dateneingabe oder beim Datenmanagement erkannt werden, die sich eventuell korrigieren lassen.</Pgraph>
      <Pgraph>Zus&#228;tzlich werden Unterschiede in der Zielgr&#246;&#223;e und den charakteristischen Eigenschaften zwischen Beobachtungen mit und ohne fehlende Werte analysiert. Das bedeutet, es wird untersucht, ob fehlende Werte vermehrt bei beispielsweise Alten, M&#228;nnern oder Rauchern etc. auftreten.</Pgraph>
      <Pgraph>Der andere Teil der Missing Data Diagnostic beschreibt die Anordnung der fehlenden Werte im Datensatz, dem so genannten Missing Data Pattern, und den (m&#246;glichen) Gr&#252;nden f&#252;r das Auftreten der fehlenden Werte, dem so genannten Missing Data Mechanism. Letzteres ist wichtig f&#252;r die Wahl einer geeigneten Ersetzungsmethode.</Pgraph>
      <Pgraph>Bei der Bestimmung des Pattern unterscheidet man im Wesentlichen zwischen zwei Mustern. Fehlen die Werte breit gestreut und mehr oder weniger vereinzelt &#252;ber den ganzen Datensatz hinweg, so spricht man von einem beliebigen oder auch nicht-monotonen Muster. Im Gegensatz dazu steht ein monotones Muster, bei dem die Daten so angeordnet werden k&#246;nnen, dass bis zum Beobachtungsende alle Werte eines Merkmals ab einem bestimmten Zeitpunkt, zu dem ein Fehlwert das erste Mal aufgetreten ist, fehlen (Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>).</Pgraph>
      <Pgraph> </Pgraph>
      <Pgraph>Die drei verschiedenen Auspr&#228;gungen des Missing Data Mechanismus seien hier nur kurz erw&#228;hnt, f&#252;r eine genauere Beschreibung siehe <TextLink reference="10"></TextLink> oder auch <TextLink reference="16"></TextLink>. Man unterscheidet in drei Kategorien: Missing Completely At Random (MCAR), Missing At Random (MAR) und Missing Not At Random (MNAR). Bei MCAR ist die Drop-out-Wahrscheinlichkeit in keinster Weise abh&#228;ngig von den Werten der Zielgr&#246;&#223;e. MAR hei&#223;t, dass die Drop-out-Wahrscheinlichkeit nur von den beobachteten Werten abh&#228;ngt, wobei MNAR bedeutet, dass die Wahrscheinlichkeit f&#252;r Drop-out (auch) von fehlenden Werten abh&#228;ngt. Allerdings ist es nahezu unm&#246;glich, den vorliegenden Mechanismus explizit zu identifizieren und in den realen Daten nachzuweisen. Oftmals kann keine strikte Abgrenzung eines bestimmten Mechanismus vorgenommen werden, da es sich um eine Mischform handelt. Zusammen mit dem Pattern bildet dann der Mechanismus den so genannten Missing Data Prozess.</Pgraph>
      <Pgraph>Um mit Standardverfahren der statistischen Datenanalyse arbeiten zu k&#246;nnen, bedarf es also im Falle eines unvollst&#228;ndigen Datensatzes einer Ersetzung der fehlenden Werte, wenn man auf eine CCA verzichten m&#246;chte. Daf&#252;r bieten sich so genannte Single oder Multiple Imputationsverfahren an. </Pgraph>
      <Pgraph>Bei der Single Imputation (SI) wird jeder fehlende Wert durch einen plausiblen Wert ersetzt und daher nur ein vervollst&#228;ndigter Datensatz erzeugt. Zum Beispiel f&#252;hren alle deterministischen Ersetzungsmethoden eine Single Imputation durch. Das sind Methoden, bei denen die Ersetzung eines fehlenden Wertes durch eine einfache, eindeutige Zuordnung erfolgt. Denkbar sind in diesem Zusammenhang Ersetzungen auf Basis des Mittelwertes bzw. des Medians der beobachteten Daten. Auch so genannte Hot-Deck und Cold-Deck-Techniken kommen ebenso zum Einsatz wie Regressionsverfahren oder stochastische Ersetzungsmethoden <TextLink reference="10"></TextLink>, <TextLink reference="14"></TextLink>.</Pgraph>
      <Pgraph>Bei der Multiple Imputation (MI) wird ein fehlender Wert durch mehrere (<Mark2>m</Mark2>&#62;1) plausible Werte ersetzt, sodass m vervollst&#228;ndigte Datens&#228;tze aus der Ersetzung resultieren. Diese Datens&#228;tze werden einzeln mit der gleichen Auswertungsmethode und einem &#252;blichen Softwareprogramm basierend auf einem komplett erhobenen Datensatz ausgewertet. Anschlie&#223;end werden die Ergebnisse dieser Analysen zu gemeinsamen Sch&#228;tzern und Standardfehlern zusammengefasst. Das Vorgehen der MI ist in Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>) graphisch dargestellt und in Little &#38; Rubin <TextLink reference="14"></TextLink> genauer erl&#228;utert.</Pgraph>
      <Pgraph> </Pgraph>
      <Pgraph>Der entscheidende Vorteil der MI gegen&#252;ber den SI-Verfahren ist die korrekte Ber&#252;cksichtigung der Standardfehler. Allen SI-Verfahren ist gemein, dass sie von einer zu geringen Varianz ausgehen. Dem entgegen steht die MI, welche die eigentliche Ersetzung als zus&#228;tzliche Varianzquelle richtigerweise beachtet. Demzufolge werden auch Konfidenzintervalle und p-Werte korrekter berechnet, als das mit einer beliebigen SI-Methode m&#246;glich w&#228;re. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="3 Informationsm&#246;glichkeiten &#252;ber Softwarel&#246;sungen">
      <MainHeadline>3 Informationsm&#246;glichkeiten &#252;ber Softwarel&#246;sungen</MainHeadline>
      <Pgraph>Informationsm&#246;glichkeiten &#252;ber geeignete Softwarel&#246;sungen lassen sich haupts&#228;chlich in methodischen Fachzeitschriften und im Internet finden. </Pgraph>
      <Pgraph>Artikel in Fachzeitschriften zeichnen sich dadurch aus, dass sie meist unter einem speziellen Aspekt statistischer Analysen die Behandlung fehlender Werte beschreiben und kommentieren. So kann das allgemeine Vorgehen f&#252;r die eigenen Analysen adaptiert werden, die Softwarehinweise sollten aber m&#246;glichst auf Aktualit&#228;t &#252;berpr&#252;ft werden. Als Beispiel dient hier der Artikel von Horton und Lipsitz <TextLink reference="11"></TextLink> aus <Mark2>The American Statistician</Mark2> mit dem Titel: &#8222;Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables&#8220;. Dieser Artikel beschr&#228;nkt sich auf die Beschreibung und den Vergleich von Software f&#252;r Multiple Imputation ausschlie&#223;lich im Zusammenhang mit Regressionsmethoden. Ersetzungssoftware ohne statistische Analysemethoden &#8211; wie z.B. NORM oder SOLAS &#8211; werden bei diesem Vergleich au&#223;en vor gelassen. Allerdings geben die Autoren Hinweise auf solche Pakete, so dass der Artikel trotzdem als Startpunkt f&#252;r eigene Recherchen geeignet w&#228;re. Ein weiteres Beispiel ist der Artikel von Hox <TextLink reference="12"></TextLink> mit dem Titel &#8222;A Review of Current Software for Handling Missing Data&#8220;, in dem die Programme SPSS, SOLAS und NORM benutzt werden.</Pgraph>
      <Pgraph>Die Informationsm&#246;glichkeiten &#252;ber Softwarel&#246;sungen zur Behandlung fehlender Werte sind in der Regel aber aktueller im Internet als z.B. in Artikeln in Fachzeitschriften, die schnell veralten. Da Anwendungssoftware oft und schnell ver&#228;ndert wird, ist eine Aktualit&#228;t in den Informationen dringend notwendig. </Pgraph>
      <Pgraph>Bei den Recherchen zu diesem Artikel wurden wir auf verschiedene Seiten im Internet aufmerksam, die als Startpunkt f&#252;r einen eigenen &#220;berblick zum Thema Missing Data dienen k&#246;nnen. Die Seite  <Hyperlink href="http:&#47;&#47;www.missingdata.org.uk">http:&#47;&#47;www.missingdata.org.uk</Hyperlink> von James Carpenter und Mike Kenward (London School of Hygiene &#38; Tropical Medicine) bietet einen umfangreichen &#220;berblick zu fehlenden Werten mit vielen Beispielen und Grundlagen. Unter der Adresse <Hyperlink href="http:&#47;&#47;methodology.psu.edu">http:&#47;&#47;methodology.psu.edu</Hyperlink> stellt das Team um Linda Collins und Joseph Schafer von der Pennsylvania State University ebenfalls einen &#220;berblick des Themas zur Verf&#252;gung. Die Abteilung von Sheldon Ekland-Oslon, University of Texas, macht unter der Internetseite <Hyperlink href="http:&#47;&#47;ssc.utexas.edu&#47;consulting&#47;answers&#47;general&#47;gen25.html">http:&#47;&#47;ssc.utexas.edu&#47;consulting&#47;answers&#47;general&#47;gen25.html</Hyperlink> allgemeine Angaben zu speziellen Fragen, die im Bereich fehlende Werte auftreten. Zu guter Letzt  erreicht man unter <Hyperlink href="http:&#47;&#47;www.multiple-imputation.com">http:&#47;&#47;www.multiple-imputation.com</Hyperlink> die Seite von Stef van Buuren, Leiter des TNO in Leiden, Dep. of Statistics, mit umfangreichen Informationen zu Multiple Imputation und entsprechender Software.</Pgraph>
      <Pgraph>Dar&#252;ber hinaus kann nur der Hinweis auf Suchmaschinen f&#252;r wissenschaftliche Artikel der betreffenden Methodik in Fachzeitschriften gegeben werden. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="4 Spezialsoftware f&#252;r den Umgang mit fehlenden Werten">
      <MainHeadline>4 Spezialsoftware f&#252;r den Umgang mit fehlenden Werten</MainHeadline>
      <Pgraph>Es gibt mehrere spezielle Softwarel&#246;sungen f&#252;r den Umgang mit fehlenden Werten, insbesondere der Multiple Imputation. Diese Softwarepakete f&#252;hren haupts&#228;chlich die Ersetzung der fehlenden Werte aus und geben die Datens&#228;tze zur weiteren Auswertung aus. Die eigentliche Analyse kann dann mit der vom Analysten gewohnten Statistiksoftware durchgef&#252;hrt werden. Neben der Daten&#252;bergabe (Eingabe und Ausgabe) an das Ersetzungsprogramm hat man dann aber selber nach der Analyse der m ersetzten Datens&#228;tze im Zuge einer Multiple Imputation f&#252;r die geeignete Zusammenfassung der m Einzelergebnisse zu sorgen, speziell die Zusammenfassung der Varianzkomponenten ist von Bedeutung <TextLink reference="14"></TextLink>. In diesem Kapitel wird zun&#228;chst der Einsatz der von Schafer entwickelten, kostenlosen Public-Domain Software NORM beschrieben. Im darauf folgenden Abschnitt 4.2 werden Hinweise auf die kommerzielle Software SOLAS gegeben, die ebenfalls speziell zur Diagnostik und Ersetzung fehlender Werte konzipiert ist. Im Artikel von Deal <TextLink reference="5"></TextLink> werden beide Produkte verglichen und Deal kommt zu dem Schluss, das seine &#8222;limited investigation has not identified a clear winner between SOLAS 3.2 and NORM 2.03 in terms of satisfying Schafer&#39;s goals&#8220;. Deshalb finden wir es legitim, hier eine Freeware neben einem kommerziellen Produkt darzustellen. </Pgraph>
      <SubHeadline>4.1 NORM </SubHeadline>
      <Pgraph>NORM wurde von J.L. Schafer entwickelt und basiert auf den multivariat normalverteilten Modellen, die er in seinem Buch <TextLink reference="20"></TextLink> beschreibt. Mit NORM kann eine Multiple Imputation durchgef&#252;hrt werden. Als Ersetzungsmethoden stehen dem Anwender der EM Algorithmus und&#47;oder der Data Augmentation Algorithmus (MCMC) zur Verf&#252;gung. Schnelle ad hoc Ersetzungsmethoden (SI) sind nicht implementiert, aber diese sind ja ohnehin nur &#228;u&#223;erst selten geeignete Ersetzungsmethoden.</Pgraph>
      <Pgraph>Ein wesentlicher Vorteil von NORM ist, dass es kostenlos von der Internetseite <Hyperlink href="http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;misoftwa.html">http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;misoftwa.html</Hyperlink> herunter geladen werden kann. Es ist sehr leicht zu erlernen und benutzerfreundlich. Jedoch muss zun&#228;chst eine relativ aufwendige Datenaufbereitung vorgenommen werden, um die Daten in NORM einlesen zu k&#246;nnen.</Pgraph>
      <Pgraph>Die aktuelle Version NORM 2.03 ist eine eigenst&#228;ndig laufende Software f&#252;r das Betriebssystem Windows. Schafer schreibt auf seiner Internetseite, dass die Vorg&#228;ngerversion 2.02 unter Windows 95&#47;98&#47;NT lauff&#228;hig ist. Eine Testinstallation von NORM 2.03 unter Windows XP verlief problemlos. </Pgraph>
      <Pgraph>Zur Validierung schreibt Schafer auf der oben angegebenen Internetseite: &#8222;This software was written by Joe Schafer (<Hyperlink href="http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;">http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;</Hyperlink>) of the Department of Statistics, The Pennsylvania State University. Maren Olsen (same affiliation) assisted in the development of the stand-alone Windows applications. The software may be distributed free of charge and used by anyone if credit is given. It has been tested fairly well, but it comes with no guarantees and the authors assume no liability for its use or misuse.&#8221;</Pgraph>
      <Pgraph>Die zu bearbeitende Datei muss in NORM importiert werden, da das Programm sich nicht in eine andere Software einbinden l&#228;sst. Hierzu wird im Editor eine ASCII-Datei erstellt, die alle Variablenwerte enth&#228;lt. Jeder Datensatz muss dabei in einer Zeile stehen und die Variablenwerte m&#252;ssen jeweils durch Leerzeichen oder Tabs getrennt sein. Fehlende Werte sind mit einer geeigneten Codierung numerischen Typs zu versehen. Diese Datei darf keine Variablennamen enthalten und muss als dat-Datei abgespeichert werden. F&#252;r die Zuweisung der Werte zu ihren entsprechenden Variablennamen muss eine gleichnamige Datei im nam-Format angelegt werden. Die Variablennamen m&#252;ssen Zeile f&#252;r Zeile untereinander geschrieben werden, dann ist diese Datei im selben Ordner zu speichern (Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). </Pgraph>
      <Pgraph>Die Ergebnisse von NORM sind vervollst&#228;ndigte Dateien ohne Variablennamen im ASCII-Format. Diese Dateien m&#252;ssen dann in ein anderes Statistik-Programm exportiert werden, um die Datenanalyse vorzunehmen. </Pgraph>
      <Pgraph>F&#252;r weitere Informationen zur Anwendung von NORM kann an dieser Stelle auf eine kurze Anleitung verwiesen werden, die an unserem Institut angefertigt wurde. Bei Interesse setzen Sie sich bitte mit den Autoren in Verbindung.</Pgraph>
      <SubHeadline>4.2 SOLAS </SubHeadline>
      <Pgraph>SOLAS (Version 3.2) ist ein kommerzielles Softwareprodukt zur Behandlung und Ersetzung fehlender Werte. SOLAS wird vertrieben von der Firma Statsol, die auch viele weitere Statistiksoftware im Angebot hat (<Hyperlink href="http:&#47;&#47;www.statsol.ie&#47;">http:&#47;&#47;www.statsol.ie&#47;</Hyperlink>). Das Programm wurde in Zusammenarbeit mit Rubin, dem &#8222;Erfinder&#8220; der Multiple Imputation, entwickelt und hat sicher den gr&#246;&#223;ten Leistungsumfang, wenn es um Diagnostik und Ersetzung fehlender Werte geht. </Pgraph>
      <Pgraph>Neben einigen Varianten der Multiple Imputation hat SOLAS 3.2 auch einige Single Imputationsmethoden bis hin zu deterministischen Ersetzungsmethoden implementiert. Allerdings wird zur Nutzung dieser Methoden auf der Internetseite mit den wichtigsten Informationen zu SOLAS (<Hyperlink href="http:&#47;&#47;www.statsol.ie&#47;index.php&#63;pageID&#61;5">http:&#47;&#47;www.statsol.ie&#47;index.php&#63;pageID&#61;5</Hyperlink>) Rubin zitiert mit: &#8222;<Mark2>SOLAS is currently the only program that implements multiple imputation noniteratively and with substantial flexibility, even including ad-hoc methods, such as LOCF, as points of comparison for sensitivity analysis</Mark2>.&#8221;, so dass er diese Methoden haupts&#228;chlich als geeignet f&#252;r Vergleichszwecke ansieht (Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph>
      <Pgraph>Von der zitierten Internetseite kann eine lauff&#228;hige Demo-Version geladen werden und es findet sich umfangreiches Informationsmaterial zur Methodik, Features, Statistik und Datenmanagement. Nach Angaben der Hersteller ist der Datentransport in SOLAS wesentlich einfacher als in NORM, da ein Import&#47;Export von SAS, SPSS, S-Plus, SYSTAT, Stata, BMDP, Excel und ASCII angegeben wird. Der Hauptnachteil der Anwendung von SOLAS wird der Preis sein. Eine Lizenz im akademischen Bereich kostet 995 &#8364;, eine Lizenz f&#252;r kommerzielle Anwendungen 1295 &#8364; (Stand Februar 2009). Nach Angaben der Hersteller ist SOLAS validiert. Auf der Internetseite sind einige Dokumente zur Validierung dokumentiert. SOLAS l&#228;uft unter Windows ab Version 95.</Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="5 Standard-Statistiksoftware und der Umgang mit fehlenden Werten">
      <MainHeadline>5 Standard-Statistiksoftware und der Umgang mit fehlenden Werten</MainHeadline>
      <Pgraph>Die zur Auswertung anstehenden Daten werden &#252;blicherweise mit einem der bekannten und gro&#223;en Statistiksoftwarepakete analysiert. Davon gibt es sehr viele und es war nicht m&#246;glich, alle in Bezug auf M&#246;glichkeiten der Behandlung und Ersetzung fehlender Werte zu pr&#252;fen. Daher haben wir hier f&#252;r die unserer Meinung nach am h&#228;ufigsten eingesetzten Programmpakete (SAS, SPSS, S-Plus&#47;R, Stata) die entsprechenden Features zusammengestellt. Allerdings haben wir bei unseren zahlreichen Recherchen auch keine wesentlichen Hinweise auf die Behandlung fehlender Werte in anderen Paketen gefunden.</Pgraph>
      <SubHeadline>5.1 SAS</SubHeadline>
      <Pgraph>SAS (Version 9.2) (<Hyperlink href="http:&#47;&#47;www.sas.com&#47;offices&#47;europe&#47;germany&#47;index.html">http:&#47;&#47;www.sas.com&#47;offices&#47;europe&#47;germany&#47;index.html</Hyperlink>) ist einer der Marktf&#252;hrer unter den Statistiksoftwarepaketen und wird h&#228;ufig im Umfeld klinischer Forschung an Universit&#228;ten und der pharmazeutischen Industrie eingesetzt. Um die volle Leistungsf&#228;higkeit auszusch&#246;pfen (z.B. in Bezug auf die Ersetzung fehlender Werte) muss die umfangreiche SAS-Syntaxsprache genutzt werden. In den mitgelieferten maus- und men&#252;gesteuerten Oberfl&#228;chen sind die Ersetzungsmethoden nicht abrufbar. SAS bietet die M&#246;glichkeit, in so genannten Makros Unterprogramme in SAS-Syntax zu programmieren, die dann spezielle Auswertungsroutinen zus&#228;tzlich zur Verf&#252;gung stellen. Dies wird in Kreisen von SAS-Anwendern oft genutzt, so dass neben den offiziellen Prozeduren zur Bearbeitung fehlender Werte auch viele dieser Makros ver&#246;ffentlicht und verf&#252;gbar sind. Die wichtigsten werden nach den Informationen zu SAS eigenen L&#246;sungen hier dokumentiert. </Pgraph>
      <SubHeadline2>PROC MI &#38; PROC MIANALYZE</SubHeadline2>
      <Pgraph>Seit der Version 8.2 hat SAS eine Prozedur zur Durchf&#252;hrung einer Multiple Imputation experimentell eingef&#252;hrt. Mit dieser Prozedur PROC MI (aktuell in 9.2) l&#228;sst sich mittlerweile das Missing Data Pattern ausgeben und die fehlenden Werte mit den Methoden EM-Algorithmus, MCMC-Algorithmus (Data Augmentation), multiple Regressionsersetzung, Logistic Regression Method, Predictive Mean Matching und Discriminant Function Method ersetzen. Dabei wird auf die Vorarbeiten von Allison <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> sowie auf Rubin <TextLink reference="19"></TextLink> und Schafer <TextLink reference="20"></TextLink> zur&#252;ckgegriffen. Die Methoden Logistic Regression Method und Discriminant Function Method eignen sich speziell zur Ersetzung von fehlenden Werten kategorialer Variablen <TextLink reference="10"></TextLink>. Die Beschreibung der Prozedur kann in der Online-Dokumentation von SAS unter der Adresse <Hyperlink href="http:&#47;&#47;support.sas.com&#47;documentation&#47;cdl&#47;en&#47;statug&#47;63033&#47;HTML&#47;default&#47;mi&#95;toc.htm">http:&#47;&#47;support.sas.com&#47;documentation&#47;cdl&#47;en&#47;statug&#47;63033&#47;HTML&#47;default&#47;mi&#95;toc.htm</Hyperlink> nachgelesen werden. Ein Auszug aus der Prozedurbeschreibung erkl&#228;rt: </Pgraph>
      <Pgraph>
        <Mark2>The MI procedure performs multiple imputation of missing data&#8230;Multiple imputation does not attempt to estimate each missing value through simulated values. Instead, it draws a random sample of the missing values from its distribution. This process results in valid statistical inferences that properly reflect the uncertainty due to missing values; for example, confidence intervals with the correct probability coverage. </Mark2>
      </Pgraph>
      <Pgraph>Die Ver&#246;ffentlichung von Yuan <TextLink reference="27"></TextLink> beschreibt die M&#246;glichkeiten von PROC MI (<Hyperlink href="http:&#47;&#47;www.sas.com&#47;rnd&#47;app&#47;papers&#47;multipleimputation.pdf">http:&#47;&#47;www.sas.com&#47;rnd&#47;app&#47;papers&#47;multipleimputation.pdf</Hyperlink>), allerdings noch in der Version 8.2. </Pgraph>
      <Pgraph>Zus&#228;tzlich zu PROC MI bietet SAS die Prozedur PROC MIANALYZE an, die f&#252;r einige Regressionsanalysen (haupts&#228;chlich lineare Regression) die Ergebnisse einer mit PROC MI durchgef&#252;hrten Multiple Imputation geeignet zusammenf&#252;hrt. Einfache Ersetzungsmethoden wie z.B. die Mittelwertersetzung konnten in einigen weiteren Prozeduren in SAS schon lange durchgef&#252;hrt werden. Ersetzungsmethoden finden sich u.a. in den Prozeduren PROC STANDARD &#47; PROC STDIZE (Base SAS), PROC PRINQUAL (SAS&#47;STAT) und PROC EXPAND (SAS&#47;ETS).</Pgraph>
      <SubHeadline2>SAS Makros zur Bearbeitung fehlender Werte</SubHeadline2>
      <Pgraph>Im Folgenden werden neben den eigenen Entwicklungen der Autoren die bekanntesten und am h&#228;ufigsten zitierten SAS-Makros zur Bearbeitung fehlender Werte aufgelistet und kurz beschrieben.  </Pgraph>
      <SubHeadline2>SAS-Makros von Hohl und Muche: &#37;MISSDESCRIPTION und &#37;MISSING</SubHeadline2>
      <Pgraph>Hohl und Muche stellen zwei Makros zur Diagnostik und Ersetzung fehlender Werte auf Basis der Prozedur PROC MI zur Verf&#252;gung: &#37;MISSDESCRIPTION und &#37;MISSING <TextLink reference="4"></TextLink>, <TextLink reference="9"></TextLink>. Die Makros sind f&#252;r die SAS-Version 9 von der Internetseite <Hyperlink href="http:&#47;&#47;www.uni-ulm.de&#47;med&#47;med-biometrie&#47;forschung&#47;sas-makros-fuer-missing-values.html">http:&#47;&#47;www.uni-ulm.de&#47;med&#47;med-biometrie&#47;forschung&#47;sas-makros-fuer-missing-values.html</Hyperlink> zu beziehen. </Pgraph>
      <Pgraph>Das Makro &#37;MISSDESCRIPTION dient zur Beschreibung eines vorliegenden Datensatzes speziell in Bezug auf fehlende Werte. Zun&#228;chst wird der Anteil an fehlenden Werten je Variable und im gesamten Datensatz, optional die Beobachtungen mit den meisten fehlenden Werten und anschlie&#223;end das Missing Data Pattern (aus PROC MI) angegeben. Dar&#252;ber hinaus erfolgt eine (gew&#246;hnliche) Deskription aller Variablen <TextLink reference="4"></TextLink>, <TextLink reference="9"></TextLink>. </Pgraph>
      <Pgraph>Mit dem Makro &#37;MISSING k&#246;nnen Single  und Multiple Imputation durchgef&#252;hrt werden. Eine Single Imputation bei stetigen Variablen wird unter Nutzung der SAS-Prozedur PROC STDIZE durchgef&#252;hrt. Fehlende Werte k&#246;nnen hierbei durch den Median oder Mittelwert der vorhandenen Beobachtungen ersetzt werden. Bei kategorialen Variablen ist zudem die Erzeugung einer eigenen Missing-Kategorie m&#246;glich <TextLink reference="4"></TextLink>, <TextLink reference="9"></TextLink>. </Pgraph>
      <Pgraph>Der Leistungsumfang des Makros &#37;MISSING in Bezug auf die im jeweiligen Fall sinnvollen Ersetzungsmethoden ist in Abbildung  5 <ImgLink imgNo="5" imgType="figure"/> aufgelistet.</Pgraph>
      <SubHeadline2>SAS-Makropaket von M&#252;ller: Analyse und Ersetzung von Missing Data</SubHeadline2>
      <Pgraph>Verschiedene SAS-Makros zur Diagnostik und Ersetzung fehlender Werte werden von M&#252;ller auf seiner Internetseite zur Verf&#252;gung gestellt, erreichbar unter <Hyperlink href="http:&#47;&#47;www.joergmmueller.de&#47;AuswahlEntwickelterAnwendungssoftware.htm">http:&#47;&#47;www.joergmmueller.de&#47;AuswahlEntwickelterAnwendungssoftware.htm</Hyperlink>. </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>&#37;INDIKAT (2000) Erstellung einer Missing-Data Indikatormatrix</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#37;MISSING (2000) Analyse der Missing-Data nach Personen und Variablen</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#37;KATPAT (2000) Analyse der bivariaten Verteilung von Missing Data</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#37;IMPUTAT (1999) Multivariaten Datenersetzung</Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>
        <Mark2>&#37;CHECKIMP(1999) Kontrolle der ersetzten Werte</Mark2>
      </Pgraph>
      <SubHeadline2>SAS-Makros von Allison</SubHeadline2>
      <Pgraph> </Pgraph>
      <Pgraph>Einer der wichtigsten Autoren zur Methodik und Anwendung zur Bearbeitung fehlender Werte, Allison <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink> stellt seit langem SAS-Makros f&#252;r Multiple Imputation zur Verf&#252;gung. Diese Makros stammen aus der Zeit vor PROC MI und waren u.a. Grundlage bei der Entwicklung der Prozedur. Die folgenden Makros sind von seiner Internetseite <Hyperlink href="http:&#47;&#47;www.ssc.upenn.edu&#47;&#126;allison&#47;">http:&#47;&#47;www.ssc.upenn.edu&#47;&#126;allison&#47;</Hyperlink> (SAS Macros) abrufbar:</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>MISS (version 1.05) uses the EM algorithm to estimate the parameters of a multivariate normal distribution when data are missing, and optionally generates multiply imputed data sets using the methods of Schafer. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>COMBINE (version 1.03) takes estimates based on multiply imputed data sets and combines them into a single set of estimates and associated statistics. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>COMBCHI (version 1.0) takes chi-square statistics from multiply imputed data sets and produces a single p-value. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <SubHeadline2>SAS-Makro von Gregorich: EM&#95;COVAR </SubHeadline2>
      <Pgraph>Steve Gregorich stellt unter <Hyperlink href="http:&#47;&#47;lib.stat.cmu.edu&#47;general&#47;em&#95;covar.sas">http:&#47;&#47;lib.stat.cmu.edu&#47;general&#47;em&#95;covar.sas</Hyperlink> ein SAS-Programm EM&#95;COVAR zur Verf&#252;gung, mit dem durch die Anwendung des EM-Algorithmus eine ML-Kovarianzmatrix und ein zugeh&#246;riger Mittelwertvektor gesch&#228;tzt werden kann. </Pgraph>
      <Pgraph> </Pgraph>
      <SubHeadline2>SAS-Makro von van Buuren: MISTRESS </SubHeadline2>
      <Pgraph>MISTRESS ist eine spezielle Methode zur Ersetzung fehlender kategorialer Daten <TextLink reference="23"></TextLink>. Das SAS-IML-Makro MISTRESS V. 1.17 steht unter <Hyperlink href="http:&#47;&#47;www.stefvanbuuren.nl&#47;mistress&#47;index.html">http:&#47;&#47;www.stefvanbuuren.nl&#47;mistress&#47;index.html</Hyperlink> zur Verf&#252;gung.</Pgraph>
      <SubHeadline2>SAS-Makro von Raghunathan et al.: IVEWARE </SubHeadline2>
      <Pgraph>IVEWARE (Imputation and Variance estimation) ist ein SAS basiertes Softwarepaket (URL <Hyperlink href="http:&#47;&#47;www.isr.umich.edu&#47;src&#47;smp&#47;ive&#47;">http:&#47;&#47;www.isr.umich.edu&#47;src&#47;smp&#47;ive&#47;</Hyperlink>). Mit IVEWARE kann eine Multiple Imputation &#228;hnlich wie MICE (siehe 5.3 S-Plus) durchgef&#252;hrt werden:</Pgraph>
      <Pgraph>
        <OrderedList>
          <ListItem level="1" levelPosition="1" numString="1.">
            <Mark2>Perform single or multiple imputations of missing values using the Sequential Regression Imputation Method </Mark2>
            <TextLink reference="18"></TextLink>
            <Mark2>.</Mark2>
          </ListItem>
          <ListItem level="1" levelPosition="2" numString="2.">
            <Mark2>Perform a variety of descriptive and model based analyses accounting for such complex design features as clustering, stratification and weighting. </Mark2>
          </ListItem>
          <ListItem level="1" levelPosition="3" numString="3."><Mark2>Perform multiple imputation analyses for both descriptive and model-based survey statistics.</Mark2> </ListItem>
        </OrderedList>
      </Pgraph>
      <SubHeadline2>SAS-Makro von Brown et al.: SIRNORM </SubHeadline2>
      <Pgraph>Ein weiteres SAS-Makropaket zur Durchf&#252;hrung einer Multiple Imputation ist SIRNORM (<Hyperlink href="http:&#47;&#47;web.usf.edu&#47;psmg&#47;Sirnorm&#47;sirnorm.html">http:&#47;&#47;web.usf.edu&#47;psmg&#47;Sirnorm&#47;sirnorm.html</Hyperlink>).</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>sirnorm.sas (plain text): General Purpose &#8211; Procedure for Multiple Imputations using the Sampling&#47;Importance Resampling Algorithm (SIR). </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>mult&#95;inf.sas (plain text): General Purpose &#8211; Procedure to perform statistical inference on multiple imputations. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>m&#95;var&#95;co.sas (plain text):  General Purpose &#8211; Procedure for means and the variance&#47;covariance matrix of the mean from multiple imputations. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>example1 (plain text): Simple example to show how to use multiple imputations procedure. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <SubHeadline2>SAS-Makro von Little und Yau: Multiple Imputation in Zeitverl&#228;ufen</SubHeadline2>
      <Pgraph>Little und Yau haben 1996 eine Methode zur Ersetzung fehlender Werte in der speziellen Auswertungssituation longitudinaler Daten mit Drop-Outs (ITT-Analyse in klinischen Studien) vorgeschlagen <TextLink reference="15"></TextLink> und dokumentieren die entsprechenden SAS-Programme auf der Internetseite <Hyperlink href="http:&#47;&#47;www.sph.umich.edu&#47;&#126;rlittle&#47;jobs2.htm">http:&#47;&#47;www.sph.umich.edu&#47;&#126;rlittle&#47;jobs2.htm</Hyperlink>. </Pgraph>
      <SubHeadline>5.2 SPSS</SubHeadline>
      <Pgraph>SPSS (aktuelle Version 17.0 unter <Hyperlink href="http:&#47;&#47;www.spss.com&#47;de&#47;">http:&#47;&#47;www.spss.com&#47;de&#47;</Hyperlink>) ist ein in den Sozialwissenschaften und in der Psychologie h&#228;ufig genutztes Statistikpaket. Mit einer maus- und men&#252;gesteuerten Oberfl&#228;che ist die Bearbeitung von Datens&#228;tzen relativ einfach zu erlernen. Im Basispaket der Software sind nur sehr wenige M&#246;glichkeiten zur Behandlung von fehlenden Werten implementiert. Im Wesentlichen werden Methoden in entsprechenden Zusatzmodulen angeboten. Folgende Zusatzmodule sind einsetzbar f&#252;r die Diagnostik und Ersetzung fehlender Werte:</Pgraph>
      <SubHeadline2>SPSS Data Validation</SubHeadline2>
      <Pgraph>Das Zusatzmodul Data Validation wird seit der SPSS-Version 14 angeboten (<Hyperlink href="http:&#47;&#47;www.spss.com&#47;data&#95;preparation">http:&#47;&#47;www.spss.com&#47;data&#95;preparation</Hyperlink>) und kann u. a. zur Diagnostik fehlender Werte eingesetzt werden:</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>Identifizieren Sie auff&#228;llige oder ung&#252;ltige F&#228;lle, Variablen und Werte, erkennen Sie Muster in fehlenden Daten und fassen Sie Variablen-Verteilungen zusammen. Bestimmen Sie dann die Validit&#228;t der Daten und entfernen oder korrigieren Sie verd&#228;chtige F&#228;lle nach Belieben vor der Analyse</Mark2>
          </ListItem>
          <ListItem level="1"><Mark2>Entdecken Sie multivariate Ausrei&#223;er. Sie k&#246;nnen diese weiter pr&#252;fen und bestimmen, ob sie in die Analyse miteinbezogen</Mark2> werden sollen.</ListItem>
        </UnorderedList>
      </Pgraph>
      <SubHeadline2>SPSS Missing Value Analysis (MVA)   </SubHeadline2>
      <Pgraph>Das Zusatzmodul MVA ist das Hauptprodukt von SPSS zur Diagnostik und Ersetzung fehlender Werte (<Hyperlink href="http:&#47;&#47;www.spss.com&#47;de&#47;software&#47;statistics&#47;missing-values&#47;">http:&#47;&#47;www.spss.com&#47;de&#47;software&#47;statistics&#47;missing-values&#47;</Hyperlink>). SPSS beschreibt den Funktionsumfang auf der eigenen Seite so:  </Pgraph>
      <Pgraph>
        <Mark2>Mit SPSS Missing Value Analysis k&#246;nnen Sie Ihre Daten hinsichtlich fehlender Werte analysieren und unter bestimmten Voraussetzungen sogar fehlende Werte durch gesch&#228;tzte Werte ersetzen. Durch eine Analyse Ihrer Daten auf fehlende Werte vor der eigentlichen Auswertung k&#246;nnen Sie &#252;berpr&#252;fen, ob bestimmte Interpretationen zul&#228;ssig sind&#8230;</Mark2>
      </Pgraph>
      <Pgraph>Zu fr&#252;heren Versionen von SPSS gab es Hinweise, dass die Nutzung dieses Moduls nicht fehlerfrei ist bei der Ersetzung fehlender Werte. So schrieb von Hippel <TextLink reference="25"></TextLink>, dass mit dem eingef&#252;gten EM-Algorithmus nur Single Imputation durchgef&#252;hrt werden kann:</Pgraph>
      <Pgraph>
        <Mark2>In Version 12.0, MVA offers four general methods for analyzing data with missing values. Unfortunately, none of these methods is wholly satisfactory when values are missing at random. The first two methods, listwise and pairwise deletion, are well known to be biased. The third method, regression imputation, uses a regression model to impute missing values, but the regression parameters are biased because they are derived using pairwise deletion. The final method, expectation maximization (EM), produces asymptotically unbiased estimates, but EM&#8217;s implementation in MVA is limited to point estimates (without standard errors) of means, variances and covariances. </Mark2>
      </Pgraph>
      <Pgraph>&#196;hnliche Erfahrungen mit dem SPSS-Modul MVA (11.0) werden auch von V&#246;lkner <TextLink reference="24"></TextLink> in seiner Diplomarbeit geschildert. Auf Seite 82 fasst er seine Ergebnisse und Erfahrungen mit der SPSS-Routine folgenderma&#223;en zusammen: </Pgraph>
      <Pgraph>
        <Mark2>Die Implementierung des EM-Algorithmus in SPSS ist nur sehr mangelhaft, da die Angabe einer Fallbeschriftung zu Ver&#228;nderungen der Ergebnisse f&#252;hrt und die &#8211; aus der vollst&#228;ndigen Datenmatrix berechneten &#8211; Standardabweichungen zu gering ausfallen.</Mark2>
      </Pgraph>
      <Pgraph>Ab der aktuellen Version 17.0 stellt SPSS allerdings im Rahmen des MVA-Moduls erstmals die M&#246;glichkeit der Multiple Imputation bei kategorialen oder stetigen Variablen zur Verf&#252;gung. Es kann zwischen der MCMC-Methode und einer monotonen Methode gew&#228;hlt werden. Was unter einer monotonen Methode zu verstehen ist, kann anhand der offiziellen Brosch&#252;re (<Hyperlink href="http:&#47;&#47;www.spss.com&#47;de&#47;media&#47;collateral&#47;statistics&#47;missing-values.pdf">http:&#47;&#47;www.spss.com&#47;de&#47;media&#47;collateral&#47;statistics&#47;missing-values.pdf</Hyperlink>) leider nicht nachvollzogen werden. Allgemein steht unter der Adresse <Hyperlink href="http:&#47;&#47;www.spss.com&#47;statistics&#47;missing&#95;values&#47;">http:&#47;&#47;www.spss.com&#47;statistics&#47;missing&#95;values&#47;</Hyperlink> in der offiziellen Ank&#252;ndigung von SPSS:    </Pgraph>
      <Pgraph>
        <Mark2>In SPSS Missing Values 17.0, a new multiple imputation procedure will help you understand patterns of &#8220;missingness&#8221; in your dataset and enable you to replace missing values with plausible estimates. It offers a fully automatic imputation mode that chooses the most suitable imputation method based on characteristics of your data, while also allowing you to customize your imputation model.</Mark2>
      </Pgraph>
      <SubHeadline2>Amos 6.0  </SubHeadline2>
      <Pgraph>Eine Alternative zum Modul MVA in SPSS stellt die Nutzung von AMOS dar (<Hyperlink href="http:&#47;&#47;www.spss.com&#47;amos&#47;">http:&#47;&#47;www.spss.com&#47;amos&#47;</Hyperlink>). AMOS ist eigentlich ein Modul zur Nutzung von Strukturgleichungsmodellen in SPSS, bietet aber darin auch Methoden zur Ersetzung fehlender Werte an. Folgende Funktionalit&#228;t wird ab SPSS 14.0 auf <Hyperlink href="http:&#47;&#47;www.spss.com&#47;de&#47;amos">http:&#47;&#47;www.spss.com&#47;de&#47;amos</Hyperlink>  beschrieben: </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>Erstellen von Datens&#228;tzen mit fehlenden Werten oder latenten Variablen. Verwenden Sie die Regressionsimputation zum Erstellen eines einzelnen, vollst&#228;ndigen Datensets. Die stochastische Regressionsimputation oder die Bayessche Imputation k&#246;nnen zum Erstellen mehrerer imputierter Datensets verwendet werden. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Diese M&#246;glichkeiten sind also nicht im Standardlieferumfang von SPSS enthalten und m&#252;ssen zus&#228;tzlich angeschafft werden.</Pgraph>
      <SubHeadline>5.3 S-PLUS &#47; R</SubHeadline>
      <Pgraph>S-Plus (Version 8.0) <Hyperlink href="http:&#47;&#47;www.insightful.com&#47;products&#47;splus&#47;default.asp">http:&#47;&#47;www.insightful.com&#47;products&#47;splus&#47;default.asp</Hyperlink> ist ein kommerzielles Statistikpaket, welches sich aus der &#8222;Statistiksprache&#8220; S entwickelt hat. Parallel wurde dieselbe Sprache weiterentwickelt als Softwarepaket R (Version 2.8.1), welches Public-Domain unter <Hyperlink href="http:&#47;&#47;www.r-project.org&#47;">http:&#47;&#47;www.r-project.org&#47;</Hyperlink> erh&#228;ltlich ist. Beide Softwareprodukte zeigen gro&#223;e &#196;hnlichkeiten in den M&#246;glichkeiten und in von Anwendern geschriebenen Modulen, so dass sie hier gemeinsam behandelt werden. Wichtig ist allerdings dabei zu beachten, welche Version jeweils als Vorraussetzung f&#252;r die Anwendungen ben&#246;tigt wird. </Pgraph>
      <Pgraph>S-Plus beinhaltet seit der Version 8 einige M&#246;glichkeiten f&#252;r Multiple Imputation. Kollegen vom Hartwell Center for Bioinformatics and Biotechnology fassen dies folgenderma&#223;en zusammen (<Hyperlink href="http:&#47;&#47;www.hartwellcenter.org&#47;bio&#95;rescom&#47;apps&#95;restools&#47;splus6.php">http:&#47;&#47;www.hartwellcenter.org&#47;bio&#95;rescom&#47;apps&#95;restools&#47;splus6.php</Hyperlink>):</Pgraph>
      <Pgraph>
        <Mark2>When performing real-world data analysis you often encounter missing values. S-PLUS is the only package that lets you account for the effect of missing values using three different multiple imputation models: Gaussian, Logistic, and Conditional Gaussian. When properly accounted for, missing values can provide critical insight in your analysis and help you leverage your data investment. </Mark2>
      </Pgraph>
      <Pgraph>Horton beschreibt in einem seiner Paper <TextLink reference="11"></TextLink> die Ersetzungsm&#246;glichkeiten mit S-Plus:</Pgraph>
      <Pgraph>
        <Mark2>S-Plus features a new missing data library, which extends S-Plus to support model-based missing data models, by use of the EM algorithm (Dempster, Laird and Rubin 1977) and data augmentation (DA) algorithms (Tanner and Wong 1987). DA algorithms can be used to generate multiple imputations. The missing data library provides support for multivariate normal data (impGauss), categorical data (impLoglin) and conditional Gaussian models (impCgm) for imputations involving both discrete and continuous variables.</Mark2>
      </Pgraph>
      <Pgraph>Vor diesen Neuerungen seit der Version 6.0 in S-Plus gab es schon viele Jahre von Nutzern entwickelte Libraries f&#252;r S-Plus und&#47;oder R, mit denen die wichtigsten Ersetzungsmethoden schon fr&#252;hzeitig mit dieser Software durchf&#252;hrbar waren. Die wichtigsten Beitragenden waren Schafer (NORM) und van Buuren (MICE). </Pgraph>
      <SubHeadline2>S-PLUS Programme von Schafer: NORM, CAT, MIX und PAN</SubHeadline2>
      <Pgraph>Schafer hat schon seit 1999 verschiedene Bibliotheken f&#252;r S-Plus Versionen zur Verf&#252;gung gestellt. Neben der Entwicklung der Stand-alone-Version von NORM (siehe 4.1) sind verschiedene Softwareprodukte f&#252;r S-Plus entstanden. Auf der Seite &#252;ber seine Missing Value-Software <Hyperlink href="http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;misoftwa.html">http:&#47;&#47;www.stat.psu.edu&#47;&#126;jls&#47;misoftwa.html</Hyperlink> sind 4 verschiedene Bibliotheken f&#252;r S-Plus ab Version 3.3 vorhanden: </Pgraph>
      <Pgraph>
        <Mark2>At present, four different software packages are available for creating multiple imputations in S-PLUS. </Mark2>
      </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>NORM: Multiple imputation of multivariate continuous data under a normal model. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>CAT: Multiple imputation of multivariate categorical data under loglinear models. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>MIX: Multiple imputation of mixed continuous and categorical data under the general location model. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>PAN: Multiple imputation of panel data or clustered data under a multivariate linear mixed-effects model. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <SubHeadline2>S-PLUS Programm von van Buuren: MICE</SubHeadline2>
      <Pgraph>Ein weiteres wichtiges Paket zur Durchf&#252;hrung von Multiple Imputation ist das Programm MICE von der Arbeitsgruppe um van Buuren aus Leiden&#47;Holland <TextLink reference="22"></TextLink>, mit der eine spezielle MI-Methode umgesetzt wird. MICE ist zu erhalten unter der Seite  <Hyperlink href="http:&#47;&#47;web.inter.nl.net&#47;users&#47;S.van.Buuren&#47;mi&#47;hmtl&#47;mice.htm">http:&#47;&#47;web.inter.nl.net&#47;users&#47;S.van.Buuren&#47;mi&#47;hmtl&#47;mice.htm</Hyperlink> f&#252;r S-Plus (ab Version 4.5) und R (ab Version 1.8).</Pgraph>
      <Pgraph>
        <Mark2>MICE stands for Multivariate Imputation by Chained Equations. We have written a software library for multiple imputation using S-Plus V4.5 and higher for Windows, and R 1.8 and higher for Windows. The library assists in performing the steps required in a full multiple imputation analysis. There is also an implementation in STATA. Specific features of MICE V1.0 include:</Mark2>
      </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>columnwise specification of the imputation model; </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>arbitrary patterns of missing data; </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>transformations and index variables; </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>subset selection of predictors; </Mark2>
          </ListItem>
          <ListItem level="1"><Mark2>supports standard </Mark2>lm<Mark2> and </Mark2>glm<Mark2> complete-data methods; </Mark2></ListItem>
          <ListItem level="1">
            <Mark2>automated pooling using the Barnard-Rubin adjustment; </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>callable user-written imputation functions; </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>online help files. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Verschiedene Download-M&#246;glichkeiten f&#252;r Windows- und Unix-Versionen werden auf der oben angegebenen Internetseite angeboten. Ebenfalls ist ein Download eines Posters m&#246;glich, auf dem die wesentlichen Spezifikationen von MICE kurz und knapp nachzulesen sind. </Pgraph>
      <SubHeadline2>S-PLUS&#47;R-Bibliothek von Harrell: HMISC</SubHeadline2>
      <Pgraph>Die S-Plus- und R- Bibliothek HMISC von Harrell <TextLink reference="7"></TextLink> enth&#228;lt einige Funktionen zur Ersetzung von fehlenden Werten (Single und Multiple Imputation) in Kombination mit Analyse- und Kombinationsroutinen (<Hyperlink href="http:&#47;&#47;lib.stat.cmu.edu&#47;S&#47;Harrell&#47;Hmisc.html">http:&#47;&#47;lib.stat.cmu.edu&#47;S&#47;Harrell&#47;Hmisc.html</Hyperlink>). Die neueste Version ist lauff&#228;hig ab S-Plus Version 6.0 und&#47;oder R-Version 2.0 und gr&#246;&#223;tenteils in den Lieferumfang der Software &#252;bernommen worden (z.B. die Funktion <Mark2>impute</Mark2>). Einige der Funktionen aus HMISC sind in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> aufgelistet. </Pgraph>
      <SubHeadline2>R-Pakete</SubHeadline2>
      <Pgraph>Zudem gibt es in R (aktuelle Version 2.8.1) eine ganze Reihe weiterer Pakete, die f&#252;r den Umgang mit fehlenden Werten konzipiert sind. Die im Folgenden aufgef&#252;hrten Pakete stehen alle auf der Seite <Hyperlink href="http:&#47;&#47;cran.r-project.org&#47;web&#47;packages">http:&#47;&#47;cran.r-project.org&#47;web&#47;packages</Hyperlink> zum Download bereit. Wir geben zu jedem Paket eine kurze Beschreibung, sowie den Autor und das Erscheinungsjahr an, um dem Leser einen Eindruck &#252;ber die Aktualit&#228;t  der Pakete zu vermitteln.</Pgraph>
      <SubHeadline2>R-Paket von Lee et al.: arrayImpute</SubHeadline2>
      <Pgraph>Dieses Paket wurde von Lee, Yoon und Park im Jahre 2007 zur Verf&#252;gung gestellt. Es ist f&#252;r die Imputation fehlender Werte bei Microarray-Daten erstellt worden.</Pgraph>
      <SubHeadline2>R-Paket von Gelman et al.: mi</SubHeadline2>
      <Pgraph>Das von Gelman, Hill, Yajima, Su und Pittau entwickelte Paket kann seit 2009 genutzt werden. Es wurde konzipiert f&#252;r die Imputation fehlender Werte und zum Modelltesten. </Pgraph>
      <SubHeadline2>R-Paket von Lumley: mitools</SubHeadline2>
      <Pgraph>Implementiert sind Tools zur Multiple Imputation (Lumley (2008)).</Pgraph>
      <SubHeadline2>R-Paket von Gramacy: monomvn</SubHeadline2>
      <Pgraph>M&#246;glich sind Sch&#228;tzungen f&#252;r multivariat normalverteilte Daten mit monotonem Muster der fehlenden Werte (Gramacy (2008)).</Pgraph>
      <SubHeadline2>R-Paket von Gross: mvnmle</SubHeadline2>
      <Pgraph>Ein Paket von Gross (2008) zur ML-Sch&#228;tzung multivariat normalverteilter Daten mit fehlenden Werten.</Pgraph>
      <SubHeadline2>R-Paket von Novo: norm</SubHeadline2>
      <Pgraph>Novo (2002) hat ein Paket zur Analyse von multivariat normalverteilten Daten mit fehlenden Werten erstellt. Als Basis hierf&#252;r dienten die Arbeiten von Schafer.</Pgraph>
      <SubHeadline2>R-Paket von Tempi et al.: VIM</SubHeadline2>
      <Pgraph>Mit diesem Paket von Templ und Alfons (2009) ist es m&#246;glich, fehlende Werte zu visualisieren und zu ersetzen.   </Pgraph>
      <SubHeadline>5.4 Stata </SubHeadline>
      <Pgraph>Stata (Version 10) ist ein umfangreiches Statistikpaket, was eine gro&#223;e Verbreitung in den USA und weltweit im Bereich der epidemiologischen Forschung hat (<Hyperlink href="http:&#47;&#47;www.stata.com">http:&#47;&#47;www.stata.com</Hyperlink>). Im eigentlichen Softwarepaket Stata gibt es den <Mark2>impute</Mark2> Befehl. Die folgende Beschreibung wird angegeben: </Pgraph>
      <Pgraph><Mark2>impute fills in missing values; depvar</Mark2> (<Hyperlink href="http:&#47;&#47;www.stata.com&#47;help.cgi&#63;depvar">http:&#47;&#47;www.stata.com&#47;help.cgi&#63;depvar</Hyperlink>) <Mark2>is the variable whose missing values are to be imputed. indepvars</Mark2> (<Hyperlink href="http:&#47;&#47;www.stata.com&#47;help.cgi&#63;indepvars">http:&#47;&#47;www.stata.com&#47;help.cgi&#63;indepvars</Hyperlink>) <Mark2>is the list of variables on which the imputations are to be based, and newvar1</Mark2> (<Hyperlink href="http:&#47;&#47;www.stata.com&#47;help.cgi&#63;newvar">http:&#47;&#47;www.stata.com&#47;help.cgi&#63;newvar</Hyperlink>)<Mark2> is the new variable that contains the imputations.</Mark2></Pgraph>
      <Pgraph>Auf der Seite <Hyperlink href="http:&#47;&#47;www.sociology.ohio-state.edu&#47;people&#47;ptv&#47;faq&#47;mi&#95;mianalyze.htm">http:&#47;&#47;www.sociology.ohio-state.edu&#47;people&#47;ptv&#47;faq&#47;mi&#95;mianalyze.htm</Hyperlink> wird im Zusammenhang mit der SAS-Prozedur PROC MI folgende Frage und Antwort ver&#246;ffentlicht:</Pgraph>
      <Pgraph>
        <Mark2>Q: Is Stata&#39;s impute command just as good&#63;</Mark2>
      </Pgraph>
      <Pgraph><Mark2>A: No. It doesn&#39;t account for random variation, so it will impute the same value every time. Multiple imputation is based on imputing several random values, and accounting for the variation among them.</Mark2> </Pgraph>
      <Pgraph>Auf Grundlage dieser Hinweise scheint es, dass das Impute-Statement eine deterministische Regressionsersetzung durchf&#252;hrt. </Pgraph>
      <Pgraph>Stata ist ein Softwarepaket, in das von Nutzern geschriebene Module implementiert werden k&#246;nnen. </Pgraph>
      <SubHeadline2>Stata-Modul von Royston&#47;van Buuren: MICE</SubHeadline2>
      <Pgraph>Ein wichtiges Modul ist die Einbindung des Softwarepaketes MICE von van Buuren (siehe 5.3) in Stata durch Royston (<Hyperlink href="http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s446602.html">http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s446602.html</Hyperlink>). Dort wird anhand der Befehle mvis und micombine eine Multiple Imputation erm&#246;glicht. Eine Pr&#228;sentation von Royston auf der Stata-Konferenz 2005 bzgl. der Anwendungsm&#246;glichkeiten und Hintergr&#252;nde findet sich unter <Hyperlink href="http:&#47;&#47;www.stata.com&#47;meeting&#47;11uk&#47;royston.ppt">http:&#47;&#47;www.stata.com&#47;meeting&#47;11uk&#47;royston.ppt</Hyperlink>.</Pgraph>
      <SubHeadline2>Stata-Modul von Mander und Clayton: HOTDECK</SubHeadline2>
      <Pgraph> </Pgraph>
      <Pgraph>Ein weiteres Modul erm&#246;glicht eine Hotdeck-Ersetzung. Das Modul HOTDECK wurde von Mander und Clayton geschrieben und wird auf der folgenden Seite <Hyperlink href="http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s366901.html">http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s366901.html</Hyperlink> genauer beschrieben: </Pgraph>
      <Pgraph>
        <Mark2>hotdeck replaces missing values for the variable indicated by its argument. It should be used within a multiple imputation sequence since missing values are imputed stochastically rather than deterministically. The nmiss missing values in each stratum of the data described by the &#39;by&#39; option are replaced by values sampled from the nobs observed values in the same stratum. The approximate Bayesian bootstrap method of Rubin and Scheker is used; first a bootstrap sample of nobs observations is sampled with replacement from the observed values, and the nmiss missing values are sampled at random (again with replacement) from this bootstrap sample. If a file is specified in a using clause, the modified file is written to disk and the existing data in memory are unchanged. Otherwise the data in memory are modified. This is version 1.65 of the software, requiring Stata v9. hotdeck6 may be used in earlier versions of Stata. </Mark2>
      </Pgraph>
      <SubHeadline2>Stata-Modul von Millar: LISTMISS</SubHeadline2>
      <Pgraph>Zur Missing value-Diagnostik kann das von Millar zur Verf&#252;gung gestellte Stata-Modul LISTMISS genutzt werden (<Hyperlink href="http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s449506.html">http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s449506.html</Hyperlink>): </Pgraph>
      <Pgraph>
        <Mark2>listmiss is a post-estimation command that reports the number of missing values for each independent variable. For each independent variable a flag is created to indicate when the variable is missing. The dependent variable is regressed on the missing flag for each independent variable. The statistical significance of the slope is reported as an indicator of whether the dependent variable is statistically different where an independent variable is missing. Another test compares the null model to the model with the missing flag and performs a BIC difference test, again as an indication of whether the dependent variable is statistically different when an independent variable is missing. If the model was specified with robust standard errors, then robust standard errors are used to perform the hypothesis test related to the slope for the missing value flag.</Mark2>
      </Pgraph>
      <SubHeadline2>Stata-Modul von Cox: NMISSING</SubHeadline2>
      <Pgraph>Etwas weniger umfangreich ist das Modul NMISSING, mit dem die Anzahl fehlender Werte in den Variablen und&#47;oder in den Beobachtungen ausgez&#228;hlt werden kann (<Hyperlink href="http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s455901.html">http:&#47;&#47;ideas.repec.org&#47;c&#47;boc&#47;bocode&#47;s455901.html</Hyperlink>).  </Pgraph>
      <Pgraph>Spezielle Stata-Module (so genannte &#8222;ados&#8220;) k&#246;nnen innerhalb von Stata mit dem &#8222;webseek&#8220;-Kommando gesucht und nachtr&#228;glich dazuinstalliert werden. Module im Bereich Missing Data sind beispielsweise folgende:</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>&#34;meanscor&#34; (die Meanscore-Methode bei fehlenden Daten in logistischen Regressionen),</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#34;pattern&#34; bzw. &#34;mvpatt&#34; (Missing Data Pattern Analyse),</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#34;pcamv&#34; (eine PCA mit ML-Sch&#228;tzung der Kovarianzmatrix bei fehlenden Werten mit M&#246;glichkeit der Imputation)</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#34;regmsng&#34; (Imputationen mit einer Regressionsvariante) und</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#34;whotdeck&#34; (eine gewichtete Variante der Hotdeck-Ersetzung)</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#8220;misum&#8220; (deskriptive Statistik der Sch&#228;tzungen auf Basis von multipler Imputation</Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>&#8220;miest&#8220; (Kombination von Ergebnissen &#252;ber mehrere Datens&#228;tze und Berechnung von Sch&#228;tzungen auf Basis von multipler Imputation)</Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="6 Weitere Software zur Behandlung fehlender Werte">
      <MainHeadline>6 Weitere Software zur Behandlung fehlender Werte</MainHeadline>
      <Pgraph>Bei der Recherche der Softwareprodukte zur Behandlung fehlender Werte haben wir neben den bisher dargestellten Informationen zu Spezialsoftware (siehe Kap. 4) und Statistiksoftwarepaketen (siehe Kap. 5) weitere Informationen sammeln k&#246;nnen. Diese werden hier ohne gr&#246;&#223;ere Kommentare mit entsprechender Angabe der Internetseiten (Stand Februar 2009) wiedergegeben, da sie eventuell f&#252;r den einen oder anderen Leser wertvolle Hinweise oder Anwendungsm&#246;glichkeiten enthalten. Wir Autoren haben keine Erfahrungen mit diesen Produkten und k&#246;nnen dementsprechend keine wertenden Urteile abgeben. Die Softwareprodukte werden hier alphabetisch gelistet. </Pgraph>
      <SubHeadline>6.1 AMELIA</SubHeadline>
      <Pgraph>AMELIA II (<Hyperlink href="http:&#47;&#47;gking.harvard.edu&#47;stats.shtml">http:&#47;&#47;gking.harvard.edu&#47;stats.shtml</Hyperlink>) ist ein Windows-Programm, in dem die Arbeitsgruppe um Gary King einen alternativen Algorithmus zur Multiple Imputation einsetzen <TextLink reference="12"></TextLink>. Das Programm nutzt einen schnellen EM-Algorithmus, der von NORM abgeleitet wurde, und existiert bereits in zweiter Version 1.2-0. Die Windows-Version braucht nur das Betriebssystem Windows und ist stand-alone. Das Programm ist men&#252;-orientiert. Neben dieser Windows-Version gibt es eine Prozedur f&#252;r das Statistikpaket GAUSS. F&#252;r beide Versionen gibt es sowohl eine PDF- und Online-Dokumentation (<Hyperlink href="http:&#47;&#47;gking.harvard.edu&#47;amelia&#47;amelia1&#47;docs&#47;">http:&#47;&#47;gking.harvard.edu&#47;amelia&#47;amelia1&#47;docs&#47;</Hyperlink>). Auf einer weiteren Internetseite <Hyperlink href="http:&#47;&#47;gking.harvard.edu&#47;projects&#47;miss.shtml">http:&#47;&#47;gking.harvard.edu&#47;projects&#47;miss.shtml</Hyperlink> finden sich dar&#252;ber hinaus Informationen aus der Arbeitsgruppe zu fehlenden Werten (Methoden, Software u.a.).</Pgraph>
      <SubHeadline>6.2 EMCOV </SubHeadline>
      <Pgraph>EMCOV (Estimation of Means and Covariances) ist eine von John W. Graham und Scott M. Hofer <TextLink reference="6"></TextLink> unter DOS und UNIX laufende Software zur Ersetzung fehlender Werte mit dem EM-Algorithmus und basiert auf den Methoden von Schafer <TextLink reference="20"></TextLink> (<Hyperlink href="ftp:&#47;&#47;ftp.cac.psu.edu&#47;pub&#47;people&#47;jwg4&#47;">ftp:&#47;&#47;ftp.cac.psu.edu&#47;pub&#47;people&#47;jwg4&#47;</Hyperlink>). </Pgraph>
      <SubHeadline>6.3 LISREL &#47; PRELIS</SubHeadline>
      <Pgraph>LISREL (Version 8.8) ist nach den Angaben des Vertreibers SSI (<Hyperlink href="http:&#47;&#47;www.ssicentral.com&#47;">http:&#47;&#47;www.ssicentral.com&#47;</Hyperlink>) die f&#252;hrende Statistiksoftware f&#252;r Strukturgleichungsmodelle. In der letzten Windowsversion der Software gibt es verschiedene Anwendungen (zitiert von der Internetseite):</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>LISREL for structural equation modeling. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>PRELIS for data manipulations and basic statistical analyses. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>MULTILEV for hierarchical linear and non-linear modeling. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>SURVEYGLIM for generalized linear modeling. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>CATFIRM for formative inference-based recursive modeling for categorical variables. </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>CONFIRM for formative inference-based recursive modeling for continuous variables. </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Im Programmteil PRELIS sind neben Datenmanipulationsm&#246;glichkeiten und einigen Regressionsmethoden die M&#246;glichkeit f&#252;r <Mark2>&#8222;Imputation by Matching</Mark2>&#8220; und &#8222;<Mark2>Multiple Imputation</Mark2>&#8220; vorhanden. Im Internet ist ein User&#8217;s Guide f&#252;r PRELIS mit entsprechenden genaueren Beschreibungen unter der Firmenseite erh&#228;ltlich.</Pgraph>
      <SubHeadline>6.4 MPLUS</SubHeadline>
      <Pgraph>MPLUS (Version 5.2) ist ein Statistikpaket f&#252;r latent-Class-Analysen. Die wesentlichen Informationen zu MPLUS gibt ein einf&#252;hrender Text im Internet unter</Pgraph>
      <Pgraph><Hyperlink href="http:&#47;&#47;www.ats.ucla.edu&#47;stat&#47;mplus&#47;seminars&#47;IntroMplus&#47;default.htm">http:&#47;&#47;www.ats.ucla.edu&#47;stat&#47;mplus&#47;seminars&#47;IntroMplus&#47;default.htm</Hyperlink> wieder. MPLUS kann in Bezug auf fehlende Werte neben den dort beschriebenen Auswertungssituationen zur Untersuchung der Datenstruktur in Bezug auf fehlende Werte genutzt werden. </Pgraph>
      <SubHeadline>6.5 PreScreen</SubHeadline>
      <Pgraph>PreScreen (Version 2.1) ist ein Statistikpaket, welches von den Autoren eingebunden wurde in die Software MATLAB 5 als Auswertungstool f&#252;r MATLAB-Nutzer. Die Hauptanwendungsgebiete sind: (<Hyperlink href="http:&#47;&#47;www.ncl.ac.uk&#47;CPACTsoftware&#47;PreScreen&#47;">http:&#47;&#47;www.ncl.ac.uk&#47;CPACTsoftware&#47;PreScreen&#47;</Hyperlink>)</Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">
            <Mark2>Plotting capabilities: time series&#47;trend plots, scatter plots, normal probability plots, histograms, auto and cross-correlation plots, rank correlation matrix plot, parallel coordinates plot (version 2.1 only) </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>Variable selection tools based on statistical techniques </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>Missing values detection &#38; treatment tools </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>Variable transformations: statistical, filtering, mathematical, time-shifting </Mark2>
          </ListItem>
          <ListItem level="1">
            <Mark2>Outliers: univariate and multivariate outlier detection &#38; treatments </Mark2>
          </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Die M&#246;glichkeiten der Untersuchung fehlender Werte sind zusammengefasst unter <Hyperlink href="http:&#47;&#47;www.ncl.ac.uk&#47;CPACTsoftware&#47;PreScreen&#47;MissingData.html">http:&#47;&#47;www.ncl.ac.uk&#47;CPACTsoftware&#47;PreScreen&#47;MissingData.html</Hyperlink>. Die St&#228;rken des Programms liegen sicher in der Untersuchung der fehlenden Werte, direkt zu nutzende Ersetzungsmethoden werden nicht angegeben.</Pgraph>
      <SubHeadline>6.6 ProMISS</SubHeadline>
      <Pgraph>ProMISS ist eine Software zur Ersetzung fehlender Werte mit der Hot-Deck-Ersetzung. Informationen sind erh&#228;ltlich unter: <Hyperlink href="http:&#47;&#47;www.atlantecsoftware.com&#47;promiss2.asp">http:&#47;&#47;www.atlantecsoftware.com&#47;promiss2.asp</Hyperlink>.</Pgraph>
      <SubHeadline>6.7 XMISS</SubHeadline>
      <Pgraph>Cyrus R. Mehta, der Entwickler von Statistikpaketen wie STATXACT, LOGXACT k&#252;ndigt eine Software zum Umgang mit fehlenden Werten im Bereich multipler Regressionsmodelle an. In der Ank&#252;ndigung wird speziell auf Studien im Umfeld von Tumorerkrankungen eingegangen (Software for missing covariate data in cancer trials), die Methoden sind aber direkt &#252;bertragbar auf vergleichbare Auswertungssituationen.(<Hyperlink href="http:&#47;&#47;cancercontrol.cancer.gov&#47;grants&#47;abstract.asp&#63;applid&#61;6839961">http:&#47;&#47;cancercontrol.cancer.gov&#47;grants&#47;abstract.asp&#63;applid&#61;6839961</Hyperlink>):</Pgraph>
      <Pgraph>
        <Mark2>This is a Phase II SBIR proposal for completing the development of a comprehensive collection of statistical tools embedded in LogXact, in EGRET, in SAS as PROCs and in SPLUS as functions. This set of tools will compute maximum likelihood estimates for generalized linear models (GLMs) and parametric survival models with missing categorical covariates, where the missing covariates are assumed to be missing at random (MAR). In this Phase II effort, we will expand the current version of tools available in prototype software XMISS to handle: (i) missing categorical covariates for binomial response models with Iogit, probit, or complementary log-log links, (ii) missing categorical covariates for conditional logistic regression for matched case-control data, (iii) missing categorical covariates for Poisson regression models, (iv) missing categorical covariates for normal linear regression models, (v) missing categorical covariates for ordinal response regression models, (vi) missing categorical covariates for exponential, Weibull and log-normal regression models allowing for right censoring in the response variable&#8230;In addition, we will investigate methods for speeding up the EM algorithm as well as develop new algorithms for obtaining good starting values for the EM algorithm. Missing covariate data is very common problem with cancer clinical trials. There exists no commercial software to handle missing covariate data by maximum likelihood method for the range of models listed above.</Mark2>
      </Pgraph>
      <Pgraph>Einen Hinweis darauf, dass die Entwicklung der Software XMISS zu Ende gef&#252;hrt wurde, findet sich im Abstracts-Band der International Biometric Society, Eastern North American Region, das anl&#228;sslich ihrer Tagung im M&#228;rz 2007 erschienen ist. Unter der URL <Hyperlink href="http:&#47;&#47;www.enar.org&#47;documents&#47;enar&#95;program&#95;2007.pdf">http:&#47;&#47;www.enar.org&#47;documents&#47;enar&#95;program&#95;2007.pdf</Hyperlink> gelangt man zu diesem Abstracts-Band und kann auf Seite 328 etwas &#252;ber die Anwendung von XMISS lesen.</Pgraph>
      <SubHeadline>6.8 WinMICE</SubHeadline>
      <Pgraph>WinMICE von Jacobusse ist eine Windows-Applikation des S-Plus-Programms MICE von van Buuren (siehe 5.3) und kann kostenlos von der folgenden Internet-Adresse <Hyperlink href="http:&#47;&#47;web.inter.nl.net&#47;users&#47;S.van.Buuren&#47;mi&#47;docs&#47;WinMICEsetup.exe">http:&#47;&#47;web.inter.nl.net&#47;users&#47;S.van.Buuren&#47;mi&#47;docs&#47;WinMICEsetup.exe</Hyperlink> herunter geladen werden.</Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="7 Fazit">
      <MainHeadline>7 Fazit</MainHeadline>
      <Pgraph>In diesem Artikel wurde eine &#220;bersicht gegeben &#252;ber die vorhandenen Softwarem&#246;glichkeiten zur Behandlung fehlender Werte in klinischen Datens&#228;tzen. Nach einer anf&#228;nglichen Vorstellung der wichtigsten theoretischen Aspekte folgten Hinweise auf verschiedene Internetadressen, unter denen man allgemeine Information zu Missing Data Software und deren Anwendung erhalten kann. </Pgraph>
      <Pgraph>Der Hauptteil des Artikels bestand allerdings aus einer umfangreichen Zusammenstellung verschiedener Software-Tools, die zur Ersetzung fehlender Werte verwendet werden k&#246;nnen. Aufgrund der Vielzahl von Programmen, die dabei pr&#228;sentiert wurden, wollen wir in dieser Zusammenfassung nochmals die bedeutendsten Programme mit ihren jeweiligen Funktionalit&#228;ten in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> darstellen. Es wird darin angegeben, welche Ersetzungsmethoden die betreffenden Programme zur Verf&#252;gung stellen und mit welchem Modul dies im Speziellen m&#246;glich ist.</Pgraph>
      <Pgraph>Den Autoren war beim Erstellen dieser Tabelle wichtig, dass der Leser sich einen schnellen &#220;berblick verschaffen kann &#252;ber Softwareprogramme und -komponenten, die f&#252;r die Behandlung fehlender Werte in Frage kommen. Es ist uns allerdings nicht m&#246;glich, explizit auf bestimmte Programme zu verweisen und diese in besonderem Ma&#223;e zu empfehlen. Die Entscheidung, mit welchem Programm das Problem fehlender Werte bearbeitet wird, h&#228;ngt zum einen von der Problemstellung und zum anderen vor allem vom Vorwissen des jeweiligen Analysten ab. Nach Ansicht der Autoren sollten Analysten mit Vorkenntnissen in einem der h&#228;ufig gebr&#228;uchlichen Standardsoftware-Pakete wie SAS, SPSS oder R&#47;S-PLUS auch die speziellen Pakete und Module der ihnen vertrauten Software zur Behandlung fehlender Werte nutzen. Untersucher ohne Kenntnis in einer bestimmten Software sind sicherlich gut beraten, wenn sie zur Ersetzung der Missing Values das Open Source-Programm NORM von Joseph Schafer nutzen und die vervollst&#228;ndigten Daten dann in mit Hilfe einer anderen bekannten Statistiksoftware weiter verarbeiten. NORM ist relativ benutzerfreundlich konzipiert und die Menge an einstellbaren Programmfeatures wurde &#252;berschaubar gehalten, so dass die ersten Ergebnisse schnell erzielt werden k&#246;nnen. </Pgraph>
      <Pgraph>Das Forschungsgebiet der Ersetzung von fehlenden Werten ist ein Bereich, der noch viel Entwicklungspotential birgt. Die bestehenden Methoden werden st&#228;ndig verbessert und bieten Ansatzpunkte zur Verfeinerung. Die angegebenen Webseiten stellen dabei eine Momentaufnahme des derzeitigen Entwicklungsstandes dar und dienen derzeit als State-of-the-art, was das Entwicklungsstadium betrifft. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="Anmerkung">
      <MainHeadline>Anmerkung</MainHeadline>
      <SubHeadline>Interessenkonflikte</SubHeadline>
      <Pgraph>Keine angegeben.</Pgraph>
    </TextBlock>
    <References linked="yes">
      <Reference refNo="3">
        <RefAuthor>Allison P</RefAuthor>
        <RefTitle>Multiple Imputation for Missing Data: A Cautionary Tale</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Sociol Methods Res</RefJournal>
        <RefPage>301-9</RefPage>
        <RefTotal>Allison P. Multiple Imputation for Missing Data: A Cautionary Tale. Sociol Methods Res. 2000;28:301-9. DOI: 10.1177&#47;0049124100028003003</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0049124100028003003</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Allison P</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2001</RefYear>
        <RefBookTitle>Missing Data</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Allison P. Missing Data. Thousand Oaks, CA: Sage; 2001.</RefTotal>
      </Reference>
      <Reference refNo="1">
        <RefAuthor>Allison P</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Fixed Effects Regression Methods for Longitudinal Data Using SAS</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Allison P. Fixed Effects Regression Methods for Longitudinal Data Using SAS. SAS Publishing; 2005.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Brodrecht K</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Umsetzung verschiedener Ersetzungsmethoden von fehlenden Werten in SAS</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Brodrecht K. Umsetzung verschiedener Ersetzungsmethoden von fehlenden Werten in SAS &#91;Diplomarbeit&#93;. Ulm: Hochschule Ulm, Medizinische Dokumentation und Informatik; 2005.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Deal K</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2004</RefYear>
        <RefBookTitle>Missing Something&#63; Multiple imputation software might help find missing value data</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Deal K. Missing Something&#63; Multiple imputation software might help find missing value data. Hamilton, Ontario: McMaster University; 2004. Available from: http:&#47;&#47;www.statsol.ie&#47;documents&#47;Ken&#95;Deal&#95;Missing&#95;Something.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.statsol.ie&#47;documents&#47;Ken&#95;Deal&#95;Missing&#95;Something.pdf</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Graham JW</RefAuthor>
        <RefAuthor>Hofer SM</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1993</RefYear>
        <RefBookTitle>EMCOV reference manual</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Graham JW, Hofer SM. EMCOV reference manual. Los Angeles: Institute for Prevention Research, University of Southern California; 1993. Available from: http:&#47;&#47;ftp.cac.psu.edu&#47;pub&#47;people&#47;jwg4&#47;dos&#47;emcov.txt</RefTotal>
        <RefLink>http:&#47;&#47;ftp.cac.psu.edu&#47;pub&#47;people&#47;jwg4&#47;dos&#47;emcov.txt</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Harrell F</RefAuthor>
        <RefAuthor>Alzola C</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>An Introduction to S and the HMISC and Design Libraries</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Harrell F, Alzola C. An Introduction to S and the HMISC and Design Libraries. Nashville: Vanderbilt University, School of Medicine; 2006. Available from: http:&#47;&#47;cran.r-project.org&#47;doc&#47;contrib&#47;Alzola&#43;Harrell-Hmisc-Design-Intro.pdf</RefTotal>
        <RefLink>http:&#47;&#47;cran.r-project.org&#47;doc&#47;contrib&#47;Alzola&#43;Harrell-Hmisc-Design-Intro.pdf</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Hohl K</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2008</RefYear>
        <RefBookTitle>Umgang mit fehlenden Werten - Ersetzungsmethoden f&#252;r fehlende Werte kategorialer Variablen in klinischen Datens&#228;tzen</RefBookTitle>
        <RefPage>105-16</RefPage>
        <RefTotal>Hohl K. Umgang mit fehlenden Werten &#8211; Ersetzungsmethoden f&#252;r fehlende Werte kategorialer Variablen in klinischen Datens&#228;tzen. Saarbr&#252;cken: Vdm Verlag Dr. M&#252;ller; 2008. p. 105-16.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Hohl K</RefAuthor>
        <RefAuthor>Muche R</RefAuthor>
        <RefAuthor>Ring C</RefAuthor>
        <RefAuthor>Ziegler C</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Fehlende Werte in der (Regressions-) Analyse von Datens&#228;tzen: zwei SAS-Makros</RefBookTitle>
        <RefPage>99-108</RefPage>
        <RefTotal>Hohl K, Muche R, Ring C, Ziegler C. Fehlende Werte in der (Regressions-) Analyse von Datens&#228;tzen: zwei SAS-Makros. In: 9. Konferenz der SAS-Anwender in Forschung und Entwicklung. Aachen: Shaker Verlag; 2005. p. 99-108.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Hohl K</RefAuthor>
        <RefAuthor>Muche R</RefAuthor>
        <RefAuthor>Brodrecht K</RefAuthor>
        <RefAuthor>Ziegler C</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Ersetzung fehlender Werte in SAS: zwei weiterentwickelte SAS-Makros</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hohl K, Muche R, Brodrecht K, Ziegler C. Ersetzung fehlender Werte in SAS: zwei weiterentwickelte SAS-Makros. In: 10. Konferenz der SAS-Anwender in Forschung und Entwicklung. Aachen: Shaker Verlag; 2006.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Horton NJ</RefAuthor>
        <RefAuthor>Lipsitz SR</RefAuthor>
        <RefTitle>Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Values</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Am Stat</RefJournal>
        <RefPage>244-54</RefPage>
        <RefTotal>Horton NJ, Lipsitz SR. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Values. Am Stat. 2001;55(3):244-54. DOI: 10.1198&#47;000313001317098266</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1198&#47;000313001317098266</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Hox JJ</RefAuthor>
        <RefTitle>A Review of Current Software for Handling Missing Data</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Kwantitatieve Methoden</RefJournal>
        <RefPage>123-38</RefPage>
        <RefTotal>Hox JJ. A Review of Current Software for Handling Missing Data. Kwantitatieve Methoden. 1999;62:123-38.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>King G</RefAuthor>
        <RefAuthor>Honaker J</RefAuthor>
        <RefAuthor>Joseph A</RefAuthor>
        <RefAuthor>Scheve K</RefAuthor>
        <RefTitle>Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>American Political Science Review</RefJournal>
        <RefPage>49-69</RefPage>
        <RefTotal>King G, Honaker J, Joseph A, Scheve K. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation. Am Polit Sci Rev. 2001;95(1):49-69.</RefTotal>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Little RJA</RefAuthor>
        <RefAuthor>Rubin DB</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1987</RefYear>
        <RefBookTitle>Statistical Analysis with Missing Data</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Little RJA, Rubin DB. Statistical Analysis with Missing Data. New York: John Wiley &#38; Sons; 1987.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Little RJA</RefAuthor>
        <RefAuthor>Yau L</RefAuthor>
        <RefTitle>Intention-to-treat-Analysis for Longitudinal Studies with Drop-outs</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Biometrics</RefJournal>
        <RefPage>1324-33</RefPage>
        <RefTotal>Little RJA, Yau L. Intention-to-treat-Analysis for Longitudinal Studies with Drop-outs. Biometrics. 1996;52(4):1324-33. DOI: 10.2307&#47;2532847</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2307&#47;2532847</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Molenberghs G</RefAuthor>
        <RefAuthor>Kenward MG</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>Missing Data in Clinical Studies</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Molenberghs G, Kenward MG. Missing Data in Clinical Studies. Chichester: John Wiley &#38; Sons; 2007.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Muche R</RefAuthor>
        <RefAuthor>Ring C</RefAuthor>
        <RefAuthor>Ziegler C</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Muche R, Ring C, Ziegler C. Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression. Aachen: Shaker Verlag; 2005.</RefTotal>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Raghunathan TE</RefAuthor>
        <RefAuthor>Lepkowski JM</RefAuthor>
        <RefAuthor>van Hoewyk J</RefAuthor>
        <RefAuthor>Solenberger P</RefAuthor>
        <RefTitle>A Multivariate Technique for Multiply Imputing Missing Values Using a Sequence of Regression Models</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Survey Methodology</RefJournal>
        <RefPage>85-95</RefPage>
        <RefTotal>Raghunathan TE, Lepkowski JM, van Hoewyk J, Solenberger P. A Multivariate Technique for Multiply Imputing Missing Values Using a Sequence of Regression Models. Surv Methodol. 2001;27(1):85-95.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Rubin DB</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1987</RefYear>
        <RefBookTitle>Multiple Imputation for Nonresponse in Surveys</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Rubin DB. Multiple Imputation for Nonresponse in Surveys. New York: John Wiley &#38; Sons; 1987.</RefTotal>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Schafer JL</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1997</RefYear>
        <RefBookTitle>Analysis of Incomplete Multivariate Data</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Schafer JL. Analysis of Incomplete Multivariate Data. London: Chapman &#38; Hall; 1997.</RefTotal>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Schafer JL</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1997</RefYear>
        <RefBookTitle>Imputation of missing covariates under a multivariate linear mixed model &#91;Technical Report&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Schafer JL. Imputation of missing covariates under a multivariate linear mixed model &#91;Technical Report&#93;. Pennsylvania: Dep. of Statistics, Penn. State University; 1997. 	Available from: http:&#47;&#47;www.stat.psu.edu&#47;reports&#47;1997&#47;tr9704.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.stat.psu.edu&#47;reports&#47;1997&#47;tr9704.pdf</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>van Buuren S</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1992</RefYear>
        <RefBookTitle>Mistress 1</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>van Buuren S. Mistress 1.17 documentation. Statistiekreeks 92&#47;07. Leiden: NIPG-TNO; 1992.</RefTotal>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>van Buuren S</RefAuthor>
        <RefAuthor>Oudshoorn CGM</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2000</RefYear>
        <RefBookTitle>Multivariate Imputation by Chained Equations: MICE V1.0 User&#39;s manual</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>van Buuren S, Oudshoorn CGM. Multivariate Imputation by Chained Equations: MICE V1.0 User&#39;s manual. TNO Report PG&#47;VGZ&#47;00.038. Leiden: TNO Preventie en Gezondheid; 2000.  Available from: http:&#47;&#47;www.stefvanbuuren.nl&#47;publications&#47;MICE&#37;20V1.0&#37;20Manual&#37;20TNO00038&#37;202000.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.stefvanbuuren.nl&#47;publications&#47;MICE&#37;20V1.0&#37;20Manual&#37;20TNO00038&#37;202000.pdf</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>V&#246;lkner T</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Der Einfluss des Umgangs mit fehlenden Werten auf die Evaluation von Behandlungsffekten in Messwiederholungsdesigns &#91;Diplomarbeit&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>V&#246;lkner T. Der Einfluss des Umgangs mit fehlenden Werten auf die Evaluation von Behandlungsffekten in Messwiederholungsdesigns &#91;Diplomarbeit&#93;. Freiburg: Universit&#228;t Freiburg; 2005.</RefTotal>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>von Hippel PT</RefAuthor>
        <RefTitle>Biases in SPSS 12.0 Missing Value Analysis</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Am Stat</RefJournal>
        <RefPage>160-4</RefPage>
        <RefTotal>von Hippel PT. Biases in SPSS 12.0 Missing Value Analysis. Am Stat. 2004;58(2):160-4. DOI: 10.1198&#47;0003130043204</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1198&#47;0003130043204</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Wood AM</RefAuthor>
        <RefAuthor>White IR</RefAuthor>
        <RefAuthor>Thompson SG</RefAuthor>
        <RefTitle>Are missing outcome data adequately handled&#63; A review of published randomized controlled trials in major medical journals</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Clin Trials</RefJournal>
        <RefPage>368-76</RefPage>
        <RefTotal>Wood AM, White IR, Thompson SG. Are missing outcome data adequately handled&#63; A review of published randomized controlled trials in major medical journals. Clin Trials. 2004;1(4):368-76. DOI: 10.1191&#47;1740774504cn032oa</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1191&#47;1740774504cn032oa</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Yuan YC</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2000</RefYear>
        <RefBookTitle>Multiple Imputation for Missing Data: concepts and new development</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Yuan YC. Multiple Imputation for Missing Data: concepts and new development. Rockville MD: SAS Institute Inc.; 2000. Available from: http:&#47;&#47;support.sas.com&#47;rnd&#47;app&#47;papers&#47;multipleimputation.pdf &#91;aufgerufen am 26.02.2009&#93;</RefTotal>
        <RefLink>http:&#47;&#47;support.sas.com&#47;rnd&#47;app&#47;papers&#47;multipleimputation.pdf</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 1: Funktionen in HMISC</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 2: Missing Data Software und ihre M&#246;glichkeiten (MDD&#61;Missing Data Diagnostic, SI&#61;Single Imputation, MI&#61;Multiple Imputation, det. Ersetzung&#61;deterministische Methoden verf&#252;gbar)</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="172" width="352">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 1: Formen des Missing Data Pattern </Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <Figure format="png" height="201" width="596">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 2: Schema der Multiple Imputation</Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <Figure format="png" height="335" width="540">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 3: Benutzeroberfl&#228;che des Programms NORM</Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <Figure format="png" height="377" width="466">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 4: Multiple Imputation mit SOLAS</Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <Figure format="png" height="150" width="601">
          <MediaNo>5</MediaNo>
          <MediaID>5</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 5: Ersetzungsm&#246;glichkeiten in &#37;MISSING (Version 9) &#91;8&#93;</Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <NoOfPictures>5</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>
