<?xml version="1.0" encoding="ISO-8859-1"?>
<GmsArticle>
  <MetaData>
    <Identifier>mibe000023</Identifier>
    <ArticleType>Originalarbeit</ArticleType>
    <TitleGroup>
      <Title language="de">Entwicklung und Validierung logistischer Prognosemodelle anhand vordefinierter SAS-Makros</Title>
      <TitleTranslated language="en">Development and validation of logistic prognostic models by predefined SAS-macros</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Muche</Lastname>
          <LastnameHeading>Muche</LastnameHeading>
          <Firstname>Rainer</Firstname>
          <Initials>R</Initials>
          <AcademicTitle>PD Dr.</AcademicTitle>
        </PersonNames>
        <Address>Abt. Biometrie und Med. Dokumentation, Universität Ulm, Schwabstrasse 13, 89075 Ulm, Tel.: 0731/50-26903<Affiliation>Abt. Biometrie und Med. Dokumentation, Universität Ulm, Ulm, Deutschland</Affiliation>
</Address>
        <Email>rainer.muche@uni-ulm.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Ring</Lastname>
          <LastnameHeading>Ring</LastnameHeading>
          <Firstname>Christina</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>Abt. Biometrie und Med. Dokumentation, Universität Ulm, Schwabstrasse 13, 89075 Ulm, Tel.: 0731/50-26903<Affiliation>Abt. Biometrie und Med. Dokumentation, Universität Ulm, Ulm, Deutschland</Affiliation>
</Address>
        <Email>christina.ring@uni-ulm.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Ziegler</Lastname>
          <LastnameHeading>Ziegler</LastnameHeading>
          <Firstname>Christoph</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>Dep. Med. Data Services, Boehringer Ingelheim Pharma GmbH &amp; Co KG, Biberach/Riss<Affiliation>Dep. Med. Data Services, Boehringer Ingelheim Pharma GmbH &amp; Co KG, Biberach/Riss, Deutschland</Affiliation>
</Address>
        <Email>Christoph.Ziegler@bc.boehringer-ingelheim.com</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science</Corporatename>
        </Corporation>
        <Address>Düsseldorf, Köln</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">prognostic model</Keyword>
      <Keyword language="en">logistic regression</Keyword>
      <Keyword language="en">model validation</Keyword>
      <Keyword language="en">SAS-Macro</Keyword>
      <Keyword language="de">Prognosemodell</Keyword>
      <Keyword language="de">Logistische Regression</Keyword>
      <Keyword language="de">Modellvalidierung</Keyword>
      <Keyword language="de">SAS-Makro</Keyword>
    </SubjectGroup>
    <DatePublishedList>
<DatePublished>20060221</DatePublished>
</DatePublishedList>
    <Language>germ</Language>
    <SourceGroup>
      <Journal>
        <ISSN>1860-9171</ISSN>
        <Volume>2</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Medizinische Informatik, Biometrie und Epidemiologie</JournalTitle>
        <JournalTitleAbbr>GMS Med Inform Biom Epidemiol</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>04</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes">
<Pgraph>Prognosen zum Krankheitsverlauf oder zum Schweregrad multipler Schädigungen bestimmen die medizinischen Therapie- und Diagnostikentscheidungen direkt oder indirekt. Neben der subjektiven Einschätzung des Arztes können mathematische Modelle für Prognosezwecke entwickelt und validiert werden. Prognosemodelle werden vielfach als verallgemeinerte lineare Regressionsmodelle formuliert. In der Praxis ist die betrachtete Zielgröße häufig dichotom, so dass multiple logistische Regressionsmodelle zum Einsatz kommen. Im folgenden wird das Vorgehen der Entwicklung und Validierung anhand vordefinierter SAS-Makros beschrieben, die für eine Modellierung basierend auf logistischen Regressionsmodellen entwickelt wurden. Die Feststellung der Prognosemöglichkeiten anhand eines Regressionsmodells erfolgt in drei Schritten: Modellentwicklung, Bestimmung der Prognosegüte und Modellvalidierung.</Pgraph>
<Pgraph>In diesem Beitrag kann das Rational für das Vorgehen und die entsprechenden Makros nur kurz beschrieben werden. Eine genaue und detaillierte Beschreibung findet sich in <TextLink reference="16"/>. Mit den 14 beschriebenen SAS-Makros steht ein Werkzeug zur Verfügung, das die Durchführung einer vollständigen Modellierung eines logistischen Prognosemodells ermöglicht. Speziell die Möglichkeiten der Modellvalidierung, die in der bisherigen Praxis selten genutzt werden, sollten so in Zukunft zu jeder Prognosemodellierung herangezogen werden. </Pgraph>
</Abstract>
    <Abstract language="en" linked="yes">
<Pgraph>In medical decision making about therapies or diagnostic procedures in the treatment of patients the prognoses of the course or of the magnitude of diseases plays a relevant role. Beside of the subjective attitude of the clinician mathematical models can help in providing such prognoses. Such models are mostly multivariate regression models. In the case of a dichotomous outcome the logistic model will be applied as the standard model. In this paper we will describe SAS-macros for the development of such a model, for examination of the prognostic performance, and for model validation.</Pgraph>
<Pgraph>The rational for this developmental approach of a prognostic modelling and the description of the macros can only given briefly in this paper. Much more details are given in <TextLink reference="16"/>. These 14 SAS-macros are a tool for setting up the whole process of deriving a prognostic model. Especially the possibility of validating the model by a standardized software tool gives an opportunity, which is not used in general in published prognostic models. Therefore, this can help to develop new models with good prognostic performance for use in medical applications.</Pgraph>
</Abstract>
    <TextBlock name="1. Einleitung" linked="yes">
      <MainHeadline>1. Einleitung</MainHeadline>
<Pgraph>
<Mark1>"Prognose ist eine Vorhersage über den zukünftigen Verlauf einer Krankheit nach ihrem Beginn"</Mark1> <TextLink reference="10"/>. Nach dieser Definition können Prognosen in der Medizin die Therapieentscheidungen direkt oder indirekt mitbestimmen und sollten daher so zuverlässig wie möglich erstellt werden. Neben der subjektiven ärztlichen Einschätzung zum zukünftigen Krankheitsverlauf können Prognosen auch auf Grundlage entwickelter mathematischer Modelle gegeben werden. Dabei handelt es sich oft um verallgemeinerte lineare Regressionsmodelle, wie z.B. das multiple logistische Regressionsmodell, das im Fall dichotomer Zielgrößen, wie sie häufig im klinischen Alltag beobachtet werden, zur Anwendung kommt.</Pgraph>
<Pgraph>Im Folgenden wird <Mark2>eine</Mark2> Vorgehensweise zur Prognosemodellierung auf Basis der logistischen Regression vorgestellt, deren Umsetzung in der Praxis durch neu entwickelte SAS-Makros bzw. den sinnvollen Einbau bereits vorhandener SAS-Makros unterstützt wird. Die Entwicklung eines Prognosemodells erfolgt dabei im Wesentlichen in drei Schritten: (1) Modellentwicklung, (2) Bestimmung der Prognosegüte und (3) Modellvalidierung.</Pgraph>
<SubHeadline>1.1 Logistische Regression</SubHeadline>
<Pgraph>Die logistische Regression ist seit langem ein Standardverfahren für die Analyse binärer Zielgrößen <TextLink reference="7"/>, <TextLink reference="14"/>. Die Modellgleichung zur Schätzung, ob ein Ereignis eintrifft (Y=1), gegeben einige Einflussgrößen X<Subscript>1</Subscript>, X<Subscript>2</Subscript>, ... , X<Subscript>k</Subscript> , wird wie in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> angegeben modelliert.</Pgraph>
<Pgraph>Dabei werden die Regressionskoeffizienten ß<Subscript>j</Subscript> mit der Maximum-Likelihood Methode geschätzt. In SAS kann die logistische Regression mit mehreren Prozeduren umgesetzt werden: PROC LOGISTIC, PROC CATMOD, PROC GENMOD, PROC PROBIT, wobei hier für die Umsetzung in den SAS-Makros die Prozedur PROC LOGISTIC eingesetzt wird. </Pgraph>
</TextBlock>
    <TextBlock name="2. Umsetzung der Prognosemodellie- rung und Makro-Aufruf" linked="yes">
      <MainHeadline>2. Umsetzung der Prognosemodellierung und Makro-Aufruf</MainHeadline>
<Pgraph>Den Vorschlag für eine Vorgehensweise <TextLink reference="11"/>, <TextLink reference="16"/> und sukzessive Abarbeitung der Prognosemodellierung in den drei Schritten (1) Modellentwicklung, (2) Prognosegüte und (3) Modellvalidierung zeigt Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>. Im Abschnitt 3 werden nach einer kurzen Beschreibung des prinzipiellen Aufrufs der Makros und der technischen Voraussetzungen jeweils einige kurze Hinweise zu den einzelnen Auswertungsschritten gegeben.</Pgraph>
<SubHeadline>2.1 Allgemeiner Makro-Aufruf und technische Voraussetzungen</SubHeadline>
<Pgraph>Der Aufruf aller Makros ist ähnlich gestaltet. In Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> wird der prinzipielle Aufruf der wichtigsten Parameter dargestellt. Mit den Parametern wird der auszuwertende Datensatz (data=), die Zielgröße mit interessierendem Event (resp_var=, event=) sowie die Einflussgrößen (diskret: cvar=, stetig: xvar=) angegeben. Mit dem Parameter miss= können für Complete-Case-Analysen Beobachtungen mit fehlenden Werten aus der Analyse ausgeschlossen werden.</Pgraph>
<Pgraph>Zur Nutzung sind einige Hard- und Softwarevoraussetzungen einzuhalten. Folgende Mindestanforderungen werden an das Computersystem gestellt:</Pgraph>
<Pgraph>&#8226; SAS-Installation ab SAS 8.2 (auch SAS 9 - Makros vorhanden)</Pgraph>
<Pgraph>&#8226; SAS-Module BASE, STAT, GRAPH, IML</Pgraph>
<Pgraph>&#8226; Hardwarevoraussetzungen zur Nutzung von SAS 8.2 bzw. 9 (Empfehlung: RAM 512 Mb, Prozessor &gt;1 Ghz)</Pgraph>
<Pgraph>Die SAS-Makros nutzen viele externe Programme, u.a. umfangreiche Prüfprogramme. Das gesamte Makropaket besteht aus etwa 100 Programmen und Dateien. Deshalb sind zur Nutzung der Makros einige Voraussetzungen vorgegeben:</Pgraph>
<Pgraph>&#8226; das gesamte Makropaket steht in einem Ordner (Aufruf über macro_path=),</Pgraph>
<Pgraph>&#8226; die auszuwertenden Variablen müssen numerisch sein,</Pgraph>
<Pgraph>&#8226; die Variablen sollten möglichst numerisch formatiert sein,</Pgraph>
<Pgraph>&#8226; es wird eine Variable verlangt, die die Beobachtungen eindeutig identifiziert.</Pgraph>
</TextBlock>
    <TextBlock name="3. Kurzbeschreibung des Vorgehens anhand der SAS-Makros" linked="yes">
      <MainHeadline>3. Kurzbeschreibung des Vorgehens anhand der SAS-Makros</MainHeadline>
<Pgraph>In diesem Beitrag kann das Rational für das Vorgehen und das entsprechende Makro nur kurz beschrieben werden. Eine genaue und detaillierte Beschreibung findet sich in <TextLink reference="16"/> bzw. <TextLink reference="22"/>. Die folgende Kurzbeschreibung ist in die drei Oberbereiche der Prognosemodellierung: Modellentwicklung, Prognosegüte und Modellvalidierung aufgeteilt.</Pgraph>
<SubHeadline>3.1 Makros zur Modellentwicklung</SubHeadline>
<Pgraph>Bei der Modellentwicklung sind verschiedene Untersuchungen des Datensatzes vor der eigentlichen Modellierung notwendig. Dazu gehört die Untersuchung der Variablen (Deskription) und deren Beziehungen untereinander (Multikollinearität) genauso wie die Analyse des Einflusses der einzelnen Beobachtungen. Ein spezielles Problem sind fehlende Werte, die einen starken Einfluss auf das Ergebnis haben können. Die in der Tabelle 1 <ImgLink imgNo="1" imgType="table"/> aufgeführten Makros helfen, diese Untersuchungen durchzuführen, bevor das logistische Regressionsmodell angepasst wird.</Pgraph>
<Pgraph>Mit dem Makro PM_DESCRIPTION werden alle angegebenen Einfluss- sowie die Zielgröße univariat deskriptiv ausgewertet. Je nachdem, ob als stetig oder diskret angegeben, werden PROC UNIVARIAT und PROC FREQ zur Analyse herangezogen. Dabei kann über den Parameter miss= entschieden werden, ob alle Beobachtungen in jeder Variablen oder ein Complete-Case-Datensatz ausgewertet wird. Zur Untersuchung der Missing-Value Situation im Datensatz lässt sich neben der Auszählung der fehlenden Werte pro Variable auch die Anzahl fehlender Werte pro Beobachtung ausgeben.</Pgraph>
<Pgraph>Die Untersuchung der Multikollinearität in PM_MULTICOLLIN geschieht durch:</Pgraph>
<Pgraph>&#8226; paarweise Korrelationen (Spearman, PROC CORR)</Pgraph>
<Pgraph>&#8226; Varianzinflationsfaktoren (VIF, PROC REG)</Pgraph>
<Pgraph>&#8226; Eigenwertanalyse (<TextLink reference="4"/>, PROC REG/COLLINOINT)</Pgraph>
<Pgraph>Nach einem Vorschlag von Allison <TextLink reference="2"/> wird die Eigenwertanalyse zur Anpassung an die logistische Auswertungssituation anhand geschätzter Wahrscheinlichkeiten aus PROC LOGISTIC gewichtet durchgeführt.</Pgraph>
<Pgraph>Mit Missing Values kann bei der Auswertung folgendermaßen umgegangen werden:</Pgraph>
<Pgraph>&#8226; Complete-Case-Analyse (miss=0)</Pgraph>
<Pgraph>&#8226; Single Imputation (stetig: PROC STDIZE, diskret: zus. Kategorie MISSING)</Pgraph>
<Pgraph>&#8226; Multiple Imputation (Untersuchung des Missing pattern, PROC MI)</Pgraph>
<Pgraph>Das Makro PM_INFLUENCE identifiziert die für die Modellierung einflussreichsten Beobachtungen. Dabei wird hauptsächlich die Veränderung der Pearson-Statistik nach Entfernung einer Beobachtung untersucht. Große Veränderungen weisen auf einen großen Einfluss auf die Parameterschätzung hin. Schrittweise werden die einflussreichsten Beobachtungen bis zu einer vorgegebenen Schranke identifiziert, jedoch nicht automatisch aus dem Datensatz eliminiert.</Pgraph>
<Pgraph>In PM_UNI_LOGREG wird für jede Einflussgröße ein eigenes logistisches Regressionsmodell berechnet und der entsprechende p-Wert ausgegeben. Dabei kann auf den Complete-Case-Datensatz zurückgegriffen werden (miss=0). Kategorielle Variablen werden immer als Dummy-Variablen ins Modell aufgenommen und über das CLASS-Statement der gemeinsame Einfluss aller Dummies dieser Variable untersucht. Stetige Variablen gehen linear ins Modell ein. Zusätzlich wird für jede stetige Variable eine Überprüfung der besseren Modellierung über "Fractional Polynomials" bis zum Grad 2 <TextLink reference="18"/> durchgeführt.</Pgraph>
<Pgraph>Die eigentliche multiple logistische Regressionsanalyse wird mit dem Hauptmakro PM_LOGREG durchgeführt. Mit diesem Makro wird ein multiples logistisches Regressionsmodell, eventuell mit Stepwise-Variablenselektion, angepasst. Dieses Makro liefert spezielle Ausgabedateien, die für weitere Analysen genutzt werden können (ROC, Modellvalidierung). Zur Prüfung des gemeinsamen Einflusses von Variablen kann das TEST-Statement eingesetzt werden. Wechselwirkungen werden nicht automatisiert erzeugt und berücksichtigt, können aber durch Definition als eigene Variable in die Modellierung integriert werden. Bei den durch geringe Fallzahlen und oder viele untersuchte Einflussgrößen häufigen Problemen der Parameterschätzung durch eine complete- oder quasi-complete-Separation <TextLink reference="1"/>, <TextLink reference="5"/> wird eine korrigierte Schätzmethode über das FL-Makro <TextLink reference="12"/> automatisch durchgeführt. Dabei werden die Parameter mit der Firth-Prozedur durch ein "penalized" Maximum Likelihood Verfahren geschätzt. Eine alternative Vorgehensweise durch eine exakte Schätzung wird wegen Laufzeitproblemen in SAS nicht durchgeführt.</Pgraph>
<Pgraph>Das Makro PM_GOF dient zur Überprüfung der Modellanpassung. Neben Parametern aus PROC LOGISTIC sind hier spezielle Tests für Sparseness (wenige Beobachtungen pro Merkmalskombination) aus der Literatur integriert (Makros aus <TextLink reference="15"/>, <TextLink reference="17"/>), da in dieser Situation u.a. der Hosmer-Lemeshow-Test nicht mehr geeignet ist.</Pgraph>
<SubHeadline>3.2 Makro zur Überprüfung der Prognosegüte</SubHeadline>
<Pgraph>Bei der Überprüfung der Prognosegüte stellt sich die Frage: <Mark1>"Wie gut kann der Outcome des Patienten vorhergesagt werden?"</Mark1> Die Überprüfung der Prognosegüte geschieht anhand einer Reklassifikation. Dabei werden die Daten der Patienten in die Modellgleichung eingesetzt und so für jeden Patienten die Wahrscheinlichkeit für das Eintreten des Outcome geschätzt. Durch einen Vergleich mit den beobachteten Werten lässt sich die Übereinstimmung untersuchen.</Pgraph>
<Pgraph>Dabei können nach Wahl eines Grenzwertes (Cutpoint) zur Einteilung der Wahrscheinlichkeiten in "groß" bzw. "klein" die Kenngrößen wie Sensitivität, Spezifität, prädiktive Werte, Youden-Index etc. bestimmt werden. Zusätzlich lassen sich globale Maße der Prognosegüte (unabhängig von einem Cutpoint) angeben: AUC, Somer´s D, Emax, Brier Score etc. Diese Kenngrößen werden im Rahmen einer ROC-Analyse erzeugt (Tabelle 2 <ImgLink imgNo="2" imgType="table"/>).</Pgraph>
<Pgraph>Die Prognosegüte wird anhand einer ROC-Analyse mit dem Makro PM_ROC durchgeführt. Alle oben angegeben Maßzahlen (zusätzlich Konfidenzintervalle für AUC) sowie einige wichtige Grafiken (u.a. ROC-Kurven (inkl. Konfidenzbänder nach Hilgers <TextLink reference="13"/>, Zusammenhang Youden-Index und Cutpoint) werden ausgegeben (Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph>
<Pgraph>Zur Zusammenfassung der Prognosegüten (nach logistischer Regression und ROC-Analyse) wird das Makro PM_MI_ANALYZE eingesetzt.</Pgraph>
<SubHeadline>3.3 Makros zur Modellvalidierung</SubHeadline>
<Pgraph>Nach der Untersuchung zur Prognosegüte könnte entschieden werden, ob das Prognosemodell für die Praxis ausreichende ist, d.h. möglichst wenig Fehlprognosen erzeugt. Allerdings ist die Frage <Mark1>"Wie gut ist die Prognosegüte für spätere unabhängige Beobachtungen?"</Mark1> bis hierhin noch nicht beantwortet. Das Problem besteht darin, dass die Prognosegüte nach der Reklassifikation anhand derselben Patientendaten ermittelt wird, die auch zur optimalen Schätzung der Regressionskoeffizienten zur Verfügung standen. Somit ist von einem Bias im Sinne einer zu optimistischen Prognosegüte nach der ROC-Analyse auszugehen.</Pgraph>
<Pgraph>Zur Untersuchung dieses Bias sollte eine Modellvalidierung erfolgen. Dafür stehen verschiedenen Verfahren zur Verfügung, die in den folgenden fünf Makros umgesetzt wurden. In der Literatur wird neben der externen Validierung die Bootstrap-Methode favorisiert <TextLink reference="20"/>. Als Output werden jeweils die Cutpoint-abhängigen und -unabhängigen Prognosegütemaße der ROC-Analyse vor und nach der Validierung sowie die absolute und relative Veränderung ausgegeben (Tabelle 3 <ImgLink imgNo="3" imgType="table"/>).</Pgraph>
<Pgraph>Bei der externen Validierung wird die Prognosegüte des Modells anhand eines zweiten, unabhängigen Datensatzes bestimmt. Dies ist die Methode der Wahl, falls ein zweiter Datensatz zur Verfügung steht. Leider ist dies selten der Fall, so dass auf Methoden zurückgegriffen werden muss, die auf dem vorhandenen Datensatz basieren (interne Validierungsmethoden). </Pgraph>
<Pgraph>Durch das Data-Splitting wird der Datensatz geteilt. Ein Teil wird zur Modellentwicklung, der Zweite zur Validierung (s. externe Validierung) genutzt. Dabei beruht die Modellentwicklung und Modellvalidierung allerdings auf einer wesentlich geringeren Fallzahl, so dass dies Verfahren nur selten sinnvoll eingesetzt werden kann. Das Makro teilt den Datensatz nach vorgegebener Prozentangabe zufällig auf. Für die Validierung ist anschließend PM_EXTERNAL_VALIDATION aufzurufen.</Pgraph>
<Pgraph>Die Kreuzvalidierung war lange Zeit das Standardverfahren für die Modellvalidierung. Prinzipiell liegt dem Verfahren ein Stichprobenziehen ohne Zurücklegen zugrunde. Das Vorgehen kann folgendermaßen skizziert werden: Datensatz in K Teile teilen; anschließend an K-1 Teilen das Modell entwickeln und am K-ten Teil validieren. Das ganze wird für alle K Teile wiederholt. Im Makro sind folgende Methoden programmiert: K-fold Crossvalidation, adjusted Crossvalidation <TextLink reference="8"/>, Jackknife-Crossvalidation.</Pgraph>
<Pgraph>Die Methode der Bootstrap-Validierung <TextLink reference="3"/> ist ebenfalls ein Resampling-Verfahren, basiert aber auf einem Ziehen mit Zurücklegen: Es werden Datensätze gleicher Größe aus dem vorhandenen Datensatz erzeugt. Anhand dieser so erzeugten Datensätze kann die Modellierung und/oder Validierung der Modelle erfolgen. Durch geeignetes Zusammenführen der Einzelergebnisse kann der Bias der Prognosegüte abgeschätzt werden. Im Makro implementiert sind die Vorschläge von Efron <TextLink reference="9"/>: simple-/enhanced Bootstrap sowie ein Ansatz über Mittelung der Regressionskoeffizienten (Mean Model).</Pgraph>
<Pgraph>Die Shrinkage-Methode korrigiert die geschätzten Regressionskoeffizienten <TextLink reference="21"/>, so dass die Prognosegüte anhand des korrigierten Modells bestimmt wird. Drei Methoden sind im Makro implementiert: heuristischer Shrinkage, globaler Shrinkage <TextLink reference="21"/> sowie ein parameterbezogener Shrinkage-Faktor <TextLink reference="19"/>.</Pgraph>
</TextBlock>
    <TextBlock name="4. Fazit" linked="yes">
      <MainHeadline>4. Fazit</MainHeadline>
<Pgraph>Die wichtigsten Probleme der Modellbildung werden in der Literatur folgendermaßen zusammengefasst: nicht spezifizierte Definition der Variablen, Multikollinearität, Nichtberücksichtigung einflussreicher Beobachtungen, nicht erfüllte Modellvoraussetzungen, Nichtlinearität des Zusammenhanges, Überanpassung, unspezifizierte Variablenselektion, keine Wechselwirkungsprüfung sowie fehlende Modellvalidierung <TextLink reference="9"/>.</Pgraph>
<Pgraph>Die vorgestellte Strategie zur Modellentwicklung und -validierung anhand eines SAS-Makro-Paketes berücksichtigt diese Auswertungsprobleme und schafft damit Voraussetzungen, in Zukunft geeignete Prognosemodelle auf Basis der logistischen Regression erstellen und deren praktischen Nutzen genauer ermitteln zu können. Damit tragen die vorgestellten Makros zur Verbesserung der biometrischen Praxis zur Bestimmung zuverlässigerer Prognosen bei. Die Umsetzung der Strategie in einzelne Auswertungsmodule schafft die Flexibilität, die Auswertungsschritte auch in einer anderen Reihenfolge als angegeben bzw. auch mehrfach anzuwenden, um jeweils zu einer sachgerechten Modellierung zu gelangen. Dementsprechend können die Makros auch nicht automatisiert werden im Sinne eines durchgehend ablaufenden Makros von der Deskription der Daten bis zur Ausgabe der validierten Ergebnisse, da nach jedem Auswertungsschritt der Nutzer die Zwischenergebnisse werten und gegebenenfalls die Einstellung des nachfolgenden Makros anpassen muss. </Pgraph>
<Pgraph>Die Makros stehen auf <Hyperlink href="http://www.uni-ulm.de/uni/fak/medizin/biodok/v2004/prognosemakros.htm">http://www.uni-ulm.de/uni/fak/medizin/biodok/v2004/prognosemakros.htm</Hyperlink> zum Download zur Verfügung, die Nutzung und Hintergrundinformationen werden in <TextLink reference="16"/> beschrieben.</Pgraph>
</TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Albert A</RefAuthor>
        <RefAuthor>Anderson JA</RefAuthor>
        <RefTitle>On the existence of maximum likelihood estimates in logistic regression models</RefTitle>
        <RefYear>1984</RefYear>
        <RefJournal>Biometrika</RefJournal>
        <RefPage>1-10</RefPage>
        <RefTotal>Albert A, Anderson JA. On the existence of maximum likelihood estimates in logistic regression models. Biometrika. 1984;71:1-10.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Allison PD</RefAuthor>
        <RefTitle/>
        <RefYear>1999</RefYear>
        <RefBookTitle>Logistic Regression using the SAS System</RefBookTitle>
        <RefPage/>
        <RefTotal>Allison PD. Logistic Regression using the SAS System. Cary NC: SAS Institute Books By Users; 1999.</RefTotal>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Assfalg I</RefAuthor>
        <RefTitle/>
        <RefYear>2003</RefYear>
        <RefBookTitle>Die Bootstrap-Methode zur internen Validierung von Prognosemodellen</RefBookTitle>
        <RefPage/>
        <RefTotal>Assfalg I. Die Bootstrap-Methode zur internen Validierung von Prognosemodellen. Diplomarbeit FH Ulm; 2003.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Belsley DA</RefAuthor>
        <RefTitle/>
        <RefYear>1991</RefYear>
        <RefBookTitle>Conditioning diagnostics - Collinearity and weak data in regression</RefBookTitle>
        <RefPage/>
        <RefTotal>Belsley DA. Conditioning diagnostics - Collinearity and weak data in regression. New York: John Wiley &amp; Sons; 1991.</RefTotal>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Christmann A</RefAuthor>
        <RefAuthor>Rousseeuw PJ</RefAuthor>
        <RefTitle>Measuring overlap in logistic regression</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Comp Statist Data Anal</RefJournal>
        <RefPage>65-75</RefPage>
        <RefTotal>Christmann A, Rousseeuw PJ. Measuring overlap in logistic regression. Comp Statist Data Anal. 2001;37:65-75</RefTotal>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Concato J</RefAuthor>
        <RefAuthor>Feinstein AR</RefAuthor>
        <RefAuthor>Holford TR</RefAuthor>
        <RefTitle>The risk of determing risk with multivariable models</RefTitle>
        <RefYear>1993</RefYear>
        <RefJournal>Ann Intern Med</RefJournal>
        <RefPage>210</RefPage>
        <RefTotal>Concato J, Feinstein AR, Holford TR. The risk of determing risk with multivariable models. Ann Intern Med. 1993;118:210.</RefTotal>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Cox DR</RefAuthor>
        <RefAuthor>Snell EJ</RefAuthor>
        <RefTitle/>
        <RefYear>1989</RefYear>
        <RefBookTitle>Analysis of binary data</RefBookTitle>
        <RefPage/>
        <RefTotal>Cox DR, Snell EJ.  Analysis of binary data. London: Chapman &amp; Hall; 1989.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Davison AC</RefAuthor>
        <RefAuthor>Hinkley DV</RefAuthor>
        <RefTitle/>
        <RefYear>1997</RefYear>
        <RefBookTitle>Bootstrap methods and their application</RefBookTitle>
        <RefPage/>
        <RefTotal>Davison AC, Hinkley DV. Bootstrap methods and their application. Cambridge: Cambridge University Press; 1997.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Efron B</RefAuthor>
        <RefAuthor>Tibshirani RJ</RefAuthor>
        <RefTitle/>
        <RefYear>1993</RefYear>
        <RefBookTitle>An Introduction to the Bootstrap</RefBookTitle>
        <RefPage/>
        <RefTotal>Efron B, Tibshirani RJ. An Introduction to the Bootstrap. New York: Chapman &amp; Hall; 1993.</RefTotal>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Fletcher RM</RefAuthor>
        <RefAuthor>Fletcher SW</RefAuthor>
        <RefAuthor>Wagner EH</RefAuthor>
        <RefTitle/>
        <RefYear>1999</RefYear>
        <RefBookTitle>Klinische Epidemiologie</RefBookTitle>
        <RefPage/>
        <RefTotal>Fletcher RM, Fletcher SW, Wagner EH. Klinische Epidemiologie. Wiesbaden: Ullstein Medical Verlag; 1999.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Harrell FE Jr</RefAuthor>
        <RefTitle/>
        <RefYear>2001</RefYear>
        <RefBookTitle>Regression Modeling Strategies</RefBookTitle>
        <RefPage/>
        <RefTotal>Harrell FE Jr. Regression Modeling Strategies. New York: Springer Verlag; 2001.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Heinze G</RefAuthor>
        <RefAuthor>Schemper M</RefAuthor>
        <RefTitle>A solution to the problem of separation in logistic regression</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>2409-19</RefPage>
        <RefTotal>Heinze G, Schemper M.  A solution to the problem of separation in logistic regression.  Stat Med. 2002;21:2409-19.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Hilgers R</RefAuthor>
        <RefTitle>Distribution-free confidence bounds for ROC curves</RefTitle>
        <RefYear>1991</RefYear>
        <RefJournal>Meth Inform Med</RefJournal>
        <RefPage>96-101</RefPage>
        <RefTotal>Hilgers R. Distribution-free confidence bounds for ROC curves. Meth Inform Med. 1991;30:96-101.</RefTotal>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Hosmer DW</RefAuthor>
        <RefAuthor>Lemeshow S</RefAuthor>
        <RefTitle/>
        <RefYear>2000</RefYear>
        <RefBookTitle>Applied Logistic Regression</RefBookTitle>
        <RefPage/>
        <RefTotal>Hosmer DW, Lemeshow S. Applied Logistic Regression. 2nd ed. New York: John Wiley &amp; Sons; 2000.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Kuss O</RefAuthor>
        <RefTitle>Global goodness-of-fit-tests in logistic regression with sparse data</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>3789-801</RefPage>
        <RefTotal>Kuss O. Global goodness-of-fit-tests in logistic regression with sparse data. Stat Med. 2002;21:3789-801.</RefTotal>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Muche R</RefAuthor>
        <RefAuthor>Ring Ch</RefAuthor>
        <RefAuthor>Ziegler Ch</RefAuthor>
        <RefTitle/>
        <RefYear>2005</RefYear>
        <RefBookTitle>Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression</RefBookTitle>
        <RefPage/>
        <RefTotal>Muche R, Ring Ch, Ziegler Ch. Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression.  Aachen: Shaker Verlag; 2005.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Pulkstenis E</RefAuthor>
        <RefAuthor>Robinson TJ</RefAuthor>
        <RefTitle>Two goodness-of-fit tests for logistic regression with continuous covariates</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>79-93</RefPage>
        <RefTotal>Pulkstenis E, Robinson TJ. Two goodness-of-fit tests for logistic regression with continuous covariates. Stat Med. 2002;21:79-93.</RefTotal>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Royston P</RefAuthor>
        <RefAuthor>Altman DG</RefAuthor>
        <RefTitle>Regression using fractional polynomials of continuous covariates</RefTitle>
        <RefYear>1994</RefYear>
        <RefJournal>Appl Statist</RefJournal>
        <RefPage>429-67</RefPage>
        <RefTotal>Royston P, Altman DG. Regression using fractional polynomials of continuous covariates.  Appl Statist. 1994;43:429-67.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Sauerbrei W</RefAuthor>
        <RefTitle>The use of resampling methods to simplify regression models in medical statistics</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Appl Statist</RefJournal>
        <RefPage>313-29</RefPage>
        <RefTotal>Sauerbrei W. The use of resampling methods to simplify regression models in medical statistics. Appl Statist. 1999;48:313-29</RefTotal>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Steyerberg EW</RefAuthor>
        <RefAuthor>Harrell FEJr</RefAuthor>
        <RefAuthor>Borsboom GJJM</RefAuthor>
        <RefAuthor>et al.</RefAuthor>
        <RefTitle>Internal validation of predictive models: Efficiency of some procedures for logistic regression analysis</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>774-81</RefPage>
        <RefTotal>Steyerberg EW, Harrell FEJr., Borsboom GJJM, et al. Internal validation of predictive models: Efficiency of some procedures for logistic regression analysis.  J Clin Epidemiol. 2001;54:774-81.</RefTotal>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>van Houwelingen H</RefAuthor>
        <RefAuthor>LeCessie S</RefAuthor>
        <RefTitle>Predictive value of statistical models</RefTitle>
        <RefYear>1990</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>1303-25</RefPage>
        <RefTotal>van Houwelingen H, LeCessie S. Predictive value of statistical models. Stat Med. 1990;9:1303-25.</RefTotal>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Ziegler Ch</RefAuthor>
        <RefTitle/>
        <RefYear>2004</RefYear>
        <RefBookTitle>Ein SAS-Makro-Paket zur Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression</RefBookTitle>
        <RefPage/>
        <RefTotal>Ziegler Ch. Ein SAS-Makro-Paket zur Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression. Diplomarbeit FH Ulm; 2004.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
<Pgraph>
<Mark1>Tabelle 1: SAS-Makros zur Modellentwicklung</Mark1>
</Pgraph>
</Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption>
<Pgraph>
<Mark1>Tabelle 2: SAS-Makros zur Modellgüte</Mark1>
</Pgraph>
</Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption>
<Pgraph>
<Mark1>Tabelle 3: SAS-Makros zur Modellvalidierung</Mark1>
</Pgraph>
</Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure width="587" height="92" format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
<Pgraph>
<Mark1>Abbildung 1: Formel des logistischen Regressionsmodells</Mark1>
</Pgraph>
</Caption>
        </Figure>
        <Figure width="433" height="245" format="png">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption>
<Pgraph>
<Mark1>Abbildung 3: Prinzipieller Aufruf der SAS-Makros</Mark1>
</Pgraph>
</Caption>
        </Figure>
        <Figure width="999" height="481" format="png">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption>
<Pgraph>
<Mark1>Abbildung 4: Beispielhafte Ausgabe von Grafiken aus PM_ROC.MAC.SAS</Mark1>
</Pgraph>
</Caption>
        </Figure>
        <Figure width="667" height="830" format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption>
<Pgraph>
<Mark1>Abbildung 2: Schematischer Ablauf der Prognosemodellierung auf Basis der SAS-Makros [16]</Mark1>
</Pgraph>
</Caption>
        </Figure>
        <NoOfPictures>4</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>
