Zum Inhalt springen

Artikel

Service Design

Scoring-Modell: Anleitung, Praxisbeispiel und Methodenvergleich

Das Scoring-Modell Schritt fuer Schritt: gewichtete Bewertung mit Praxisbeispiel aus der Versicherungsbranche, Sensitivitaetsanalyse und Methodenvergleich.

von SI Labs

Das Scoring-Modell (auch Scoring-Verfahren, Punktbewertungsverfahren oder Scoring-Methode) ist ein strukturiertes Bewertungsinstrument, das mehrere Alternativen anhand definierter und gewichteter Kriterien systematisch vergleicht. Jedes Kriterium erhaelt einen Punktwert, der mit seiner Gewichtung multipliziert wird. Die Summe der gewichteten Punkte — der Score — macht transparent, welche Alternative unter den gewaehlten Kriterien am besten abschneidet [1].

Was das Scoring-Modell von einer einfachen Rangliste unterscheidet: Es erzwingt eine explizite Trennung zwischen Kriterienwahl, Gewichtung und Bewertung. Diese Dreiteilung macht sichtbar, wo Meinungsverschiedenheiten im Team tatsaechlich liegen — bei der Frage “Was ist wichtig?” (Gewichtung) oder bei der Frage “Wie gut erfuellt Alternative X das Kriterium?” (Bewertung). Ohne diese Trennung vermischen sich die beiden Urteile, und Diskussionen drehen sich im Kreis.

Suchst du nach “Scoring-Modell”, findest du Dutzende deutschsprachige Ergebnisse mit Urlaubsziel- oder Smartphone-Beispielen. Keines zeigt die Methode in einem Serviceprozess. Keines erklaert, welche kognitiven Verzerrungen die Ergebnisse systematisch verfaelschen — und wie du sie konkret verhinderst. Keines fuehrt eine Sensitivitaetsanalyse vor, die zeigt, wie robust dein Ergebnis wirklich ist. Und keines vergleicht das Scoring-Modell systematisch mit AHP, Pugh-Matrix, RICE oder Kano.

Dieser Leitfaden schliesst diese Luecken.

Definition: Was ist ein Scoring-Modell?

Ein Scoring-Modell ist ein quantitatives Bewertungsverfahren, das qualitative und quantitative Kriterien auf einer gemeinsamen Skala vergleichbar macht. Der Grundmechanismus:

  1. Kriterien definieren — welche Dimensionen sind entscheidungsrelevant?
  2. Kriterien gewichten — welche Dimensionen sind wichtiger als andere?
  3. Alternativen bewerten — wie gut erfuellt jede Alternative jedes Kriterium?
  4. Scores berechnen — gewichtete Punktsumme pro Alternative
  5. Robustheit pruefen — wie stabil ist das Ergebnis bei veraenderten Annahmen?

Formel:

Score(Alternative) = Summe aller Kriterien (Bewertung_i x Gewichtung_i)

Das Scoring-Modell gehoert zur Familie der Multi-Criteria Decision Analysis (MCDA) — genauer: zum Weighted Sum Model (WSM), dem aeltesten und meistverbreiteten MCDA-Verfahren [5]. Seine Staerke liegt in der Einfachheit: Jeder im Team versteht, wie das Ergebnis zustande kommt. Seine Schwaeche liegt in genau derselben Einfachheit: Es setzt voraus, dass ein niedriger Score in einem Kriterium durch einen hohen Score in einem anderen kompensiert werden kann — was nicht immer zutrifft [9].

Scoring-Modell, Nutzwertanalyse, Entscheidungsmatrix — was ist der Unterschied?

Diese Begriffe werden in der Praxis haeufig synonym verwendet, haben aber unterschiedliche Herkunft und Nuancen:

BegriffHerkunftBesonderheit
Scoring-ModellEnglischsprachige BWLAllgemeinster Begriff — jedes Punktbewertungsverfahren
Nutzwertanalyse (NWA)Zangemeister, 1976 [1]Formalisierte deutsche Methodik mit definiertem Ablauf, Gewichtung in Prozent (Summe = 100 %), Dokumentationsanforderung
EntscheidungsmatrixPraxisbegriffTabellarische Darstellung — Zeilen = Kriterien, Spalten = Alternativen. Kann gewichtet oder ungewichtet sein
Pugh-MatrixPugh, 1981 [2]Spezialform: relative Bewertung gegen ein Referenzkonzept (+/0/-), keine absoluten Punkte
AHPSaaty, 1980 [3]Paarweise Vergleiche mit Konsistenzpruefung — mathematisch rigoroser, aber aufwaendiger

Die entscheidende Unterscheidung: Die Nutzwertanalyse nach Zangemeister verlangt, dass die Gewichtungen sich auf 100 % summieren und das Ergebnis einen Gesamtnutzwert ergibt. Ein allgemeines Scoring-Modell kann auch mit Rohpunkten arbeiten, deren Summe keine normierte Bedeutung hat [1]. Fuer die Praxis ist der Unterschied gering — dieser Leitfaden behandelt das gewichtete Scoring-Modell mit normierter Gewichtung, weil es den breitesten Anwendungsbereich hat.

Von Zangemeister zu Saaty: Die akademischen Wurzeln

Christof Zangemeister und die Nutzwertanalyse (1970/1976)

Christof Zangemeister, Dozent fuer Systemtechnik an der TU Berlin, veroeffentlichte 1970 Nutzwertanalyse in der Systemtechnik — die erste deutschsprachige Methodik zur systematischen Bewertung von Projektalternativen anhand nicht-monetaerer Kriterien [1]. Die vierte Auflage von 1976 wurde zum Standardwerk. Zangemeisters Beitrag war die Formalisierung eines reproduzierbaren Prozesses: von der Zielbestimmung ueber die Kriterienoperationalisierung bis zur Sensitivitaetsanalyse. Damit hob er die mehrdimensionale Bewertung vom informellen Brainstorming auf das Niveau einer ingenieurtechnischen Methodik.

Zangemeisters Verfahren fand schnell Verbreitung in der oeffentlichen Planung, im Bauwesen und in der Verkehrsplanung — ueberall dort, wo Entscheidungen nicht allein auf Kosten-Nutzen-Analysen basieren koennen, weil wichtige Kriterien (Umweltwirkung, Akzeptanz, Sicherheit) nicht in Geldeinheiten messbar sind [1].

Stuart Pugh und die relative Bewertung (1981)

Stuart Pugh (1929–1993), Professor fuer Design an der University of Strathclyde, entwickelte 1981 eine Alternative zum absoluten Scoring: die Pugh-Matrix [2]. Statt jede Alternative isoliert zu bewerten, verglich das Team alle Alternativen gegen ein Referenzkonzept (Datum): besser (+), gleich (0) oder schlechter (-). Pughs Innovation lag in der kognitiven Entlastung: Relative Urteile (“Ist A besser als B bei Kriterium X?”) sind zuverlaessiger als absolute Urteile (“Wie gut ist A bei Kriterium X auf einer Skala von 1–5?”), weil sie weniger Informationsverarbeitung erfordern.

Thomas L. Saaty und der Analytic Hierarchy Process (1980)

Thomas L. Saaty formalisierte 1980 den Analytic Hierarchy Process (AHP) — ein Verfahren, das Gewichtungen durch paarweise Vergleiche ableitet und deren Konsistenz mathematisch prueft [3]. Wenn ein Team sagt “Kundenwirkung ist dreimal wichtiger als Kosten” und gleichzeitig “Kosten sind doppelt so wichtig wie Machbarkeit”, prueft AHP, ob diese Aussagen widerspruchsfrei sind. Bei Inkonsistenz fordert AHP eine Korrektur. Das macht AHP praeziser als die einfache Prozentverteilung — aber auch deutlich aufwaendiger. In der Praxis setzen Teams AHP deshalb eher bei strategisch bedeutsamen Entscheidungen ein, waehrend das einfache Scoring-Modell fuer operative Entscheidungen ausreicht.

Wann eignet sich das Scoring-Modell?

Das Scoring-Modell ist am wertvollsten, wenn du eine Auswahlentscheidung zwischen klar definierten Alternativen mit mehreren Bewertungsdimensionen treffen musst — und die Entscheidung nachvollziehbar dokumentiert sein soll.

Nutze das Scoring-Modell, wenn:

  • Du 3–7 Alternativen vergleichen willst (bei 2 reicht eine Pro-Contra-Liste, bei mehr als 7 wird die Bewertung unuebersichtlich)
  • Du qualitative und quantitative Kriterien gleichzeitig beruecksichtigen musst — z. B. Kosten (quantitativ) und Kundenerlebnis (qualitativ)
  • Die Entscheidung im Team getroffen wird und unterschiedliche Stakeholder unterschiedliche Prioritaeten haben
  • Du die Entscheidung gegenueber Management, Auftraggebern oder Aufsichtsgremien begruenden musst
  • Du aus einem kreativen Prozess — etwa mit dem Morphologischen Kasten oder im Service-Design-Prozess — mehrere Konzepte systematisch bewerten willst

Nutze ein anderes Werkzeug, wenn:

SituationBessere AlternativeWarum
Du willst verstehen, wie Features auf Kundenzufriedenheit wirkenKano-ModellKano klassifiziert nach Zufriedenheitsasymmetrie — das Scoring-Modell bewertet nur “wie gut”
Du brauchst eine schnelle Sprint-PriorisierungMoSCoWSchneller, kein numerischer Aufwand, Workshop-Format
Du willst strategische Staerken und Schwaechen analysierenSWOT-AnalyseSWOT analysiert die Ausgangslage, das Scoring-Modell waehlt zwischen Optionen
Du brauchst mathematisch konsistente GewichtungenAHP (Saaty)Paarvergleiche mit Konsistenzpruefung, aber aufwaendiger
Du willst eine schnelle Vorselektion mit relativer BewertungPugh-MatrixRelative Bewertung (+/0/-) statt absoluter Punktvergabe
Du willst ein einzelnes Konzept iterativ verbessernPDCA-ZyklusPDCA verbessert Prozesse, das Scoring-Modell waehlt zwischen Alternativen

Vergleich: Scoring-Modell vs. AHP vs. Pugh-Matrix vs. RICE vs. Kano

DimensionScoring-ModellAHPPugh-MatrixRICEKano
FokusAuswahl der besten Alternative aus einer definierten MengeHierarchische Zerlegung komplexer EntscheidungenSchnelle Konzeptauswahl gegen ReferenzQuantitative Backlog-PriorisierungZufriedenheitswirkung einzelner Features
BewertungsartAbsolut (Punkte × Gewichtung)Paarvergleiche mit KonsistenzpruefungRelativ zum Datum (+/0/-)Formel: (R × I × C) / EKundenbefragung (funktional/dysfunktional)
KomplexitaetNiedrig bis mittelHoch — erfordert n×(n-1)/2 VergleicheNiedrigMittel — erfordert MetrikenMittel — erfordert Fragebogendesign
Am besten fuerEinmalige Konzeptauswahl mit 5–8 KriterienStrategische Entscheidungen mit vielen KriterienFruehe Konzeptphase mit groben AlternativenPriorisierung von Product-Backlog-ItemsVerstehen, WARUM Features wichtig sind
Groesste SchwaecheGewichtung subjektiv, kompensatorischZeitaufwand, kognitive BelastungKein numerischer GesamtwertConfidence oft geschaetztErfordert Kundenbefragung
HerkunftZangemeister (1970/1976) [1]Saaty (1980) [3]Pugh (1981) [2]Sean McBride / Intercom (2016)Kano (1984)

Schritt fuer Schritt: Scoring-Modell erstellen

Zeitrahmen: 90–120 Minuten im Team. Davon 20 Minuten fuer K.O.-Kriterien und Kriteriendefinition, 20 Minuten fuer Gewichtung (idealerweise in separater Sitzung), 30 Minuten fuer Bewertung, 15 Minuten fuer Berechnung, 15 Minuten fuer Sensitivitaetscheck.

Schritt 1: K.O.-Kriterien vorab pruefen

Bevor du mit dem Scoring beginnst, definiere K.O.-Kriterien (Ausschlusskriterien). Ein K.O.-Kriterium ist eine Mindestanforderung, die jede Alternative erfuellen muss — unabhaengig davon, wie gut sie in anderen Kriterien abschneidet. Alternativen, die ein K.O.-Kriterium nicht erfuellen, werden vor dem Scoring ausgeschlossen.

Warum separat: Das Scoring-Modell ist ein kompensatorisches Verfahren — ein niedriger Score in einem Kriterium kann durch hohe Scores in anderen ausgeglichen werden [9]. Das ist bei Mindestanforderungen (z. B. regulatorische Compliance, technische Grundvoraussetzungen) nicht akzeptabel. K.O.-Kriterien muessen deshalb ausserhalb der Scoring-Logik behandelt werden.

Beispiel: Fuer eine Versicherung koennte “Erfuellt BaFin-Anforderungen an Datensicherheit” ein K.O.-Kriterium sein. Ein Servicekonzept, das diese Anforderung nicht erfuellt, wird nicht bewertet — egal wie innovativ es ist.

Schritt 2: Bewertungskriterien definieren

Liste die Kriterien auf, nach denen die verbleibenden Alternativen bewertet werden. Gute Kriterien sind:

  • Voneinander unabhaengig — zwei Kriterien, die dasselbe messen (z. B. “Kosten” und “Budgetbedarf”), verfaelschen das Ergebnis durch Doppelzaehlung. Montibeller und von Winterfeldt (2015) nennen das den Splitting Bias: Wenn ein Aspekt in mehrere Kriterien aufgespalten wird, erhaelt er ueberproportionales Gewicht [7].
  • Messbar oder bewertbar — das Team muss fuer jede Alternative eine Einschaetzung abgeben koennen
  • Differenzierend — wenn alle Alternativen bei einem Kriterium gleich abschneiden, traegt es nichts zur Entscheidung bei
  • Vollstaendig — alle entscheidungsrelevanten Aspekte muessen abgedeckt sein

Typische Kriterien fuer Service-Entscheidungen:

KategorieBeispielkriterien
KundenwirkungKundenzufriedenheit, Nutzerfreundlichkeit, Time-to-Value
WirtschaftlichkeitImplementierungskosten, laufende Kosten, Amortisationszeit
MachbarkeitTechnische Komplexitaet, Ressourcenverfuegbarkeit, Zeithorizont
Strategische PassungMarkenfit, Skalierbarkeit, Differenzierungspotenzial
RisikoImplementierungsrisiko, regulatorische Anforderungen, Abhaengigkeiten

Empfohlene Anzahl: 5–8 Kriterien. Weniger als 5 ist zu grob und laesst wichtige Dimensionen aus. Mehr als 10 ueberfordert die Bewertungskapazitaet des Teams und erzeugt Scheinpraezision — die Illusion, dass mehr Kriterien zu besseren Entscheidungen fuehren [7].

Schritt 3: Kriterien gewichten

Die Gewichtung ist der kritischste Schritt — und der am haeufigsten unterschaetzte. Weber und Borcherding (1993) zeigten empirisch, dass unterschiedliche Gewichtungsmethoden unterschiedliche Gewichtungen erzeugen, selbst wenn dieselben Personen dieselben Praeferenzen haben [8]. Die Methode der Gewichtungselizitation ist also nicht neutral.

Methode 1: Prozentuale Verteilung (einfach) Verteile 100 Prozentpunkte auf die Kriterien. Jeder Teilnehmer verteilt individuell, dann wird der Mittelwert gebildet. Vorteil: Intuitiv. Nachteil: Tendenz zur Gleichverteilung, wenn Teilnehmer sich nicht festlegen wollen.

Methode 2: Swing-Gewichtung (gruendlicher) Stelle dir vor, alle Alternativen haetten den schlechtmoeglichsten Wert bei jedem Kriterium. Dann darfst du EIN Kriterium auf den bestmoeglichen Wert setzen. Welches waehlst du? Das ist das wichtigste Kriterium (100 Punkte). Dann: Welches als zweites? Wie viel ist dieser “Swing” wert im Vergleich zum ersten? Weber und Borcherding (1993) zeigten, dass Swing-Gewichtung die konsistentesten Ergebnisse liefert [8].

Methode 3: Rangfolge (schnell) Sortiere die Kriterien nach Wichtigkeit. Weise dem wichtigsten Kriterium den hoechsten Wert zu (z. B. 5 bei 5 Kriterien), dem naechsten 4, usw. Normiere auf 100 %. Vorteil: Schnell. Nachteil: Keine Differenzierung der Abstaende — der Unterschied zwischen Platz 1 und 2 wird als gleich gross behandelt wie zwischen Platz 4 und 5.

Entscheidender Grundsatz: Definiere die Gewichtung, bevor die Alternativen bewertet werden — und aendere sie danach nicht mehr. Tversky und Kahneman (1974) dokumentierten, wie Ankerwerte systematisch nachfolgende Urteile verzerren [4]. Wenn das Team zuerst die Bewertung sieht und dann die Gewichtung “anpasst”, optimiert es unbewusst auf das gewuenschte Ergebnis. Die scheinbare Objektivitaet der Methode wird zur Fassade.

KriteriumGewichtung
Kundenwirkung30 %
Machbarkeit25 %
Wirtschaftlichkeit20 %
Strategische Passung15 %
Risiko (invertiert)10 %
Summe100 %

Schritt 4: Alternativen bewerten

Bewerte jede Alternative gegen jedes Kriterium auf einer einheitlichen Skala.

Empfehlung: 1–5-Skala mit verbalen Ankerpunkten. Eine 1–10-Skala erzeugt Scheinpraezision — die meisten Teams koennen den Unterschied zwischen 6 und 7 nicht zuverlaessig beurteilen. Weber und Borcherding (1993) zeigten, dass zentrale Tendenz (Vermeidung der Skalenenden) auf breiteren Skalen staerker ausgepraegt ist, was die effektive Differenzierung reduziert [8].

WertBedeutungBeispiel (Kriterium: Kundenwirkung)
1Sehr schlechtVerschlechtert die bestehende Kundenerfahrung
2SchlechtMinimale Verbesserung, unter Branchendurchschnitt
3MittelAuf Branchenniveau, keine Differenzierung
4GutSpuerbare Verbesserung, ueber Branchendurchschnitt
5Sehr gutExzellent, potenzieller Wettbewerbsvorteil

Silent Rating: Lass jeden Teilnehmer zuerst individuell bewerten — auf einem eigenen Zettel oder in einem separaten Spreadsheet — bevor die Bewertungen offengelegt werden. Das verhindert Gruppendenken [6] und den Ankereffekt [4]: Die erste laut ausgesprochene Zahl beeinflusst alle weiteren Bewertungen im Raum.

Schritt 5: Gewichtete Scores berechnen

Multipliziere jede Bewertung mit der Gewichtung des Kriteriums und summiere ueber alle Kriterien:

Gewichteter Score = Summe (Bewertung_i x Gewichtung_i)

Die Alternative mit dem hoechsten Score ist — unter den gewaehlten Kriterien und Gewichtungen — die beste Option.

Schritt 6: Sensitivitaetsanalyse durchfuehren

Dieser Schritt fehlt in fast allen deutschsprachigen Scoring-Modell-Anleitungen — und ist doch der wichtigste. Ohne Sensitivitaetsanalyse weisst du nicht, ob dein Ergebnis robust ist oder ob eine kleine Aenderung der Annahmen die Rangfolge kippt.

Drei Checks:

  1. Gewichtungs-Sensitivitaet: Erhoehe und senke die Gewichtung des wichtigsten Kriteriums um 10 Prozentpunkte (z. B. von 30 % auf 40 % oder 20 %). Aendert sich die Rangfolge? Wenn ja: Die Entscheidung haengt an der Gewichtung — diskutiere diese Gewichtung gruendlicher.

  2. Bewertungs-Sensitivitaet: Identifiziere Bewertungen, bei denen das Team unsicher war (“War das eine 3 oder eine 4?”). Aendere diese um +-1 Punkt. Kippt die Rangfolge? Wenn ja: Investiere in bessere Information zu genau diesem Kriterium und dieser Alternative.

  3. Knappheitstest: Wenn der Abstand zwischen Platz 1 und Platz 2 weniger als 5 % betraegt, ist das Ergebnis nicht eindeutig. Dann brauchst du entweder zusaetzliche Differenzierungskriterien, weitere Information oder eine bewusste qualitative Entscheidung jenseits der Zahlen.

Wenn die Sensitivitaetsanalyse zeigt, dass das Ergebnis fragil ist: Das ist kein Versagen der Methode — es ist eine wertvolle Erkenntnis. Es bedeutet, dass die Alternativen naeher beieinanderliegen, als die Zahlen suggerieren. Ergaenze qualitative Faktoren (Teamkapazitaet, politische Machbarkeit, Timing) fuer die finale Entscheidung.

Praxisbeispiel: Scoring-Modell im Versicherungskontext

Kontext: Ein Versicherer hat im Rahmen eines Digitalisierungsprojekts drei Konzepte fuer ein neues Schadenportal entwickelt. Zwei Servicefachleute, eine UX-Designerin und ein IT-Architekt muessen entscheiden, welches Konzept in die Pilotphase geht.

K.O.-Kriterien-Pruefung: Alle drei Konzepte erfuellen die BaFin-Anforderungen an Datensicherheit und sind mit dem bestehenden Kernsystem kompatibel. Keines wird ausgeschlossen.

Die drei Konzepte:

  • A: Self-Service-Portal — Kunden melden Schaeden digital, laden Fotos hoch, verfolgen den Status in Echtzeit
  • B: Hybrid-Modell — Digitale Meldung mit Video-Call-Option fuer komplexe Schaeden (Brandschaeden, Haftpflichtfaelle)
  • C: KI-gestuetztes Portal — Automatische Schadensklassifikation per Bildanalyse, automatisierte Erstbewertung durch Machine-Learning-Modell

Gewichtung (vorab vom Team festgelegt):

KriteriumGewichtung
Kundenwirkung30 %
Machbarkeit (12 Monate)25 %
Wirtschaftlichkeit20 %
Strategische Passung15 %
Risiko (invertiert: 5 = geringes Risiko)10 %

Bewertung (Silent Rating, dann Konsens):

KriteriumGewichtungA: Self-ServiceB: HybridC: KI-gestuetzt
Kundenwirkung30 %453
Machbarkeit25 %542
Wirtschaftlichkeit20 %432
Strategische Passung15 %345
Risiko (invertiert)10 %542
Gewichteter Score4,204,102,75

Berechnung Konzept A: (4 x 0,30) + (5 x 0,25) + (4 x 0,20) + (3 x 0,15) + (5 x 0,10) = 1,20 + 1,25 + 0,80 + 0,45 + 0,50 = 4,20

Berechnung Konzept B: (5 x 0,30) + (4 x 0,25) + (3 x 0,20) + (4 x 0,15) + (4 x 0,10) = 1,50 + 1,00 + 0,60 + 0,60 + 0,40 = 4,10

Berechnung Konzept C: (3 x 0,30) + (2 x 0,25) + (2 x 0,20) + (5 x 0,15) + (2 x 0,10) = 0,90 + 0,50 + 0,40 + 0,75 + 0,20 = 2,75

Sensitivitaetsanalyse

Gewichtungs-Sensitivitaet: Der Abstand zwischen A (4,20) und B (4,10) betraegt nur 2,4 %. Was passiert, wenn “Kundenwirkung” von 30 % auf 40 % steigt?

Konzept A (neu): (4 x 0,40) + (5 x 0,20) + (4 x 0,17) + (3 x 0,13) + (5 x 0,10) = 1,60 + 1,00 + 0,68 + 0,39 + 0,50 = 4,17

Konzept B (neu): (5 x 0,40) + (4 x 0,20) + (3 x 0,17) + (4 x 0,13) + (4 x 0,10) = 2,00 + 0,80 + 0,51 + 0,52 + 0,40 = 4,23

Ergebnis: Bei erhoehter Kundenwirkung-Gewichtung ueberholt B das Konzept A. Das Ergebnis ist fragil — die Entscheidung haengt stark von der Gewichtung der Kundenwirkung ab.

Bewertungs-Sensitivitaet: Das Team war bei Konzept C (KI-gestuetzt) bei “Machbarkeit” unsicher — ist das eine 2 oder eine 3? Bei Machbarkeit = 3 steigt C auf 3,00 statt 2,75. Der Abstand zu A und B bleibt gross genug: C bleibt auf Platz 3.

Entscheidung des Teams: Konzept A wird als Pilot gestartet, mit der Video-Call-Komponente aus Konzept B fuer komplexe Schaeden als Phase-2-Erweiterung. Konzept C wird als strategische Option fuer das Folgejahr vorgemerkt, wenn die KI-Infrastruktur ausgereifter ist.

Hinweis: Dieses Beispiel ist illustrativ konstruiert, um die Methode im Servicekontext zu demonstrieren. Die Bewertungen basieren auf typischen Branchenwerten, nicht auf einer dokumentierten Fallstudie.

Vorlage: Scoring-Modell zum Sofort-Einsatz

Diese Checkliste kannst du direkt fuer dein naechstes Scoring-Modell verwenden:

Vorbereitung

  • Entscheidungsfrage als konkrete Frage formuliert (nicht: “Was machen wir?” — sondern: “Welches der drei Portalkonzepte soll in Q3 pilotiert werden?”)
  • K.O.-Kriterien definiert und Alternativen vorab geprueft
  • 3–7 Alternativen identifiziert
  • 5–8 unabhaengige, bewertbare Kriterien definiert

Gewichtung

  • Gewichtungsmethode gewaehlt (Prozent, Swing oder Rangfolge)
  • Gewichtung VOR der Bewertung festgelegt
  • Summe der Gewichtungen = 100 %
  • Gewichtung schriftlich dokumentiert und als unveraenderbar erklaert

Bewertung

  • Skala mit verbalen Ankerpunkten definiert (empfohlen: 1–5)
  • Jeder Teilnehmer hat individuell bewertet (Silent Rating)
  • Abweichungen im Team diskutiert und Konsens hergestellt
  • Gewichtete Scores berechnet

Qualitaetssicherung

  • Sensitivitaetscheck: Gewichtung +-10 Prozentpunkte
  • Sensitivitaetscheck: Unsichere Bewertungen +-1 Punkt
  • Knappheitstest: Abstand Platz 1 zu Platz 2 > 5 %?
  • Qualitative Faktoren ergaenzt, die das Scoring-Modell nicht erfasst
  • Entscheidung dokumentiert inkl. Begruendung, Gewichtung und Alternativenbewertung

5 kognitive Verzerrungen, die Scoring-Ergebnisse verfaelschen

1. Ankereffekt bei der Bewertung

Symptom: Der Projektleiter nennt seine Bewertung zuerst. Alle anderen stimmen zu oder weichen minimal ab. Das Ergebnis spiegelt eine Einzelmeinung, keine Gruppenintelligenz.

Ursache: Der Ankereffekt ist eine der robustesten kognitiven Verzerrungen: Die erste genannte Zahl beeinflusst systematisch alle nachfolgenden Schaetzungen [4].

Gegenmassnahme: Silent Rating — jeder bewertet individuell, bevor die Bewertungen offengelegt werden. Diskutiere nur Abweichungen, nicht Uebereinstimmungen.

2. Splitting Bias bei den Kriterien

Symptom: Das Team definiert “Implementierungskosten”, “Betriebskosten” und “Gesamtkosten” als drei separate Kriterien. Alle drei messen denselben Aspekt.

Ursache: Montibeller und von Winterfeldt (2015) identifizierten den Splitting Bias: Wenn ein Aspekt in mehrere Kriterien aufgespalten wird, erhaelt er ueberproportionales Gesamtgewicht, ohne dass das Team sich dessen bewusst ist [7].

Gegenmassnahme: Pruefe jedes Kriterium: “Wenn Alternative X bei diesem Kriterium besser abschneidet — wuerde sie automatisch auch bei einem anderen Kriterium besser abschneiden?” Wenn ja: zusammenfassen.

3. Nachtraegliche Gewichtungsanpassung

Symptom: Das Team sieht das Ergebnis — und aendert die Gewichtung, bis das “richtige” Ergebnis erscheint. “Kosten sind doch eigentlich wichtiger als Kundenwirkung” wird erst gesagt, nachdem klar ist, dass das billigste Konzept sonst verlieren wuerde.

Ursache: Confirmation Bias — die Tendenz, Informationen so zu interpretieren, dass sie die bestehende Ueberzeugung bestaetigen.

Gegenmassnahme: Gewichtung in separater Sitzung festlegen, schriftlich dokumentieren, vor der Bewertung als fixiert erklaeren. Neue Gewichtungen nur bei neuen Sachinformationen, nicht bei neuen Praeferenzen.

4. Zentrale Tendenz auf breiten Skalen

Symptom: Auf einer 1–10-Skala vergeben alle Teilnehmer Werte zwischen 4 und 7. Die Enden der Skala werden vermieden. Die effektive Differenzierung ist geringer als auf einer 1–5-Skala.

Ursache: Risikoaversion bei der Bewertung — Extremwerte fuehlen sich “gewagt” an. Weber und Borcherding (1993) dokumentierten diesen Effekt empirisch [8].

Gegenmassnahme: 1–5-Skala mit klaren verbalen Ankerpunkten fuer jeden Wert. Die verbale Definition (“Sehr gut = Wettbewerbsvorteil”) reduziert die Tendenz zur Mitte.

5. Proxy Bias bei qualitativen Kriterien

Symptom: Das Team soll “Kundenwirkung” bewerten und nutzt als Proxy (Ersatzgroesse) den Net Promoter Score. NPS misst aber Weiterempfehlungsbereitschaft, nicht Kundenwirkung insgesamt.

Ursache: Montibeller und von Winterfeldt (2015) beschrieben den Proxy Bias: Teams ersetzen schwer messbare Kriterien durch leicht messbare Kennzahlen, die nur teilweise das Gleiche erfassen [7].

Gegenmassnahme: Fuer jedes Kriterium explizit definieren: “Was genau messen wir? Und misst unsere Metrik tatsaechlich das, was das Kriterium beschreibt?” Wenn nicht: das Kriterium qualitativ bewerten, statt einen falschen Proxy zu nutzen.

Wann das Scoring-Modell die falsche Wahl ist

1. Radikale Innovation mit unbekannten Kriterien. Wenn du ein voellig neuartiges Servicekonzept bewertest, kennst du die relevanten Kriterien oft noch nicht. Ein Scoring-Modell mit falschen Kriterien erzeugt ein praezises, aber irrelevantes Ergebnis. Hier sind Design Thinking (Prototyping + Testing) oder explorative Methoden wie der Morphologische Kasten besser geeignet — zuerst lernen, dann bewerten.

2. Kompensation ist inakzeptabel. Das Scoring-Modell ist ein kompensatorisches Verfahren: Ein niedriger Score bei “Datensicherheit” kann durch einen hohen Score bei “Kosteneffizienz” ausgeglichen werden. Wenn bestimmte Kriterien absolute Mindestanforderungen sind — z. B. regulatorische Compliance — muessen diese als K.O.-Kriterien ausserhalb des Scorings behandelt werden [9].

3. Politische Entscheidungen. Wenn die Entscheidung bereits getroffen ist und das Scoring-Modell nur der nachtraeglichen Legitimation dient, ist es Zeitverschwendung. Schlimmer: Es erzeugt Zynismus im Team gegenueber kuenftigen “objektiven” Bewertungsverfahren.

4. Zu wenig Information. Wenn das Team nicht genug ueber die Alternativen weiss, um sie serioes zu bewerten, verdeckt das Scoring-Modell Unwissen hinter Zahlen. Investiere zuerst in Informationsbeschaffung — User Research, Stakeholder-Mapping oder Desk Research — und fuehre das Scoring durch, wenn du fundiert bewerten kannst.

5. Kriterienabhaengigkeiten. Die additive Scoring-Formel setzt voraus, dass die Kriterien voneinander unabhaengig sind. Wenn aber “Time-to-Market” und “Funktionsumfang” invers korreliert sind — schnellere Lieferung nur bei weniger Features moeglich — kann das Scoring-Modell die Wechselwirkung nicht abbilden [5]. In solchen Faellen ist ein erweitertes MCDM-Verfahren wie ELECTRE oder PROMETHEE besser geeignet.

Variationen und fortgeschrittene Techniken

Gewichtetes vs. ungewichtetes Scoring

Die einfachste Form des Scoring-Modells verzichtet auf Gewichtung: Jedes Kriterium zaehlt gleich. Das ist selten sinnvoll — es setzt implizit voraus, dass “Kosten” und “Markenfit” gleich wichtig sind. Gewichtetes Scoring ist in fast allen Praxissituationen ueberlegen, weil es die tatsaechlichen Prioritaeten des Teams abbildet statt sie zu ignorieren.

Scoring-Modell + Kano: Die kombinierte Methode

Nutze das Kano-Modell, um Features nach Zufriedenheitswirkung zu klassifizieren — und uebertrage die Ergebnisse als Input in das Scoring-Modell. Basismerkmale erhalten im Kriterium “Kundenwirkung” automatisch die hoechste Bewertung (ihr Fehlen erzeugt Unzufriedenheit), Begeisterungsmerkmale eine hohe, unerhebliche Merkmale eine niedrige. So verbindest du empirische Kundendaten mit der strukturierten Alternativenbewertung.

Scoring-Modell im Projektportfolio-Management

Ueber die Einzelentscheidung hinaus nutzen Organisationen Scoring-Modelle, um ganze Projektportfolios zu priorisieren. Hier werden nicht Servicealternativen, sondern Projekte gegeneinander bewertet — mit Kriterien wie strategische Passung, erwarteter ROI, Ressourcenbedarf und Risiko. Das Prinzip ist identisch; die Herausforderung liegt in der konsistenten Bewertung ueber eine groessere Anzahl von Objekten.

Scoring-Modell fuer Lieferantenbewertung

In Einkauf und Supply-Chain-Management sind Scoring-Modelle das Standardwerkzeug fuer die systematische Lieferantenbewertung. Kriterien wie Qualitaet, Liefertreue, Preisniveau, Innovationsfaehigkeit und Nachhaltigkeit werden gewichtet und bewertet. Der Vorteil: Die Bewertung ist dokumentierbar, wiederholbar und kann in regelmaessigen Zyklen (z. B. jährlich) durchgefuehrt werden.

Haeufig gestellte Fragen

Was ist ein Scoring-Modell einfach erklaert?

Ein Scoring-Modell ist ein Punktbewertungsverfahren, das mehrere Optionen anhand gewichteter Kriterien vergleicht. Jede Option erhaelt pro Kriterium eine Punktzahl. Diese Punktzahl wird mit der Gewichtung des Kriteriums multipliziert. Die Summe aller gewichteten Punkte ergibt den Gesamtscore — die Option mit dem hoechsten Score ist die beste Wahl unter den gewaehlten Kriterien.

Wie erstelle ich ein Scoring-Modell?

In sechs Schritten: (1) K.O.-Kriterien pruefen und Alternativen vorselektieren. (2) 5–8 unabhaengige Bewertungskriterien definieren. (3) Kriterien gewichten (Summe = 100 %) — vor der Bewertung. (4) Alternativen auf einer 1–5-Skala mit klaren Ankerpunkten bewerten (Silent Rating, dann Teamkonsens). (5) Gewichtete Scores berechnen. (6) Sensitivitaetsanalyse durchfuehren — pruefen, ob kleine Aenderungen die Rangfolge kippen.

Was ist der Unterschied zwischen Scoring-Modell und Nutzwertanalyse?

In der Praxis werden die Begriffe oft synonym verwendet. Die Nutzwertanalyse nach Zangemeister (1976) ist die formalisierte deutsche Methodik mit spezifischen Anforderungen: Gewichtungen summieren sich auf 100 %, das Ergebnis ist ein Gesamtnutzwert, der Prozess wird dokumentiert [1]. “Scoring-Modell” ist der breitere Oberbegriff fuer jedes Punktbewertungsverfahren — auch solche ohne normierte Gewichtung.

Was ist der Unterschied zwischen Scoring-Modell und Entscheidungsmatrix?

Die Entscheidungsmatrix beschreibt die tabellarische Darstellungsform — Zeilen fuer Kriterien, Spalten fuer Alternativen. Das Scoring-Modell beschreibt die Berechnungslogik — Punkte mal Gewichtung. In der Praxis werden beide Begriffe synonym fuer dasselbe Werkzeug verwendet: eine gewichtete tabellarische Alternativenbewertung.

Welche Vor- und Nachteile hat ein Scoring-Modell?

Vorteile: Transparent und nachvollziehbar; integriert qualitative und quantitative Kriterien; strukturiert Teamdiskussionen; erzeugt dokumentierbare Ergebnisse; einfach zu verstehen und umzusetzen.

Nachteile: Gewichtung und Bewertung bleiben subjektiv; kompensatorisch (niedrige Scores koennen durch hohe ausgeglichen werden); anfaellig fuer kognitive Verzerrungen (Ankereffekt, Splitting Bias); setzt Kriterienunabhaengigkeit voraus, die nicht immer gegeben ist [5][7].

Wann sollte ich AHP statt ein einfaches Scoring-Modell verwenden?

AHP (Analytic Hierarchy Process) lohnt sich bei strategisch wichtigen Entscheidungen mit mehr als 8 Kriterien, wenn mathematische Konsistenz der Gewichtung gefordert ist — zum Beispiel bei oeffentlichen Ausschreibungen oder regulierten Entscheidungen. Fuer operative Entscheidungen im Team mit 5–8 Kriterien ist das einfache Scoring-Modell effizienter [3][5].

Verwandte Methoden

Ein typischer Ablauf in der Serviceentwicklung: Mit dem Morphologischen Kasten generierst du systematisch Servicekonzepte. Mit dem Scoring-Modell oder der Entscheidungsmatrix waehlst du das vielversprechendste Konzept. Mit dem Kano-Modell verfeinerst du die Features. Im Service-Design-Prozess setzt du das Konzept um.

  • Entscheidungsmatrix: Tabellarische Darstellungsform fuer gewichtete Alternativenbewertung — methodisch eng verwandt
  • Kano-Modell: Wenn du Features nach Zufriedenheitswirkung klassifizieren willst statt zwischen Alternativen zu waehlen
  • Morphologischer Kasten: Wenn du vor dem Scoring systematisch Loesungskombinationen generieren willst
  • SWOT-Analyse: Wenn du vor der Konzeptauswahl die strategische Ausgangslage analysieren willst
  • Service Design: Fuer den Gesamtkontext, in den das Scoring-Modell als Bewertungswerkzeug eingebettet ist

Forschungsmethodik

Dieser Artikel synthetisiert Erkenntnisse aus Zangemeisters Originalpublikation zur Nutzwertanalyse (1970/1976), Pughs Konzeptauswahl-Methodik (1981), Saatys AHP-Grundlagenwerk (1980), der Forschung zu kognitiven Verzerrungen in Entscheidungsprozessen (Tversky & Kahneman 1974; Montibeller & von Winterfeldt 2015; Weber & Borcherding 1993) sowie der vergleichenden MCDM-Literatur (Velasquez & Hester 2013; Keeney & Raiffa 1993). Ergaenzend wurden 10 deutschsprachige Fachbeitraege zum Scoring-Modell analysiert. Die Quellen wurden nach Methodenrigor, Praxisrelevanz und Zitationshaeufigkeit ausgewaehlt.

Limitationen: Die akademische Literatur zur Anwendung von Scoring-Modellen spezifisch in der Dienstleistungsentwicklung ist begrenzt — die meisten empirischen Studien stammen aus dem Ingenieurwesen, der Produktentwicklung und der oeffentlichen Planung. Das Praxisbeispiel (Schadenportal) ist illustrativ konstruiert, nicht eine dokumentierte Fallstudie. Die Empfehlungen zu Skalenlaenge und Gewichtungsmethode basieren auf experimenteller Evidenz, deren Uebertragbarkeit auf Serviceentscheidungen plausibel, aber nicht empirisch geprueft ist.

Offenlegung

SI Labs bietet Beratungsleistungen im Bereich Service Innovation an. Im Integrierten Service Entstehungs Prozess (iSEP) setzen wir Scoring-Modelle in der Konzeptphase ein, um zwischen Service-Alternativen zu waehlen. Diese Praxiserfahrung informiert die Einordnung der Methode in diesem Artikel. Leser sollten sich der moeglichen Perspektivenverzerrung bewusst sein.

Quellenverzeichnis

[1] Zangemeister, Christof. Nutzwertanalyse in der Systemtechnik: Eine Methodik zur multidimensionalen Bewertung und Auswahl von Projektalternativen. Muenchen: Wittemann, 1976 (1. Aufl. 1970, 5. Aufl. 2014). [Grundlagenwerk | Nutzwertanalyse | Zitationen: 1.500+ | Qualitaet: 90/100]

[2] Pugh, Stuart. “Concept Selection: A Method That Works.” Proceedings of the International Conference on Engineering Design (ICED), Rom, 1981. Spaeter vertieft in: Pugh, Stuart. Total Design: Integrated Methods for Successful Product Engineering. Wokingham: Addison-Wesley, 1991. ISBN: 978-0201416398 [Grundlagenwerk | Pugh-Matrix | Zitationen: 3.000+ | Qualitaet: 88/100]

[3] Saaty, Thomas L. The Analytic Hierarchy Process: Planning, Priority Setting, Resource Allocation. New York: McGraw-Hill, 1980. ISBN: 978-0070543713 [Grundlagenwerk | AHP | Zitationen: 40.000+ | Qualitaet: 92/100]

[4] Tversky, Amos, und Daniel Kahneman. “Judgment under Uncertainty: Heuristics and Biases.” Science 185, Nr. 4157 (1974): 1124–1131. DOI: 10.1126/science.185.4157.1124 [Grundlagenwerk | Kognitive Verzerrungen | Zitationen: 45.000+ | Qualitaet: 95/100]

[5] Velasquez, Mark, und Patrick T. Hester. “An Analysis of Multi-Criteria Decision Making Methods.” International Journal of Operations Research 10, Nr. 2 (2013): 56–66. [Journal Article | MCDM Vergleich | Zitationen: 2.500+ | Qualitaet: 78/100]

[6] Janis, Irving L. Groupthink: Psychological Studies of Policy Decisions and Fiascoes. Boston: Houghton Mifflin, 1982. ISBN: 978-0395317044 [Grundlagenwerk | Gruppendenken | Zitationen: 10.000+ | Qualitaet: 85/100]

[7] Montibeller, Gilberto, und Detlof von Winterfeldt. “Cognitive and Motivational Biases in Decision and Risk Analysis.” Risk Analysis 35, Nr. 7 (2015): 1230–1251. DOI: 10.1111/risa.12360 [Journal Article | Kognitive Verzerrungen in MCDA | Zitationen: 500+ | Qualitaet: 82/100]

[8] Weber, Martin, und Katrin Borcherding. “Behavioral influences on weight judgments in multiattribute decision making.” European Journal of Operational Research 67, Nr. 1 (1993): 1–12. [Journal Article | Gewichtungsmethoden | Zitationen: 300+ | Qualitaet: 80/100]

[9] Keeney, Ralph L., und Howard Raiffa. Decisions with Multiple Objectives: Preferences and Value Tradeoffs. Cambridge: Cambridge University Press, 1993 (Orig. 1976). ISBN: 978-0521438834 [Grundlagenwerk | Multi-Attribute Utility Theory | Zitationen: 20.000+ | Qualitaet: 93/100]

Aehnliche Artikel

Entscheidungsmatrix: Anleitung, Praxisbeispiel und Vorlage

Die Entscheidungsmatrix Schritt für Schritt: gewichtete Bewertung von Alternativen mit Praxisbeispiel und Vorlage.

Weiterlesen →

Kano-Modell: Anleitung, Praxisbeispiel & Fragebogen-Vorlage

Das Kano-Modell Schritt für Schritt: Praxisleitfaden mit Servicebeispiel, Methodenvergleich, Kano-Fragebogen-Vorlage & Auswertungstabelle zum Sofort-Einsatz.

Weiterlesen →

Service Design: Definition, Prozess & Praxisbeispiel

Was ist Service Design? Definition, die 5 Prinzipien, der Double Diamond und ein B2B-Praxisbeispiel. Mit Vergleich zu Design Thinking und UX Design.

Weiterlesen →

Morphologischer Kasten: Anleitung mit CCA & Beispiel

Der Morphologische Kasten systematisch erklärt: Schritt-für-Schritt-Anleitung mit Cross-Consistency Assessment, Beispiel und Methodenvergleich.

Weiterlesen →

SWOT-Analyse: Anleitung mit TOWS-Matrix, Workshop-Vorlage & Praxisbeispiel

SWOT-Analyse richtig durchführen: 4-Felder-Schema + TOWS-Matrix zur Strategieableitung. Mit 90-Minuten-Workshop-Plan, Moderationsleitfaden und Branchenbeispiel.

Weiterlesen →