Ähnlichkeitsanalyse

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der Statistik, insbesondere der Multivariaten Statistik, interessiert man sich für die Messung der Ähnlichkeit zwischen verschiedenen Objekten und definiert dazu sogenannte Ähnlichkeits- oder auch Distanzmaße. Es handelt sich dabei aber nicht um ein Maß im mathematischen Sinne, der Begriff bezieht sich damit ausschließlich auf die Messung einer bestimmten Größe. In der Regel werden Distanzmaße für metrisch skalierte Variablen genutzt, während Ähnlichkeitsmaße für nominal oder ordinal skalierte Variablen genutzt werden. Eine spezielle Variante der Ähnlichkeiten definiert sich im Rahmen eines Optimierungsprozesses [vgl. https://hu.wikipedia.org/wiki/Hasonl%C3%B3s%C3%A1gelemz%C3%A9s].

Ähnlichkeitsmaß[Bearbeiten]

Definition[Bearbeiten]

Sei I = \left\{1, 2, \dots, N\right\} eine endliche Menge. Eine Funktion s : I \times I \rightarrow \mathbb{R} heißt Ähnlichkeitsmaß oder Ähnlichkeitsfunktion, falls für alle i,j\in I gilt:

  • s(i,j) = s(j,i) und
  • s(i,j) \leq s(i,i).

Zudem wird oft noch gefordert, dass für alle i,j\in I gilt:

  • s(i,j) \geq 0 und s(i,i) = 1.

Die Funktionswerte s(i,j) lassen sich zu einer symmetrischen N \times N-Matrix \left(s(i,j)\right)_{i,j} anordnen. Diese Matrix heißt Ähnlichkeitsmatrix. In diesem Kontext wird s(i,j) auch als Ähnlichkeitskoeffizient bezeichnet.

Anwendung in der Bioinformatik[Bearbeiten]

Ähnlichkeitsmatrizen wie PAM, BLOSUM spielen eine wichtige Rolle beim Sequenzalignment. Ähnliche Nukleotide oder Aminosäuren erhalten höhere „Scores“ als unähnliche, wobei die Ähnlichkeit hier durch die chemischen Eigenschaften der Bausteine und ihre Mutationsraten gleichermaßen definiert sind.

Beispiel (AGCT steht für die vier Nukleinbasen Adenin,Guanin, Cytosin und Thymin):

A G C T
A 10 -1 -3 -4
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8

Die Proteine, Aminosäuren oder Nukleotide, deren Ähnlichkeit zueinander angegeben werden soll, werden in gleicher Reihenfolge spalten- und zeilenweise sortiert. Der Wert a_{i,j} an der Position (i,j) gibt somit an, wie ähnlich das Molekül an der Spaltenposition i in zu dem an der Zeilenposition j ist. Laut der obigen Matrix sind Cytosin und Tymin zueinander ähnlicher als Guanin zu Cytosin.

Ähnlichkeitsmaße für binäre Variablen[Bearbeiten]

Für p binäre Variablen und zwei Beobachtungen i und j sei

n_{00} = \sum_{k=1}^p I(x_{ik}=0, x_{jk}=0), n_{01} = \sum_{k=1}^p I(x_{ik}=0, x_{jk}=1),
n_{10} = \sum_{k=1}^p I(x_{ik}=1, x_{jk}=0), n_{11} = \sum_{k=1}^p I(x_{ik}=1, x_{jk}=1) und
p=n_{00}+n_{01}+n_{10}+n_{11}\,.

Dann kann man folgende Maße definieren:

Ähnlichkeitsmaß s(i,j)
Braun \frac{n_{11}}{\max(n_{11}+n_{01},n_{11}+n_{10})}
Dice \frac{2n_{11}}{n_{01}+n_{10}+2n_{11}}
Hamann \frac{(n_{00}+n_{11})-(n_{01}+n_{10})}{p}
Jaccard (S-Koeffizient) \frac{n_{11}}{n_{01}+n_{10}+n_{11}}
Kappa \frac{1}{1+\tfrac{p(n_{01}+n_{10})}{2(n_{00}n_{11}-n_{01}n_{10})}}
Kulczynski \frac{n_{11}}{n_{01}+n_{10}}
Ochiai \frac{n_{11}}{\sqrt{(n_{11}+n_{01})(n_{11}+n_{10})}}
Phi \frac{n_{11}n_{00}-n_{10}n_{01}}{\sqrt{(n_{11}+n_{01})(n_{11}+n_{10})(n_{00}+n_{01})(n_{00}+n_{10})}}
Russel Rao[1] \frac{n_{11}}{p}
Simple Matching (M-Koeffizient) \frac{n_{00}+n_{11}}{p}
Simpson \frac{n_{11}}{\min(n_{11}+n_{01},n_{11}+n_{10})}
Sneath \frac{n_{11}}{n_{11}+2n_{01}+2n_{10}}
Tanimoto (Rogers)[2] \frac{n_{00}+n_{11}}{n_{00}+2(n_{01}+n_{10})+n_{11}}
Yule \frac{n_{00}n_{11}-n_{01}n_{10}}{n_{00}n_{11}+n_{01}n_{10}}

Für nicht binäre nominale oder ordinale Variablen definiert man für jede Kategorie der Variablen eine binäre Variable und kann dann die Ähnlichkeitsmaße für binäre Variablen verwenden.

Wahl des Ähnlichkeitsmaß[Bearbeiten]

Welches Ähnlichkeitsmaß man zur Analyse wählt, hängt von der Problemstellung ab. Es gibt jedoch einige Hinweise, wann sich welches Maß gut eignet in Abhängigkeit von den Eigenschaften der binären Variable.[3]

  • Ist die Variable symmetrisch, d. h. beide Kategorien sind gleich wichtig (z. B. Geschlecht), dann ist oft das gleiche Vorhandensein (n_{11}) bzw. die gleiche Abwesenheit (n_{00}) wichtig für ein Ähnlichkeitsmaß. Dann können Simple Matching, Hamman oder Tanimoto verwendet werden.
  • Ist die Variable asymmetrisch, d. h. nur eine Kategorie spielt eine wesentliche Rolle (z. B. Krankheit aufgetreten), dann spielt oft nur das gleiche Auftreten (n_{11}) eine Rolle. Dann können Dice, Jaccard, Kulczynskl, Ochiai, Braun, Simpson oder Sneath verwendet werden.
  • Kappa, Phi und Yule können sowohl im symmetrischen als auch im asymmetrischen Fall verwendet werden.

Bei der Wahl des Ähnlichkeitmaßes sollten auch Zusammenhänge zwischen den Maßen berücksichtigt werden:

  • Dice, Jaccard und Sneath sind monotone Funktionen voneinander
\text{Sneath} \le \text{Jaccard} \le \text{Dice}.
\text{Braun} \le \text{Dice} \le \text{Ochiai} \le \text{Kulczynski} \le \text{Simpson}.
  • Auch Hamman, Rogers und Simple matching weisen einen Zusammenhang auf.

Distanzmaß[Bearbeiten]

Definition[Bearbeiten]

Sei I = \left\{1, 2, \dots, N\right\} eine endliche Menge. Eine Funktion d : I \times I \rightarrow \mathbb{R} heißt Distanzmaß oder Distanzfunktion, falls für alle i,j \in I gilt:

  • d(i,j) = d(j,i) sowie
  • d(i,j) \geq 0 und d(i,j) = 0 \Leftrightarrow i=j .

Die Funktionswerte d(i,j) lassen sich zu einer symmetrischen N \times N-Matrix \left(d(i,j)\right)_{i,j} anordnen. Diese Matrix heißt Distanzmatrix.

Falls die Funktion d zusätzlich die Dreiecksungleichung erfüllt, ist sie eine Metrik. Häufig wird auch eine Metrik als Distanzfunktion bezeichnet.

Einige Distanzmaße[Bearbeiten]

Für p metrische Variablen und zwei Beobachtungen i und j kann man folgende Maße definieren:

Distanzmaß d(i,j)
L_r \left(\sum_{k=1}^p (x_{ik}-x_{jk})^r\right)^{1/r}
Euklidisch
L_2
\sqrt{\sum_{k=1}^p (x_{ik}-x_{jk})^2}
Pearson \sqrt{\sum_{k=1}^p \frac{(x_{ik}-x_{jk})^2}{s_k^2}}
mit s_k die Standardabweichung der Variable k
City-Block
Manhattan
L_1
\sum_{k=1}^p |x_{ik}-x_{jk}|
Gower[4] \sum_{k=1}^p \frac{|x_{ik}-x_{jk}|}{r_k}
mit r_k die Spannweite der Variable k
Mahalanobis \sqrt{(x_i - x_j)^T S^{-1}(x_i - x_j)}
mit S die Kovarianzmatrix der Variablen x_i

Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen[Bearbeiten]

Allgemein kann man ein Distanzmaß aus einem Ähnlichkeitsmaß definieren durch[5]

d(i,j)=\sqrt{s(i,i)+s(j,j)-2s(i,j)}.

Ein so gewonnenes Distanzmaß erfüllt aber im Allgemeinen nicht die Dreiecksungleichung und ist somit keine Metrik.

Optimierte Ähnlichkeiten[Bearbeiten]

Auszug aus dem ungarischen Wikipedia-Artikel ([1]):

  • Literatur:
  • Einleitung:
    • Die Ähnlichkeit ist eine der ältesten, somit natürlichsten Schichten des menschlichen Denkens (vgl. Mauthner: https://de.wikipedia.org/wiki/%C3%84hnlichkeit_(Philosophie)#Zitate). Dies zeigt sich auch in Redewendungen wie
    • Die Ähnlichkeitsanalyse ist eine programmierte/optimierte Version der menschlichen Intuition (vgl. Generierung von Intuition und/oder Verdacht), falls man aus den Gedanken von Konrad Lorenz (vgl. https://miau.my-x.hu/miau/95/30ev_full.doc - das russische Manuskript Kapitel 4.) ausgeht und die Fähigkeit an Heuristik jedem Lebewesen zuordnet.
    • Definition
      • Die optimierte Ähnlichkeit führt zu Treppenfunktionen (pro Attribut),
      • deren Treppenstufen dafür verantwortlich sind,
      • mit welchem optimierten Maß ein rohes Datum (vertreten durch eine Rangzahl innerhalb eines Attributes pro Objekt) in einer Objekt-Attribut-Matrix
      • für eine Hypothese (vgl. Anti-Diskriminanz-Analyse, Produktionsfunktion) in Betracht gezogen werden kann.
      • Objekte sind hierfür die vergleichende Phenomene.
      • Attribute sind die Eigenschaften, welche zum Vergleich herangezogen werden.
      • Die attribut-bezogenen Ähnlichkeitsteile werden aggregiert (vgl. auf additive oder multiplikative Weise).
      • Die Optimierung versucht das aggregierte Distanzvolumen (zwischen geschätzten Ähnlichkeiten und den potentiellen Konsequenzen pro Objekt) zu minimieren.
      • Beispiel:
        • Objekte: Länder (in einem Jahr)
        • Attribute: Statistiken
        • Frage: Welches Land hat eine bessere Kreditfähigkeit als die anderen? (vgl. Moodies, Fitch-Ratings, etc.)
        • Hypothesis: Jedes Land in jedem Jahr könnte eben die gleiche Kreditwürdigkeitseinstufung haben...
        • Hermeneutik des Modells: Falls die einzelnen statistischen Daten keineswegs so gewichtet/scored werden können, dass die Hypothesis angenommen werden kann, dann gibt es zwangsläufig bessere und unvorteilhaftere Länder und Perioden in deren Entwicklung...
    • Geschichte:

Einzelnachweise[Bearbeiten]

  1. Hochspringen P F Russel, T R Rao: On habitat and association of species of Anophe-line larvae. In: South-eastern Madras, Journal of Malaria Institute India. 3, 1940, S. 153-178.
  2. Hochspringen D.J. Rogers and T.T. Tanimoto: A Computer Program for Classifying Plants. In: Science. 132, Nr. 3434, 21 October 1960, S. 1115-1118. doi:10.1126/science.132.3434.1115.
  3. Hochspringen  ShengLi Tzeng, Han-Ming Wu, Chun-Houh Chen: Selection of Proximity Measures for Matrix Visualization of Binary Data. In: Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on. 30. Oktober 2009, S. 1-9, doi:10.1109/BMEI.2009.5305137.
  4. Hochspringen J. C. Gower: A General Coefficient of Similarity and Some of Its Properties. In: Biometrics. 27, Nr. 4, Dec. 1971, S. 857-871.
  5. Hochspringen  Wolfgang Härdle, Léopold Simar: Applied Multivariate Statistical Analysis. 1. Auflage. Springer Verlag, Berlin 2003, ISBN 3-540-03079-4, S. 381.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München 1984, ISBN 3-486-28451-7
  • Ludwig Fahrmeir, Alfred Hamerle: Multivariate statistische Verfahren. de Gruyter, Berlin 1984, ISBN 3-11-008509-7