Dies ist eine alte Version des Dokuments!

Wiederholung: Künstliches Neuron

Ein künstliches Neuron ist eine Funktion, die $n$ Eingabewerte $x_1, x_2, \ldots, x_n$ entgegennimmt und einen Ausgabewert liefert. Die genaue Funktion des Neurons wird bestimmt durch folgende Konstanten:

$n$ Gewichte $w_1, w_2, \ldots, w_n$
den Schwellenwert $\theta$ und
die Aktivierungsfunktion, z,B. die Heaviside-Funktion $H(x)$.

Der Ausgangswert des Neurons berechnet sich (bspw. mit Heaviside als Aktivierungsfunktion) folgendermaßen: $$H(x_1\cdot w_1 + x_2\cdot w_2 + \ldots + x_n\cdot w_n - \Theta)$$

Die am häufigsten verwendeten Aktivierungsfunktionen sind:

Die Heavyside-Funktion: $H(x) = \begin{cases} 0 & \text{für } x < 0 \\ 1 & \text{für } x \ge 0 \end{cases}$
Die ReLU-Funktion: $\mathrm{ReLU}(x) = \begin{cases} 0 & \text{für } x < 0 \\ x & \text{für } x \ge 0 \end{cases}$ (Rectified Linear Unit)
Die Sigmoid-Funktion: $\sigma(x) = \frac{1}{1 + e^{-x}}$
Die Identität: $\mathrm{id}(x) = x$

Hier eine Überblicksartige graphische Darstellung eines künstlichen Neurons:

Für Interessierte: Warum ist das künstliche Neuron so definiert?

Um den Eingangswerten $x_1, x_2, \ldots, x_n$ verschieden hohe Bedeutung zuzumessen, werden sie mit den Gewichten $w_1, w_2, \ldots, w_n$ multipliziert: $x_1\cdot w_1 + x_2\cdot w_2 + \ldots + x_n\cdot w_n$
Fasst man die Werte zu Vektoren $\vec{x} = (x_1\ x_2\ \ldots\ x_n)$ und $\vec{w} = \begin{pmatrix} w_1 \\w_2 \\ \vdots \\w_3 \end{pmatrix}$ zusammen, so kann man die gewichtete Summe als Skalarprodukt auffassen:
$x_1\cdot w_1 + x_2\cdot w_2 + \ldots + x_n\cdot w_n = \vec{x} \circ \vec{w}$
Dieses lässt sich mit modernen Prozessoren sehr schnell berechnen.
Der Schwellenwert $\theta$ modelliert, dass das Neuron erst ab einem bestimmten Wert "feuert".
Die Aktivierungsfunktion hat die Aufgabe, die Ausgangswerte auf das Intervall $[0; 1]$ abzubilden, also zu normieren. Besonderer Bedeutung kommt der Sigmoid-Funktion zu, da sie stetig und differenzierbar ist und ihre Ableitung sehr leicht berechnet werden kann: $\sigma'(x) = \sigma(x)\cdot(1-\sigma(x))$