Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Letzte ÜberarbeitungBeide Seiten der Revision
p:ki:machinelearning3 [2024/04/06 08:57] – angelegt Ralf Kretzschmarp:ki:machinelearning3 [2024/04/22 09:55] – [3. Schrittweise dem Ziel entgegen] Ralf Kretzschmar
Zeile 97: Zeile 97:
  
   ; Gradientenverfahren II   ; Gradientenverfahren II
-  : Beim Gradientenverfahren wird die erste Gewicht-Einstellung $w[0]$ zufällig gewürfelt. Im ersten Lernschritt wird die neue Gewicht-Einstellung mit $w[1] = w[0] -\mu \cdot \nabla J(w)$ berechnet. Im zweiten Lernschritt mit $w[2] = w[1] -\mu \cdot \nabla J(w)$, danach $w[3] = w[2] -\mu \cdot \nabla J(w)$ usw. Allgemein ausgedrückt, eine neue Gewicht-Einstellung $w[k+1]$ wird aus der alten Gewicht-Einstellung $w[k]$ berechnet durch:\\ \\ $w[k+1] = w[k] -\mu \cdot \nabla J(w)\quad$ (Gradientenverfahren),\\ \\ wobei $k$ die Lernschritte durchnummeriert.\\ \\ +  : Beim Gradientenverfahren wird die erste Gewicht-Einstellung $w[0]$ zufällig gewürfelt. Im ersten Lernschritt wird die neue Gewicht-Einstellung mit $w[1] = w[0] -\mu \cdot \nabla J(w[0])$ berechnet. Im zweiten Lernschritt mit $w[2] = w[1] -\mu \cdot \nabla J(w[1])$, danach $w[3] = w[2] -\mu \cdot \nabla J(w[2])$ usw. Allgemein ausgedrückt, eine neue Gewicht-Einstellung $w[k+1]$ wird aus der alten Gewicht-Einstellung $w[k]$ berechnet durch:\\ \\ $w[k+1] = w[k] -\mu \cdot \nabla J(w[k])\quad$ (Gradientenverfahren),\\ \\ wobei $k$ die Lernschritte durchnummeriert.\\ \\ 
   : Dass dieses Verfahren funktioniert, lässt sich mathematisch beweisen. Es kann gezeigt werden, dass für eine genügend kleine Lernrate $\mu$ für jede Epoche folgendes gilt:\\ \\ $J(w[k+1]) \le J(w[k])$\\ \\ D.h. der Fehler $J(w[k])$ wird mit fortschreitenden $k$ entweder kleiner oder bleibt im schlimmsten Fall gleich. Für grosse Lernraten $\mu$ gilt $J(w[k+1]) \le J(w[k])$ jedoch nicht zwingend und es kann sein, dass beim Training der Fehler wild hin und her springt.   : Dass dieses Verfahren funktioniert, lässt sich mathematisch beweisen. Es kann gezeigt werden, dass für eine genügend kleine Lernrate $\mu$ für jede Epoche folgendes gilt:\\ \\ $J(w[k+1]) \le J(w[k])$\\ \\ D.h. der Fehler $J(w[k])$ wird mit fortschreitenden $k$ entweder kleiner oder bleibt im schlimmsten Fall gleich. Für grosse Lernraten $\mu$ gilt $J(w[k+1]) \le J(w[k])$ jedoch nicht zwingend und es kann sein, dass beim Training der Fehler wild hin und her springt.