Antworten 1:

SGD oder Stochastic Gradient Descents - beinhaltet einen Schritt von 1.

Grundsätzlich wird ein Zeitschritt von 1 verwendet.

Stapelgradienten verwenden eine Satznotation von Stapeln - die größer als 1 ist und eine Summierung oder Verwendung der Verallgemeinerung in anderen Formaten beinhalten kann - wie z. B. Dot-Produkte oder auf andere Weise.

Was sie implizieren, ist auch anders.

Einige Informationen können verloren gehen, wenn Sie mit SGD arbeiten - weil Sie versuchen, die Fisher-Metriken für das Mischen zu erfüllen, und es ist ähnlich wie bei MC -, indem Sie Schritt für Schritt füttern.

Da sich MC jedoch besonders langsam konvergiert, nehmen Sie sich die Freiheit, kurzzuschließen oder sich unter der Haube anzunähern - mit SGD - was bedeutet, dass Sie nicht vollständig verfallen werden -, um alle für Fisher Metrics erforderlichen Kombinationen zu berücksichtigen.

Batch-Gradienten können dem etwas entgegenwirken - indem sie einfach ein größerer Satz von Parametern gleichzeitig sind -, aber es gibt wieder einen Kompromiss.

Stapelverläufe können mehr Variablen auf einmal analysieren - größere Stapel - richtig? Und es hält den Zustand so, wie er ist, zwischen diesen Zuständen - aber das Problem wird, dass die Zustände miteinander verbunden werden können - und der Haltepunkt, den Sie abbrechen möchten - kann dort stärker abhängig sein, als es sonst der Fall wäre.

Dies wird größtenteils zu einem Problem an zentralen Standorten mit hohen Dimensionen.

Aufgrund des zentralen Begrenzungssatzes und einer Gravitationssumme der Masse wird dies immer größer - in Faltungsangelegenheiten - was dies bedeutet - wenn Sie zufällig auf halbem Weg anhalten, brechen Sie das höchste Stück Dichte des Massenorts ab - und haben sozusagen den größten Anteil an „Breaking Correlations“.

Der Punkt hier - ist, dass SGD dem entgegenwirken kann, indem es bei jedem Schritt mischt und lediglich seinen Leistungsverlust basierend auf der Metrik erhält, dass es langsamer ist und möglicherweise Obergrenzen aufweisen muss, um realisierbare Ergebnisse zu erzielen.

Aber - Chargen - aufgrund der Größe der Chargen - nicht. Sie sorgen einfach für weniger Dekorrelation, außerhalb des wissentlichen Injizierens von Cross Validation oder Shuffling zwischen den festgelegten Partitionen.

Der Unterschied kann also wie folgt zusammengefasst werden:

SGD - Erfüllt Fisher-Metriken besser, Schritt 1, Dekorreliert besser in der lokalen Landschaft, Langsam, näher an echten MC- und Markov-Ketten-Integrationen, kann strengere Bedingungen für die Isolierung von Variablen anwenden

Chargen - Schneller, Kann aufgrund der Zentralisierung der Hochmassenkondensation mit hohen Dimensionen und der höheren parametrischen Amalgamierung auf Probleme der Unterbrechung der abhängigen Kontinuität stoßen. Kann in beide Richtungen der Hauptdekorrelation und der lokalen Dekorkoration verlieren.

Kann eine Integration benötigen, um dem entgegenzuwirken. Kann zwischen gemischt werden müssen. Kann eine Kreuzvalidierung benötigen. Kann Dimensionsreduzierungen etwas entgehen.

- -

Die Unterschiede häufen sich größtenteils zusammen mit allen umgebenden Verfahren in Bezug auf Validierungsstichproben, Orthogonalität und Mischmetriken.

Das Problem - ist das - Chargen kommen in Klumpen.

Und SGD ist - wieder - ein Schritt von 1 - also immer einzigartig.

Beide haben Vor- und Nachteile, aber die Unterschiede ergeben sich größtenteils aus den Auswirkungen auf der ganzen Linie - wie z. B. staatlichen Isolationen, Laufzeit der Integrationen und Ähnlichem.

- -

Es gibt äußerst viele Facetten und Nuancen, über die weiter gesprochen werden muss - und viele der oben genannten Punkte - sind keine Nachteile, sofern sie nicht gemildert werden können - lediglich, dass sie als Anhaltspunkte dienen, um in Bezug auf die Methodik zu stehen und diese anzuwenden ihnen besser entgegenwirken.

Alles in allem - sie sind normalerweise vergleichbar - wenn auch aus meiner Sicht - alles in allem ist es im Vergleich zu Batching normalerweise eine ziemlich solide Methode, wenn Sie es schaffen, die Probleme von SGD zu bewältigen.

Batching wird normalerweise zu einer Frage des Betriebs und ist im Großen und Ganzen machbar.

Zumindest zu meiner Erinnerung.

Ich hoffe, dass dies etwas Licht in die Sache bringt.

Vielen Dank für diese A2A.