MoE Architektur

Die MoE-Architektur (Mixture of Experts) ist ein Ansatz im maschinellen Lernen, bei dem ein großes Modell in mehrere spezialisierte Teilmodelle – sogenannte Experten – unterteilt wird. Ein Gating-Netzwerk entscheidet dynamisch, welche Experten für eine bestimmte Eingabe aktiviert werden. Dadurch wird nur ein Bruchteil der Modellparameter genutzt, was die Rechenkosten senkt und die Skalierbarkeit erhöht. MoE ermöglicht so extrem große Modelle mit hoher Effizienz und Spezialisierung bei komplexen Aufgaben.