Ich empfehle, die Dinge soweit es möglich ist und man das kann, selbst zu testen. Nicht alles, was man so liest und hört, entpuppt sich bei genauerem hinsehen als tatsächlich stichhaltig. Gerade was Benchmarking anbelangt, kommt man auch schon mal bei dem einen oder anderen Modell und dem einen oder anderen Benchmark drauf, dass hier sowas wie beim "VW Prüfstands Modus" passiert ist.
---------------------------------
Wen es interessiert:
Wer sich etwas detaillierter mit Deepseek beschäftigt, stellt fest, dass die überraschend niedrigen Kosten (~5,3 Mio USD) für die Pre-Tuning Phase des Modells anfielen. Jedoch(!) und das wird gerne übersehen, wurden wohl erheblich Vorarbeiten zu völlig unbekannten Kosten geleistet.
In dem Satz "Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1,
achieved through our optimized co-design of algorithms, frameworks, and hardware. "
im Paper drückt sich das aus. Ich nehme zunächst an, dass die Quadratur des Kreises nicht doch noch entdeckt wurde
Das Wesentliche ist, dass Teil ist ein "Mixture of Expert" (MoE) Modell. Vereinfacht gesagt, eine Ansammlung von kleinen Modellen im Modell, die auf bestimmte Aufgaben spezialisiert sind und vorher entschieden wird, welche Modelle (Modellteile) tatsächlich Verwendung finden. Neu ist das nicht, dass gab es schon bei GPT-4. Nach meinem jetzigen Wissensstand ist der Bringer, dass die Chinesen einen Weg gefunden haben, sehr effizient zu entscheiden, welchem Modellteil die Expertise am Ende überlassen wird. Wie genau, habe ich noch nicht raus gefunden.
Schließlich gibt es noch zwei Technologien in dem Modell, die zu weniger Speicherverbrauch führen. Das eine ist eine geringere Präzision der Parameter (FP-8) und das andere ist Technologie, die es erlaubt mehrere Kontexte effizient zu speichern (Multi-Head Latent Attention - MLA)
So weit, so normal. Nun kommt aber das eigentliche Ding: Es ist überhaupt nicht klar, dass die Chinesen nicht etwa ein bestehendes Modell genommen haben um ihr eigenes zu trainieren. Sowas führt dazu, dass das zweite Modell zwar nicht so gut ist, aber es geht schneller zu trainieren und ist effizienter. Was ich bisher gelesen habe, schaut das schon danach aus, dass hier der Frosch die Locken hat. Dann kannst du es natürlich vergessen. Eigentlich ist das Fake, wenn man dann behauptet man hätte es kostengünstig trainiert - meine ich zumindest.
Was mich wirklich interessiert und deshalb lese ich über Deepseek: Das Ding wurde wohl auf H800 statt H100 Prozessoren trainiert, was natürlich einen schönen Preissprung und einen Sprung im Energieverbrauch ausmacht.
Fazit: Immer schön skeptisch bleiben
