![]() |
Habt Ihr Deepseek schon mal nach einer Zusammenfassung der Ereignisse auf den Tiananmen Square gefragt?
Er meint, dass würde seine Kompetenz übersteigen :cool: (zumindest gestern Abend noch) |
Zitat:
Auf Nachfrage teilte die KI dann ihre Content-Richtlinien mit, u.a. "2. Verbindung von Profit und Leid: Obwohl dies ein wichtiges Thema ist, könnten Darstellungen, die Menschen direkt mit Krieg und Gewinnsucht in Verbindung bringen, als unangemessen oder polarisierend angesehen werden, vor allem wenn sie reale Unternehmen oder Personengruppen symbolisieren." |
Liste der Anhänge anzeigen (Anzahl: 1)
Eine mir bekannte Person hat mal die Idee eines eWehrdienstes aufgebracht. Wir diskutierten darüber, dass man damit wohl viele Jugendliche für den Kriegsdienst gewinnen könne. Ich habe damals auch gleich eine Figur entworfen.
|
Ich empfehle, die Dinge soweit es möglich ist und man das kann, selbst zu testen. Nicht alles, was man so liest und hört, entpuppt sich bei genauerem hinsehen als tatsächlich stichhaltig. Gerade was Benchmarking anbelangt, kommt man auch schon mal bei dem einen oder anderen Modell und dem einen oder anderen Benchmark drauf, dass hier sowas wie beim "VW Prüfstands Modus" passiert ist. :Lachen2: ;)
--------------------------------- Wen es interessiert: Wer sich etwas detaillierter mit Deepseek beschäftigt, stellt fest, dass die überraschend niedrigen Kosten (~5,3 Mio USD) für die Pre-Tuning Phase des Modells anfielen. Jedoch(!) und das wird gerne übersehen, wurden wohl erheblich Vorarbeiten zu völlig unbekannten Kosten geleistet. In dem Satz "Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1, achieved through our optimized co-design of algorithms, frameworks, and hardware. " im Paper drückt sich das aus. Ich nehme zunächst an, dass die Quadratur des Kreises nicht doch noch entdeckt wurde ;) Das Wesentliche ist, dass Teil ist ein "Mixture of Expert" (MoE) Modell. Vereinfacht gesagt, eine Ansammlung von kleinen Modellen im Modell, die auf bestimmte Aufgaben spezialisiert sind und vorher entschieden wird, welche Modelle (Modellteile) tatsächlich Verwendung finden. Neu ist das nicht, dass gab es schon bei GPT-4. Nach meinem jetzigen Wissensstand ist der Bringer, dass die Chinesen einen Weg gefunden haben, sehr effizient zu entscheiden, welchem Modellteil die Expertise am Ende überlassen wird. Wie genau, habe ich noch nicht raus gefunden. Schließlich gibt es noch zwei Technologien in dem Modell, die zu weniger Speicherverbrauch führen. Das eine ist eine geringere Präzision der Parameter (FP-8) und das andere ist Technologie, die es erlaubt mehrere Kontexte effizient zu speichern (Multi-Head Latent Attention - MLA) So weit, so normal. Nun kommt aber das eigentliche Ding: Es ist überhaupt nicht klar, dass die Chinesen nicht etwa ein bestehendes Modell genommen haben um ihr eigenes zu trainieren. Sowas führt dazu, dass das zweite Modell zwar nicht so gut ist, aber es geht schneller zu trainieren und ist effizienter. Was ich bisher gelesen habe, schaut das schon danach aus, dass hier der Frosch die Locken hat. Dann kannst du es natürlich vergessen. Eigentlich ist das Fake, wenn man dann behauptet man hätte es kostengünstig trainiert - meine ich zumindest. Was mich wirklich interessiert und deshalb lese ich über Deepseek: Das Ding wurde wohl auf H800 statt H100 Prozessoren trainiert, was natürlich einen schönen Preissprung und einen Sprung im Energieverbrauch ausmacht. Fazit: Immer schön skeptisch bleiben :Lachen2: :Blumen: |
Zitat:
https://www.handelsblatt.com/technik...100104124.html Stay tuned… :Blumen: |
Zitat:
Der eine zeigt: Meine Technologie ist besser! Die andere Seite kontert: Alles nur abgekupfert! War schon immer so. :Blumen: |
Der ganze USA-China High-Tech., Daten- / Plattform-Streit nimmt manchmal auch unerwartete Wendungen, wie im Falle des Verbots von Tik-Tok in den USA.
Zitat:
Ähnlich berichten USA-Influencer begeistert auf Youtube, dass sie bei Deepseek eine Kombination der chinesischen und amerikanischen Kultur erhalten, weil erstere bei Chatgpt fehlen würde. :Cheese: |
Zitat:
Man kann ja immer noch kleine Modelle trainieren, die einen bestimmten Zweck erfüllen, z.B. im Gesundheitswesen. Dafür braucht es weder OpenAI noch DeepSeek. Die Daten haben wir ja. Wobei es mir lieber wäre, hätten wir parallel auch selbst so ein Mammutmodell. Es ist immer besser, wenn man selbst die Kontrolle hat. :Blumen: |
Alle Zeitangaben in WEZ +2. Es ist jetzt 09:10 Uhr. |
Powered by vBulletin Version 3.6.1 (Deutsch)
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.