triathlon-szene.de

Feanor · 28.01.2025, 14:34

Habt Ihr Deepseek schon mal nach einer Zusammenfassung der Ereignisse auf den Tiananmen Square gefragt?
Er meint, dass würde seine Kompetenz übersteigen

(zumindest gestern Abend noch)

qbz · 28.01.2025, 15:10

Zitat:

Zitat von Feanor

Habt Ihr Deepseek schon mal nach einer Zusammenfassung der Ereignisse auf den Tiananmen Square gefragt?
Er meint, dass würde seine Kompetenz übersteigen

(zumindest gestern Abend noch)

Bei chatgpt bin ich auch auf Grenzen gestossen bei folgender Aufgabe: Ich wollte ein Bild generieren: Stil "John Heartfield", Thema: "Es soll zeigen, dass Menschen über Aktienkurse der Rüstungsfirmen im Krieg an der Zerstörung und dem Leid Geld verdienen."
Auf Nachfrage teilte die KI dann ihre Content-Richtlinien mit, u.a.
"2. Verbindung von Profit und Leid: Obwohl dies ein wichtiges Thema ist, könnten Darstellungen, die Menschen direkt mit Krieg und Gewinnsucht in Verbindung bringen, als unangemessen oder polarisierend angesehen werden, vor allem wenn sie reale Unternehmen oder Personengruppen symbolisieren."

keko# · 28.01.2025, 15:32

Eine mir bekannte Person hat mal die Idee eines eWehrdienstes aufgebracht. Wir diskutierten darüber, dass man damit wohl viele Jugendliche für den Kriegsdienst gewinnen könne. Ich habe damals auch gleich eine Figur entworfen.

Helmut S · 28.01.2025, 16:07

Ich empfehle, die Dinge soweit es möglich ist und man das kann, selbst zu testen. Nicht alles, was man so liest und hört, entpuppt sich bei genauerem hinsehen als tatsächlich stichhaltig. Gerade was Benchmarking anbelangt, kommt man auch schon mal bei dem einen oder anderen Modell und dem einen oder anderen Benchmark drauf, dass hier sowas wie beim "VW Prüfstands Modus" passiert ist.

---------------------------------

Wen es interessiert:

Wer sich etwas detaillierter mit Deepseek beschäftigt, stellt fest, dass die überraschend niedrigen Kosten (~5,3 Mio USD) für die Pre-Tuning Phase des Modells anfielen. Jedoch(!) und das wird gerne übersehen, wurden wohl erheblich Vorarbeiten zu völlig unbekannten Kosten geleistet.

In dem Satz "Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1, achieved through our optimized co-design of algorithms, frameworks, and hardware. " im Paper drückt sich das aus. Ich nehme zunächst an, dass die Quadratur des Kreises nicht doch noch entdeckt wurde

Das Wesentliche ist, dass Teil ist ein "Mixture of Expert" (MoE) Modell. Vereinfacht gesagt, eine Ansammlung von kleinen Modellen im Modell, die auf bestimmte Aufgaben spezialisiert sind und vorher entschieden wird, welche Modelle (Modellteile) tatsächlich Verwendung finden. Neu ist das nicht, dass gab es schon bei GPT-4. Nach meinem jetzigen Wissensstand ist der Bringer, dass die Chinesen einen Weg gefunden haben, sehr effizient zu entscheiden, welchem Modellteil die Expertise am Ende überlassen wird. Wie genau, habe ich noch nicht raus gefunden.

Schließlich gibt es noch zwei Technologien in dem Modell, die zu weniger Speicherverbrauch führen. Das eine ist eine geringere Präzision der Parameter (FP-8) und das andere ist Technologie, die es erlaubt mehrere Kontexte effizient zu speichern (Multi-Head Latent Attention - MLA)

So weit, so normal. Nun kommt aber das eigentliche Ding: Es ist überhaupt nicht klar, dass die Chinesen nicht etwa ein bestehendes Modell genommen haben um ihr eigenes zu trainieren. Sowas führt dazu, dass das zweite Modell zwar nicht so gut ist, aber es geht schneller zu trainieren und ist effizienter. Was ich bisher gelesen habe, schaut das schon danach aus, dass hier der Frosch die Locken hat. Dann kannst du es natürlich vergessen. Eigentlich ist das Fake, wenn man dann behauptet man hätte es kostengünstig trainiert - meine ich zumindest.

Was mich wirklich interessiert und deshalb lese ich über Deepseek: Das Ding wurde wohl auf H800 statt H100 Prozessoren trainiert, was natürlich einen schönen Preissprung und einen Sprung im Energieverbrauch ausmacht.

Fazit: Immer schön skeptisch bleiben

Helmut S · 29.01.2025, 13:28

Zitat:

Zitat von Helmut S

Nun kommt aber das eigentliche Ding: Es ist überhaupt nicht klar, dass die Chinesen nicht etwa ein bestehendes Modell genommen haben um ihr eigenes zu trainieren. Sowas führt dazu, dass das zweite Modell zwar nicht so gut ist, aber es geht schneller zu trainieren und ist effizienter. Was ich bisher gelesen habe, schaut das schon danach aus, dass hier der Frosch die Locken hat. Dann kannst du es natürlich vergessen. Eigentlich ist das Fake, wenn man dann behauptet man hätte es kostengünstig trainiert - meine ich zumindest.

Hahaha

https://www.handelsblatt.com/technik...100104124.html

Stay tuned…

Adept · 29.01.2025, 14:00

Zitat:

Zitat von Helmut S

Hahaha

https://www.handelsblatt.com/technik...100104124.html

Stay tuned…

Für mich typischer Cyber-Krieg, um den anderen schlecht zu machen.

Der eine zeigt: Meine Technologie ist besser!
Die andere Seite kontert: Alles nur abgekupfert!

War schon immer so.

qbz · 29.01.2025, 14:11

Der ganze USA-China High-Tech., Daten- / Plattform-Streit nimmt manchmal auch unerwartete Wendungen, wie im Falle des Verbots von Tik-Tok in den USA.

Zitat:

"Trump hat jedoch gute Gründe für diese Entscheidung (das Tik-Tok Verbot bzw. der Zwangsverkauf aufzuschieben), nicht zuletzt, weil, wie er zugibt, die Plattform wesentlich zu seinem Wahlsieg beitrug. Es gibt aber auch einen weiteren Grund: die für die Gesetzgeber wohl völlig unerwartete Reaktion der 170 Millionen verärgerten amerikanischen TikTok-User. Der Unmut über staatliche Bevormundung und die Gefahr, dass ihre gesamte kreative Arbeit der letzten Jahre zerstört werden könnte, bewog diese nicht etwa dazu, auf eine amerikanische App auszuweichen. Nein, man ging als „TikTok-Flüchtling“ zur chinesischen Konkurrenz von TikTok über. In der Woche vor dem Inkrafttreten des Urteils trendete der Hashtag #tiktokrefugee mit mehr als 100 Millionen Klicks. Und die bei weitem am häufigsten heruntergeladene App der Woche wurde das chinesische Portal Xiaohongshu (XHS-Little Red Book) bzw. RedNote.

Inzwischen haben über eine Million US-Amerikaner diese App installiert. Mütter sollen berichten, dass ihre Kinder auf dem Weg zur Schule im Auto Mandarin lernen (die App war anfangs nicht auf englisch-sprachige User eingestellt, sodass diese auf die Übersetzungsfunktion zurückgreifen müssen). Und der Journalist Ryan Grimm witzelte auf X (vermutlich in Anlehnung an die von Techbro Vivek Ramaswamy angestoßene Diskussion über die fehlende Arbeitsmoral der Amerikaner): „Meine Kinder arbeiten mit RedNote, und schon jetzt hat sich die kindliche Ehrerbietung in unserem Hause deutlich verbessert.“.......

https://makroskop.eu/03-2025/der-grosse-tiktok-moment/

Ähnlich berichten USA-Influencer begeistert auf Youtube, dass sie bei Deepseek eine Kombination der chinesischen und amerikanischen Kultur erhalten, weil erstere bei Chatgpt fehlen würde.

keko# · 29.01.2025, 16:04

Zitat:

Zitat von Helmut S

Hahaha

https://www.handelsblatt.com/technik...100104124.html

Stay tuned…

Da muss man mal abwarten, ist gerade viel Wirbel und Hype.

Man kann ja immer noch kleine Modelle trainieren, die einen bestimmten Zweck erfüllen, z.B. im Gesundheitswesen. Dafür braucht es weder OpenAI noch DeepSeek. Die Daten haben wir ja.

Wobei es mir lieber wäre, hätten wir parallel auch selbst so ein Mammutmodell. Es ist immer besser, wenn man selbst die Kontrolle hat.

Durchbruch: Was wirklich schneller macht

triathlon-szene.de

Social

Coaching

Trainingslager

Events

TV-Sendung

Racewear

Rechner