Zitat:
Zitat von Jimmi
Der Zugang zu der für die Entscheidungs- und Lösungsfindung nötigen Daten ist durch das www ja auf dem Silbertablett da.
[...]
Welche Fortschritt machen neuronale Netze?
|
Das ist wahrscheinlich ein Irrtum. Banal: Die guten Daten sind mehr oder weniger schon abgegriffen und der Rest im Internet ... naja.
Hintergrund: Die aktuellen generativen Modelle sind wenigstens um den Faktor 100 aber möglicherweise bis weit über den Faktor 1000 hinaus untertrainiert. D.h., dass die Leistung der Modelle nicht oder nur kaum wächst - zumindest nicht wie man es erwarten würde, selbst wenn ein x-faches der als optimal geltenden Trainingstoken verwendet wird. Man nimmt an, dass die Trainingsdauer und die Qualität der Trainingsdaten einen entscheidenden Einfluss hat.
Diese Situation ist auch der Grund, warum Modelle tendenziell kleiner werden und trotzdem mit den vielen Trainingsdaten trainiert werden, obwohl die eigentlich nach den "Skalierungsgesetzen" mit viel weniger Trainignsdaten "auskommen" sollten.
Anders formuliert: Leistungssprünge sind nicht mehr dadurch zu erwarten, dass die Modelle immer größer werden, sondern dadurch, dass kleinere ggf. spezialisierte Modelle mit immer mehr hochwertige Trainingsdaten trainiert werden. Dafür wiederum ist aber der qualitativ hochwertige Datenbestand im Internet halt "zu endlich"
Beim Feintuning kleinerer Modelle (ich meine damit z.B. 8B statt 70B Modelle) bewegt man sich gerne mal am Limit des sog. "overfitting". D.h. Modelle werden im Wunsch der Optimierung zu stark an die Trainingsdaten angepasst und tendieren dann dazu, immer mit Standardantworten zu reagieren, weil es die quasi "auswendig gelernt" hat.
Weiter gibt es das Problem, dass man "feedback loops" nennt. Das tritt dann auf, wenn generative KIs mit Daten trainiert wurden, die von anderen KIs erzeugt wurden. Am Ende "lebt" das Modell quasi in einer Bubble und erzählt nur Mist
ChatGPT und überhaupt große LLMs sind ziemlich gehypt. NNs gibt es ja schon länger und die Kerninnovation der "GPTs" ist das "T" - der Transformer. Es gibt das "Ur-Paper" hier zu von google aus dem Jahr 2017:
Attention is all you need.
Fazit: Die Datenmenge im Internet ist begrenzt, insbesondere die Menge der qualitativ hochwertigen Informationen. Die Leistung solcher Systeme skaliert grundsätzlich mit Rechenpower und Datenmengen. Letztere sind wie gesagt begrenzt und ersteres ist der Grund, warum immer mehr, größere und leistungsfähigere Rechenzentren gebaut werden - mit immer mehr Energiebedarf und flankierenden Atomkraftwerken und Wasserversorgungen. Kotzen darf man gerne später
Der Trend ist ein anderer: Man baut Softwaresysteme, die aus vielen kleinen Agenten bestehen und zentral von einem kleinen Sprachmodell (das leistungsmäßig durchaus auf einem iPhone laufen kann) gesteuert werden.
Zitat:
Zitat von Jimmi
Gerade im Bereich Programmierung liefert chatGPT doch sehr gute Ergebnisse.
|
Nein. Definitiv nicht. Das ist auf dem Niveau eines Einsteigers ohne Berufserfahrung. Die Daten für den Bereich kommen hauptsächlich aus GitHub und aus Reddit. Wer ernsthaft Software Engineering und Softwareentwicklung betriebt, der weiß welcher Mist da oft drin steht.
