Zitat:
Zitat von keko#
Technisch geht das so, dass die gehörten Wörter in sog. Tokens (Triathlon wird möglicherweise zerlegt in "Tri" und "athlon") zerlegt werden und die KI durch millionenfaches Training gelernt hat, dass manche Tokens im Kontext eines Satzes wichtiger sind als andere. Sie berechnet letztendlich nur Wahrscheinlichkeiten, "verstehen" tut sie gar nichts, obwohl sie aber bei dem Satz "I buy an apple" aus dem Kontext heraus erkennt, ob es ein Handy oder ein echter Apfel ist.
|
In dem Beispiel von Arne sind zwei Dinge interessant: 1. Erkennen von Inhalten aus Ausiostreams. 2. „bessere Erinnerung“.
„Früher“ hat man Speech-to-Text Modelle eingesetzt um aus Audiostreams Text zu machen. Dann hat man den in ein LLM gesteckt und das spuckt dann wieder aus. Das LLM arbeitet so wie du beschreibst. Nebenbei: Wollte man dann Audio-Out haben, hat man den Text in ein Text-To-Speech Modell gesteckt. Viele KI Telefonsysteme funktionieren so. Das nervt allerdings etwas

undzwar, weil…
Nachteile dieses Verfahrens sind: Latenz, „dreinreden/unterbrechen“ schwierig, Emotionen gehen verloren.
OpenAI hat mittlerweile eine Schnittstelle, die sich „Real-Time API“ nennt. Vor n paar Monaten war die noch public Beta. Den aktuellen Status kenne ich nicht, ehrlich gesagt. Damit geht es nun so, dass Audio streams direkt ins Modell gesteckt werden können und es kommen auch direkt wieder Audio Streams raus.
Eine weiterer interessanter Aspekt ist, dass das von dir „das eine is wichtiger als das andere“ (also der
Attention Mechanismus) aus Sicht der Informatik teuer ist. Die Idee ist nun ein auf Transformer Attention basierendes „Kurzzeitgedächtnis“ zu implementieren und eine effiziente Abbildung eines „Langzeitgedächtnis“ („Titans“) zu realisieren. Das Paper hierzu is: Titans: „
Learning to Memorial at Test time.“
Ich meine chatGPT nutzt das (zumindest für zahlende Kunden) bereits.
