Navigation: 🐟 Teil 1 - 🐟 Teil 2 - 🐟 Teil 3 - 🐟 Teil 4 - 🐟 Fische für ChatGPT? Loading ⌛Loading ⌛

🐟 Was können wir von den Fischen über KI im Allgemeinen lernen?

Nachdem du 👩‍🦰 Sigrún erfolgreich helfen konntest, erweiterst du deinen Horizont, indem du überlegst, was du aus der Fischklassifikation für künstliche Intelligenz im Allgemeinen lernen kannst. Dafür vergleichst du als Zwischenschritt das neuronale Netz für die Fischklassifikation (Fisch-NN) mit aktuellen KI-Chatbots.

Inhaltsverzeichnis

1. Funktionsweise
- 1.1 Anwenden
- 1.2 Trainieren
2. Herausforderungen
3. Limitationen
4. Fazit

1. Funktionsweise

💡 Um die Funktionsweise einer KI zu verstehen, wird das Fisch-NN aus den vorangegangenen vier Kapiteln mit einem KI-Chatbot verglichen. Obwohl beide Beispiele hauptsächlich auf neuronalen Netzen basieren, können die Einsichten auch auf die meisten anderen KI-Arten übertragen werden. In diesem Teil werden die Begriffe KI und neuronale Netze mehr oder weniger als Synonyme verwendet.

💡 Eine KI besitzt zwei Betriebsmodi. Im Anwendungsmodus wird die KI angewendet, d. h., sie produziert für jeden Input einen Output. Dabei wird die KI nicht verändert (die Gewichte ändern nicht). Im Trainingsmodus wird die KI „schlau gemacht“. Das bedeutet in der Regel, dass diese trainiert wird. Dabei wird die KI verändert (die Gewichte ändern sich).

In den nachfolgenden zwei Unterkapiteln werden beide Modi beschrieben.

1.1 Anwenden

🐟 Fisch-NN: Im Anwendungsmodus können mit dem Fisch-NN unbekannte Fische entweder als Hering oder Lodde klassifiziert werden.; Zuerst wird der unbekannte Fisch vermessen, um die Werte für die benötigten Eingangsgrössen zu erhalten. Diese Werte bilden die Eingabe in das neuronale Netz. Die Ausgabe des neuronalen Netzes ist ein einziger Ausgabewert. Je nach Grösse dieses Ausgabewerts wird der Fisch, wie in der Abbildung gezeigt, als Hering oder Lodde klassifiziert.

💬 KI-Chatbot: Im Anwendungsmodus kann ein KI-Chatbot Antworten auf eingegebene Fragen generieren.; Du gibst einen Fragetext ein. Der KI-Chatbot besitzt ein Wörterbuch mit sogenannten „Tokens“ (das sind kurze Wörter oder Wortteile). In einem Vorverarbeitungsschritt wird dein Eingabetext mithilfe der Tokens in Zahlen verwandelt. Hinzu kommen Zahlen, welche ausdrücken, in welcher Reihenfolge die Tokens in der Eingabe vorkommen, welche Bedeutungen die einzelnen Tokens haben und welche dieser Tokens von ihrer Bedeutung her zusammengehören. All diese Zahlen zusammen bilden die Eingangswerte, welche von mehreren (nacheinander geschalteten) neuronalen Netzen verarbeitet werden. Am Ende dieser Verarbeitungskette werden viele Zahlen gleichzeitig ausgegeben, konkret eine Zahl für jedes Token im Wörterbuch. Jede dieser Zahlen stellt die Auswahl-Wahrscheinlichkeit für das betreffende Token dar. Für den letzten Schritt werden nur diejenigen Tokens mit der grössten Auswahl-Wahrscheinlichkeit berücksichtigt. Aus Sicht der neuronalen Netze stellt diese Token-Auswahl diejenigen Eingabetext-Fortsetzungen dar, welche am besten zu den Texten passen, mit welchen trainiert wurde. Mit einem „gezinkten“ Würfel wird schliesslich ein Token aus der Token-Auswahl zufällig ausgewählt. „Gezinkt“ bedeutet hierbei, dass Tokens mit einer höheren Auswahlwahrscheinlichkeit eine grössere Chance bekommen, gewählt zu werden.; Details zur Temperatureinstellung bei KI-Chatbots (bei Interesse anklicken)

Bei den meisten KI-Chatbots lässt sich eine sogenannte „Temperatur“ einstellen. Die Wahl der Temperatur wirkt sich darauf aus, wie stark der Würfel zur Auswahl des Tokens gezinkt wird. Ist die Temperatur gleich null, so wird dem Token mit der grössten Auswahl-Wahrscheinlichkeit eine Auswahl-Wahrscheinlichkeit nahe 100% gegeben und allen anderen Token eine Auswahl-Wahrscheinlichkeit nahe 0%. Somit wird praktisch immer das Token mit der höchsten Auswahl-Wahrscheinlichkeit ausgewählt (wie mit einem maximal gezinkten Würfel, der immer eine 6 würfelt). In der Folge wird bei Temperatur null für exakt denselben Prompt praktisch immer exakt dieselbe Antwort generiert. Wird eine Temperatur grösser als null gewählt, werden in der Regel auch andere Tokens ausgewählt. Das hat zur Folge, dass für denselben Prompt in der Regel unterschiedliche Antworten generiert werden. Bei einer sehr hohen Temperaturwahl werden die Auswahlwahrscheinlichkeiten der Tokens stark einander angeglichen, womit alle Tokens in der Token-Auswahl eine ähnlich grosse Auswahlchance bekommen (wie mit einem fairen, kaum gezinkten Würfel). Dabei können sehr unterschiedliche Texte entstehen, unterschiedlich im Inhalt, aber auch unterschiedlich in der Qualität. Je kleiner die Temperatur gewählt wird, desto kleiner ist die Chance, dass neben dem Token mit der grössten Auswahl-Wahrscheinlichkeit auch andere ausgewählt werden (stark gezinkter Würfel). Die so generierten Antworten werden ähnlich sein in Inhalt und Qualität. Je grösser die Temperatur gewählt wird, desto eher werden auch andere Tokens aus der Token-Auswahl berücksichtigt (schwach gezinkter Würfel). Die so generierten Antworten werden vielfältiger sein in Inhalt und Qualität. Je nach Anwendung kann eine tiefere oder höhere Temperatur wünschenswert sein.

🤖 KI im Allgemeinen: Die Aussage im Auftrag ist für neuronale Netze formuliert, trifft aber auch für die meisten anderen KI-Systeme zu.

✍ Auftrag

Ersetze im Text die 🤖 in den [🤖] durch folgende Wörter, welche du natürlich grammatikalisch an den Text anpasst:
Ausgabe, Eingabe, Gewicht, Training Set.
⚠️ Jedes Wort kann hier nur einmal verwendet werden, die [ ] sollten stehen gelassen werden, dann ist auch nach dem Ausfüllen klar, wo die Lücke war.

Loading ⌛

1.2 Trainieren

🐟 Fisch-NN: Im Trainingsmodus werden für das Training des Fisch-NN sogenannte „Samples“ verwendet. Jedes Sample bezeichnet einen Fisch. Ein Sample besteht aus den Eingangswerten des Fischs und seinem desired Output, d. h. dem gewünschten Ausgangswert, welchen das Fisch-NN idealerweise produzieren sollte. Das Fisch-NN berechnet für jeden Fisch im Training Set einen Ausgangswert und vergleicht diesen mit dem zugehörigen desired Output. Aus der Differenz wird ein Fehler berechnet und basierend darauf werden die Gewichte angepasst.; Das Fisch-NN lernt dabei nicht die einzelnen Samples im Training Set auswendig, es erlernt einen ungefähren Zusammenhang zwischen den Eingangsgrössen und dem desired Output (die rote decison Boundary in der Abbildung).

💬 KI-Chatbot: Im Trainingsmodus wird ein KI-Chatbot mit öffentlichen Texten aus dem Internet, redaktionellen Texten (Zeitschriften, Büchern etc.) und vergangenen Nutzerdialogen sowie Eingaben und Textbeurteilungen von Menschen trainiert. Das Training wird in mehreren unterschiedlichen Phasen durchgeführt. Dabei werden die Texte nicht auswendig gelernt, es wird gelernt, wie ein Text typischerweise fortgesetzt wird.; In der ersten Trainingsphase (dem Pre-Training) werden so viele Textdaten verwendet, wie möglich. Es wird jeweils eine Textpassage dem KI-Chatbot eingegeben. Daraufhin gibt der KI-Chatbot für jedes Token eine Zahl aus, welche als Auswahlwahrscheinlichkeit angesehen wird. Der entsprechende desired Output sieht so aus, dass das tatsächlich im Text als Nächstes vorkommende Token die Auswahl-Wahrscheinlichkeit 100 % trägt und alle anderen Tokens die Wahrscheinlichkeit 0%. Basierend auf der Abweichung der Ausgabe des KI-Chatbots vom desired Output werden die Gewichte angepasst. Diese Trainingsphase dauert lange (Monate) und macht den Löwenanteil des Stromverbrauchs für das Training eines KI-Chatbots aus.; Danach folgt die zweite Trainingsphase, das Fine-Tuning, welches in mehreren Schritten vollzogen wird. Das Fine-Tuning wird mit deutlich kleineren, von Menschen handverlesenen und speziell für diesen Zweck erstellten Text-Datensätzen durchgeführt. Es lässt sich daher schneller (Tage) mit geringerem Stromverbrauch realisieren. Jedoch ist das Erstellen dieser Datensets aufwändig und zeitintensiv.; Details zum Fine-Tuning (bei Interesse anklicken)

Schritt 1: Beim Fine-Tuning werden in einem ersten Schritt die Gewichte des KI-Chatbots aus dem Pre-Training mit einem handverlesenen Text-Datensatz nachtrainiert, damit KI-Chatbot-Antworten generiert werden, welche möglichst gut zu den eingegebenen Fragen passen und möglichst natürlich wirken.

Schritt 2: In einem zweiten Schritt werden mit dem KI-Chatbot aus Schritt 1 zu mehreren handverlesenen Eingabetexten jeweils mehrere Antworten generiert. All diese Antworten werden von Menschen mit einer Art Schulnote beurteilt. Mit den Antworten des KI-Chatbots und den Schulnoten wird ein zweites, zusätzliches neuronales Netz so trainiert, dass dieses am Ende die Antworten des KI-Chatbots möglichst genau so beurteilt, wie die Menschen das gemacht hatten (quasi eine Benotungs-KI).

Schritt 3: Im dritten und letzten Schritt werden die Gewichte des KI-Chatbots ein zweites Mal nachtrainiert, und zwar so, dass Antworten generiert werden, welche von der zuvor erstellten Benotungs-KI möglichst gute Noten bekommen⁴⁾. Dieser dritte Schritt sorgt dafür, dass möglichst plausible und möglichst wenige unerwünschte Antworten (Fluchwörter, rassistische Aussagen etc.) generiert werden.

🤖 KI im Allgemeinen: Die Aussage im Auftrag ist für neuronale Netze formuliert, trifft aber auch für die meisten anderen KI-Systeme zu.

✍ Auftrag

Ersetze im Text die 🤖 in den [🤖] durch folgende Wörter, welche du natürlich grammatikalisch an den Text anpasst:
Ausgabe, Gewicht, Training Set.
⚠️ Jedes Wort kann mehrfach vorkommen, die [ ] sollten stehen gelassen werden, dann ist auch nach dem Ausfüllen klar, wo die Lücke war.

Loading ⌛

2. Herausforderungen

💡 Das Konstruieren, Trainieren und Anwenden einer KI ist in der Praxis mit zahlreichen Herausforderungen verbunden. Diese werden in den folgenden vier Unterkapiteln genauer vorgestellt.

2.1 Datensatz zusammenstellen

🐟 Fisch-NN: Für das Training und das Beurteilen des Fisch-NN müssen Fische beider Fischsorten (Lodde und Hering) berücksichtigt werden, welche alle in der Natur vorkommenden Werte aller Eingangsgrössen abdecken (in der Abbildung sind einige Fische aus dem Fisch-NN-Datensatz dargestellt).

💬 KI-Chatbot: Für das Training eines KI-Chatbots, der freundlich und qualitativ hochwertig antworten soll, werden freundliche und qualitativ hochwertige Texte benötigt. Wird ein KI-Chatbot mehrheitlich mit fremdenfeindlichen Texten trainiert, so wird er auf die meisten Fragen mit fremdenfeindlichen Aussagen antworten. KI-Chatbots werden mehrheitlich mit Texten aus dem Internet trainiert. Diese sind häufig bezüglich Meinungen und Ansichten nicht neutral. Als Folge davon kann ein KI-Chatbot ebenfalls nicht als neutral bezeichnet werden.; Für das Pre-Training des dafür genutzten, riesigen neuronalen Netzes wird eine Unmenge von Texten benötigt. Werden zu wenige Texte verwendet, tendiert ein so grosses neuronales Netz dazu, die Trainingsdaten auswendig zu lernen (das wird als Overfitting bezeichnet). Die benötigte Textmenge ist zu gross, um diese von Hand zusammenstellen oder aussortieren zu können. Daher kommen auch viele qualitativ schlechte Texte beim Pre-Training zum Einsatz. Es ist unklar, ob alle geeigneten, von Menschen verfassten, digital verfügbaren Texte genügen, um in Zukunft weitere noch umfangreichere KI-Chatbots zu trainieren. Hinzu kommt, dass Menschen mittlerweile auch von KI-Chatbots verfasste Texte im Internet veröffentlichen, welche somit voraussichtlich auch für das Training zukünftiger KI-Chatbots berücksichtigt werden. Es ist ebenso unklar, inwieweit sich die Qualität der KI-Chatbots verringern wird, wenn für das Training zusätzlich eine grössere Menge KI-generierte Texte zum Einsatz kommt.; Im Fine-Tuning-Prozess wird versucht, dem KI-Chatbot mit relativ wenigen, qualitativ hochwertigen Texten „nachträglich“ ein gewünschtes Verhalten einzuimpfen. Leider ist davon auszugehen, dass die Menschen, welche diese Daten zusammenstellen, häufig schlecht bezahlt (z. B. wenige Franken Stundenlohn) und leistungstechnisch unter Druck gesetzt werden. Hinzu kommt, dass sie insbesondere auch unerwünschte, zum Teil sehr belastende Inhalte sichten und kennzeichnen müssen. Seit der Veröffentlichung leistungsfähiger KI-Chatbots ist davon auszugehen, dass KI-Chatbots von den Betroffenen genutzt werden, um die Arbeit schneller und erträglicher erledigen zu können. Das würde bedeuten, dass auch im Fine-Tuning die KI manchmal von einer KI trainiert wird.

🤖 KI im Allgemeinen: ⚠️ Ein neuronales Netz kann nur so gut sein wie die Daten, mit welchen es trainiert wurde. Wird ein neuronales Netz mit Müll trainiert, wird es Müll produzieren. In den meisten Fällen braucht es Fachwissen aus dem Anwendungsbereich, um gute Datensätze zusammenstellen zu können.

✍ Auftrag

Im nachfolgenden Programm wird ein Fisch-NN nur mit „kleinen“ Fischen trainiert (Training Set links). Geprüft, wie gut das Fisch-NN ist, wird jedoch mit kleinen und grossen Fischen (Validation Set rechts).

Starte das Programm und halte im Textfeld fest, wie du die Qualität dieses Fisch-NN beurteilst.
Halte ebenso im Textfeld fest, was dies für das Zusammenstellen von Datensets für das Trainieren und Beurteilen von neuronalen Netzen im Allgemeinen bedeutet.

Loading ⌛

2.2 Eingangsgrössen finden

Abbildung 5: Mögliche Eingangsgrössen Fisch-NN ⁶⁾

🐟 Fisch-NN: Das Fisch-NN unterscheidet verschiedene Fischarten anhand von Eingangswerten (z. B. Gewicht und Lichtreflexivität, wie in der Abbildung). Wenn die Eingangsgrössen die Unterschiede zwischen den zu unterscheidenden Fischsorten gut abbilden, so sind die Eingangsgrössen gut gewählt. Sind die Eingangsgrössen unpassend gewählt, versagt jedes noch so gute Verfahren. (Z. B. können die Fische schlecht aufgrund der Uhrzeit von den aktuellen Lottozahlen zum Zeitpunkt der Messung unterschieden werden.); Welche und wie viele Eingangsgrössen es braucht, kann in der Regel nicht im Voraus gesagt werden. Die Eingangsgrössen sollten sich ergänzen. Zu wenige führen zu schlechten Resultaten und zu viele können das Lernen erschweren.

💬 KI-Chatbot: Neuronale Netze können nur Zahlen verarbeiten. Dazu wird der Eingabetext in sogenannte „Tokens“ unterteilt. Das können kurze Wörter, Wortteile von längeren Wörtern und verbleibende Buchstaben oder Satzzeichen sein. Jedes Token wird durch eine andere Zahl dargestellt, um den Text vollständig in Zahlen zu verwandeln. Doch damit nicht genug: Für jedes Token werden noch mehrere weitere Zahlen als Eingangswerte mit eingegeben (hierbei wird von „Embedding“ gesprochen). Diese zusätzlichen Zahlen teilen dem neuronalen Netz mit, welche Bedeutung die einzelnen Tokens haben und was somit das Thema des eingegebenen Texts sein könnte. Wie viele und welche Tokens es braucht und welche Embeddings geeignet sind, ist aktuelles Forschungsthema.; Details zu Tokens und Embedding (bei Interesse anklicken)

In einem ersten Schritt wird ein Wörterbuch erstellt aus kurzen, häufigen Wörtern, Wortteilen längerer Wörter, einzelnen Buchstaben und Satzzeichen sowie speziellen Zeichen, z. B. für Textanfang, Textende und Kennzeichnungen für Wortteile, welche nicht am Anfang eines Wortes stehen. Jeder Eintrag in diesem Wörterbuch wird als „Token“ bezeichnet und trägt eine eigene Nummer. Somit kann auch ein mehrsprachiger Text mit Schreibfehlern und Emojis vollständig in Zahlen übersetzt werden. Token-Wörterbücher werden im Voraus automatisiert durch statistisches Auswerten grosser Textmengen erstellt und anschliessend für das Training und die Anwendung von KI-Chatbots verwendet. OpenAIs GPT-4o nutzt ein Wörterbuch von knapp 200'000 Tokens.

In einem zweiten Schritt wird die Bedeutung eines jeden Tokens in Zahlen ausgedrückt. Vereinfacht kann man sich das so vorstellen, dass eine Liste mit allen möglichen Themen erstellt wird und für jedes Token und jedes Thema gezählt wird, wie häufig dieses Token in einem Text zu diesem Thema vorkommt. Diese zusätzlichen Zahlen zu jedem Token (in der Regel mehrere Tausend Zahlen pro Token) werden als „Embedding“ bezeichnet. Ähnliche Wörter weisen ein ähnliches Embedding auf, Wörter, die wenig miteinander zu tun haben, ein unterschiedliches. Ein Embedding kann mithilfe grosser Textmengen vor dem Training eines KI-Chatbots automatisiert „erlernt“ oder während des Trainings eines KI-Chatbots (Pre-Training und Fine-Tuning) mitgelernt werden.

Moderne KI-Chatbots gehen noch einen Schritt weiter. Es werden nicht nur die Embeddings für die einzelnen Tokens als Eingabe für die neuronalen Netze berücksichtigt, es wird auch in Zahlen ausgedrückt, welche Tokens im Eingabetext wie zusammengehören und welche Textbedeutungen sich daraus ergeben. Dieses zusätzliche Embedding wird während des Trainings des KI-Chatbots mitgelernt.; Warum können KI-Chatbots verschiedene Sprachen? (bei Interesse anklicken)

Für das Training von KI-Chatbots werden Texte verschiedener Sprachen verwendet. Da jedoch deutlich mehr Texte in Englisch digital verfügbar sind, als in allen anderen Sprachen, ist die englische Sprache im Trainingsprozess vorherrschend. Weiter werden Tokens verwendet, welche mehrere Sprachen abbilden können, und die Mehrsprachigkeit wird auch beim Lernen der Embeddings berücksichtigt, welche die Bedeutung eines jeden Tokens in der Regel mit mehreren Tausend Zahlen ausdrücken. Durch diese Embeddings können verschiedene Sprachen erkannt und Wörter verschiedener Sprachen mit ähnlichen Bedeutungen einander zugeordnet werden. Es scheint so zu sein, dass wenn Embeddings für eine Sprache gut gelernt werden (Englisch), diese dann „relativ einfach“ für andere Sprachen erweitert werden können (d. h. mit relativ wenigen Daten der anderen Sprachen). Trotzdem produzieren die KI-Chatbots im Endeffekt qualitativ bessere Antworten in Englisch als in allen anderen Sprachen.

🤖 KI im Allgemeinen: ⚠️ Die Wahl guter Eingangsgrössen ist für den Erfolg einer KI entscheidend. In den meisten Fällen braucht es Fachwissen aus dem Anwendungsbereich dazu, um gute Eingangsgrössen finden zu können. Z. B. kann eine Fischfachperson sicherlich gute Hinweise geben, anhand von welchen Eigenschaften sich verschiedene Fischsorten unterscheiden lassen, oder eine Person aus dem Bereich der Sprachwissenschaften kann wertvolles Fachwissen für das Finden von Tokens und Embeddings beisteuern.

✍ Auftrag

In diesem Auftrag testest du das Umwandeln eines Texts in Tokens und den zugehörigen Zahlen genauer an.

Öffne den "Tokenizer" von OpenAI.
Gib dort einen beliebigen Text in das erste Textfeld ein. Weiter unten siehst du ein Fenster mit den bunt dargestellten Tokens. Wenn du unten an den Tokens auf „Token IDs“ klickst, werden dir die zugehörigen Tokennummern angezeigt.
Kopiere einen Text und die zugehörigen Tokennummern in das Textfeld. Loading ⌛
Der folgende Text besteht aus dem ersten Token im Vokabular von GPT-4o und dem letzten Token im Vokabular von GPT-4o. Gib den Text in Tokenizer für GPT-4o ein und lasse dir die Token-IDs anzeigen. Dann siehst du, wie gross das Vokabular von GPT-4o ist.
! cocos

2.3 Fehlerfunktion bestimmen und interpretieren

Abbildung 6: Fisch-NN Fischklassifikation ⁷⁾

🐟 Fisch-NN: Das Fisch-NN wird aufgrund der Anzahl falsch klassifizierter Fische beurteilt, jedoch mit einer anderen Fehlerfunktion trainiert.⁸⁾.; Das Fisch-NN produziert eine Zahl zwischen 0 und 1 als Ausgangswert. Für die Beurteilung des Fisch-NN wurde zuerst festgelegt, dass alle Ausgangswerte < 0.5 als Hering und alle ≥ 0.5 als Lodde erkannt werden. Durch das Training konnte erreicht werden, dass rund 90 % aller Fische richtig erkannt werden, was jedoch als „unbrauchbar“ eingeschätzt wurde. Ein brauchbares Ergebnis wurde erst mit der Regel „< 0.3 ⇒ Hering, > 0.7 ⇒ Lodde und alles dazwischen ⇒ keine Ahnung“ erreicht. Diese Regel ist in der Abbildung dargestellt. Fische, welche in der blauen Region zu liegen kommen, werden fehlerfrei als Hering und in der grünen Region als Lodde erkannt. Fische in der weissen „keine Ahnung»-Region werden nicht klassifiziert (25% der Fische).; Für das Training wird der vom neuronalen Netz produzierte Ausgangswert mit dem gewünschten Ausgangswert (desired Output, für Hering 0, für Lodde 1) verglichen und daraus der Fehlerwert „MSE“ berechnet. Der MSE bestraft dabei grosse Abweichungen viel stärker als kleine. Inwieweit sich diese Fehlerfunktion wirklich zum Unterscheiden von Fischen eignet, ist eine berechtigte Frage.

💬 KI-Chatbot: Bei einem KI-Chatbot wird beurteilt, wie gut dieser Texte verstehen und Aufgaben richtig lösen kann. Trainiert wird dieser jedoch hauptsächlich mit anderen Fehlerfunktionen.; Die grossen KI-Chatbot-Hersteller testen und vergleichen ihre und andere KI-Chatbots mithilfe von verschiedenen „Benchmarks“, d. h. Sammlungen von Aufgaben, welche ein KI-Chatbot lösen muss. Es gibt Benchmarks, die aus Multiple-Choice-Aufgaben aus verschiedenen Wissenschaften bestehen (z.B. der MMLU-Benchmark), solche, die Text-Aufgaben aus der Mathematik umfassen (z.B. der GSM8K-Benchmark) oder andere, die das Textverständnis verschiedener Texte prüfen (z.B. der DROP-Benchmark). Da diese Benchmarks jedoch mittlerweile fast schon zu einfach sind, für die immer besser werdenden KIs, gilt (aktuell) das Humanity's Last Exam als ultimative Herausforderung. Dieser Benchmark besteht ausschliesslich aus Fragen, an welchen sich auch menschliche Experten schnell einmal die Zähne ausbeissen.

🤔 Das Problem mit diesen Benchmarks: Eine falsche Antwort oder die Antwort „keine Ahnung“ ergeben Null Punkte. Daher ist es aussichtsreicher für die KI's zu raten, als zu sagen, „Keine Ahnung“. Wer eine KI erstellen möchte, welche möglichst gut abschneidet, fördert wildes Raten (d.h. Halluzinieren) statt ehrlichen Antworten (z.B. „keine Ahnung“).

Beliebt ist auch das Chatbot Arena Leaderboard, welche eine stets aktuelle „Hitparade“ der KI-Chatbots aufgrund von Nutzerwertungen zeigt. Wenn du selber zum Leaderboard beitragen möchtest, gehe in die Chatbot Arena und gib einen Prompt ein. Dieser wird dann von zwei zufällig gewählten KI-Chatbots beantwortet. Danach wählst aus, welche Antwort du besser findest. Am Ende wird aufgelöst, welche zwei KI-Chatbots du befragt hattest.

🤔 Das Problem mit diesen Benchmarks: Je lieber, wohlwollender oder gar lobend die Antworten sind, desto eher gefallen sie den Personen, welche für die Chatbot Arena abstimmen. Wer eine KI erstellen möchte, welche möglichst gut abschneidet, fördert Lob und unkritische Rückmeldungen (auch wenn es vielleicht nicht gerechtfertigt ist).; Details zu den verwendeten Fehlerfunktionen (bei Interesse anklicken)

Trainiert werden die KI-Chatbots mit verschiedenen Fehlerfunktionen. Im Pre-Training geht es darum, das nächste Token in einem Text vorherzusagen. Dazu wird vom zugrundeliegenden neuronalen Netz für jedes Token im Token-Wörterbuch eine Zahl ausgegeben, die sogenannte Auswahl-Wahrscheinlichkeit. Die verwendete Fehlerfunktion ist so konstruiert, dass das neuronale Netz lernt, dem tatsächlich als Nächstes im Text vorkommenden Token eine möglichst grosse Auswahl-Wahrscheinlichkeit zu geben und allen anderen Tokens eine möglichst kleine. Dieses Vorgehen führt in der Praxis jedoch noch nicht zu den gewünschten Textantworten. Im darauf folgenden Fine-Tuning werden komplette, von KI-Chatbot erzeugte Textantworten mit einer zweiten KI beurteilt und der KI-Chatbot mithilfe einer komplexen Fehlerfunktion so nachtrainiert, dass dieser Texte mit einer möglichst hohen Beurteilung produziert. Obwohl diese Form von Fine-Tuning der Beurteilung mit Benchmarks schon relativ nahekommt, kann damit das Pre-Training nicht ersetzt werden. Das scheitert nur schon daran, dass dafür ungleich mehr handverlesene Texte benötigt werden würden, als irgendwie zur Verfügung gestellt werden könnten.

🤖 KI im Allgemeinen: ⚠️ Ein neuronales Netz löst kein Problem direkt. Um ein gewünschtes Problem zu lösen, wird während des Trainings stattdessen eine Fehlerfunktion minimiert. Passt die Fehlerfunktion zum Problem, kann ein gutes Resultat erzielt werden. Passt diese weniger, wird vielleicht irgendetwas anderes gelernt. Daher sollten die Resultate kritisch beurteilt werden. In den meisten Fällen braucht es Fachwissen aus dem Anwendungsbereich, um aussagekräftige Beurteilungskriterien und passende Fehlerfunktionen zu finden.

✍ Auftrag

In diesem Auftrag schaust du dir das Chatbot Arena Leaderboard genauer an.

Wie gut ist der KI-Chatbot den du normalerweise nutzt? Welches ist der aktuell stärkste KI-Chatbot? Trage die beiden KI-Chatbots mit der zugehörigen Platzierung ins Textfeld ein. Loading ⌛
Trage selbst zur Chatbot Arena bei, indem du hier (hier klicken) einen Prompt schreibst, der von zwei zufälligen KI-Chatbots bearbeitet wird. Danach kannst du die bessere der beiden Antworten auswählen und erfährst nach der Wahl, welche KI-Chatbots dir geantwortet hatten.

2.4 Modell wählen und trainieren

🐟 Fisch-NN: Als Fisch-NN wurde ein sogenanntes „Feedforward Neural Network“ mit zwei Input Neuronen, einem Output Neuron und einem Hidden Layer (eine Spalte Hidden Neuronen) verwendet (siehe Abbildung). Bereits mit drei Hidden Neuronen, was 11 Gewichten entspricht, konnten die besten Resultate erreicht werden. Das Training dauert auf einem normalen Laptop meist weniger als eine Minute.; Bei zu wenigen Hidden Neuronen (zwei oder eins) oder einem zu kurzen Training (zu wenigen Epochen) kann der Zusammenhang nicht vernünftig erlernt werden. Bei zu vielen Hidden Neuronen kann speziell bei einem langen Training ein Overfitting, d. h. „Auswendiglernen“ einzelner Fische, beobachtet werden.

💬 KI-Chatbot: Auch für die grossen neuronalen Netze in einem KI-Chatbot werden typischerweise Feedforward Neural Networks wie beim Fisch-NN verwendet, einfach etwas grössere. Sie umfassen typischerweise mehrere Millionen Input und Output Neuronen (für die Darstellung aller Tokens im Wörterbuch mitsamt der zugehörigen Embeddings) und mehrere Hidden Layer. Insgesamt wird die Anzahl der Gewichte grosser KI-Chatbots im Bereich von Milliarden geschätzt.; Eine Daumenregel besagt, dass rund 10 Mal mehr Trainingsbeispiele benötigt werden, als Gewichte, damit die Gefahr von Overfitting klein gehalten wird. Es wird vermutet, dass für die aktuellen, grossen KI-Chatbots bereits jetzt schon praktisch alle geeigneten digitalen Texte, welche die Menschheit bis dato produziert hat, benötigt wurden. Um solch grosse neuronale Netze mit so vielen Daten zu trainieren wird viel Rechengeschwindigkeit, Speicher, Strom und Zeit benötigt, was sehr teuer ist. Daher werden einerseits immer effizientere und günstigere Hardware entwickelt und andererseits für die Optimierung des Trainings tief in die Trickkiste gegriffen.; Details zum Training (bei Interesse anklicken)

Es gibt viele Tricks, um ein Training effizienter zu machen und Overfitting möglichst vermeiden zu können. Welche Tricks jeweils wie stark zum Einsatz kommen, variiert je nach KI-Chatbot. Zu diesen Tricks gehören unter anderem die folgenden In jedem Trainingsdurchgang nicht alle Trainingsdaten verwenden, sondern nur eine zufällige, aber jedes Mal andere Auswahl davon (schnelleres Training). Mit dem Training stoppen, bevor Overfitting auftritt (kürzeres Training, weniger Overfitting). Die möglichen Werte der Gewichte nach und nach einschränken, damit das neuronale Netz „dümmer“ wird und nicht mehr auswendig lernen kann (weniger Overfitting). Nach und nach Hidden Neuronen entfernen (schnelleres Training, weniger Overfitting).

🤖 KI im Allgemeinen: ⚠️ Bei der Frage, welches neuronale Netz oder welches andere Verfahren erfolgversprechend ist und wie man das am besten trainiert, spielt das Fach- und Erfahrungswissen aus dem Bereich der KI eine entscheidende Rolle. Das Anwenden eines bereits trainierten neuronalen Netzes geht relativ schnell. Das Trainieren eines neuronalen Netzes ist deutlich aufwändiger und zeitintensiver, was vor allem bei sehr grossen neuronalen Netzen ins Gewicht fällt.

✍ Auftrag

In diesem Auftrag machst du dir ein Bild darüber, wie teuer das Training eines grossen KI-Chatbots wirklich ist.

Recherchiere im Internet, auf welche Kosten das Training eines der grossen, aktuellen KI-Chatbots geschätzt wird (z. B. für ChatGPT, Gemini, DeepSeek, Grok, Claude, Llama, Mistral).
Trage den Namen des KI-Chatbots und die Kostenschätzung in das Textfeld ein. Loading ⌛

3. Limitationen

💡 Es scheint Limitationen für KIs zu geben, welche nicht von der Anzahl der verfügbaren Daten, Rechenpower oder der verfügbaren Zeit abhängen. In den folgenden beiden Unterkapiteln wird auf zwei davon genauer eingegangen.

3.1 Nicht Fehlerfrei

🤖 KI im Allgemeinen

Es ist davon auszugehen, dass neuronale Netze (und KI im Allgemeinen) in vielen Bereichen relativ gute Resultate liefern werden, jedoch kaum je perfekte. Auch bei beliebig vielen Daten, Rechenpower und Trainingszeit, werden neuronale Netze in der Praxis ab und zu Fehler produzieren. Gründe dafür sind unter anderem die folgenden.

Näherungen: Neuronale Netze sind Modelle, welche die Wirklichkeit nur näherungsweise beschreiben können. Sie berechnen keine Lösungen exakt, sie nähern diese, so gut wie möglich an. Die für das Training verwendeten Fehlerfunktionen, welche entscheiden, was gut und was schlecht ist, können die wahre Natur der zu lösenden Probleme auch nur näherungsweise darstellen. Und schliesslich können die neuronalen Netze nicht mit unendlich vielen perfekten Daten trainiert werden, sondern nur mit endlich vielen Daten, meist von nicht perfekter Qualität. Somit kann eine KI kein Problem direkt lösen, sondern nur die Näherung einer Lösung näherungsweise annähern.
Überlappende Klassen und Muster: Datensätze aus der realen Welt weisen praktisch immer Klassen oder Muster auf, welche zwar unterschiedlich sind, jedoch kaum voneinander getrennt werden können.
Seltene Klassen und Muster: Alle bekannten KI-Verfahren tendieren dazu, seltene Klassen und Muster zu ignorieren.

🐟 Fisch-NN: Die Abbildung zeigt eine Region überlappender Klassen für das Fisch-NN. Fische lassen sich in dieser Region nicht fehlerfrei einer Klasse zuordnen. Das seltene Klassen ignoriert werden, prüfst du im nachfolgenden Auftrag.

💬 KI-Chatbot: Texte zu Themen, zu welchen verschiedene Meinungen vorherrschen (z.B. zu „KI Fluch oder Segen“), könnten als „überlappende Muster“ und somit als Herausforderung für das Training von KI-Chatbots angesehen werden. Es kann durchaus sein, dass seltene Aussagen oder Meinungen im Training untergehen und somit nicht von einem KI-Chatbot ausgegeben werden können.

Weiter wird versucht, in den gängigen Benchmarks und der Chatobt Arena möglichst gut abzuschneiden, um sich von der Konkurrenz abzuheben. Das führt einerseits dazu, dass im Training wildes Raten als wertvoller bewertet wird, als die Antwort „keine Ahnung“ und somit Halluzinieren, d. h. Falschaussagen gefördert werden. Und andererseits, dass die KI-Chatbots dahin getrimmt werden, eher zu unkritisch und zu lobend zu antworten, was ebenfalls eine Fehlerquelle darstellen kann.

✍ Auftrag

In diesem Auftrag untersuchst du, wie das Fisch-NN mit seltenen Klassen umgeht.

Angenommen, der Fang eines Herings wäre ein seltenes Ereignis. Dann könnten typische Training- und Validationsets wie im Programm dargestellt aussehen. Kann das neuronale Netz trotzdem den Hering erkennen? (Alles grün Hinterlegte wird als Lodde erkannt, alles blau Hinterlegte als Hering.)
Klicke auf den Button ▶Run und versuche dein Glück!
Wie sieht das Resultat aus? Loading ⌛

3.2 Bias

🤖 KI im Allgemeinen: Ein neuronales Netz kann nur so gut sein wie die für das Training verwendeten Daten. Sind die Daten einseitig, wird auch das resultierende neuronale Netz einseitig antworten. Solch ein einseitiges Antworten wird als Bias bezeichnet.

🐟 Fisch-NN: Würde das Fisch-NN vorwiegend mit Lodde und kaum mit Hering trainiert werden, so würde das Fisch-NN die meisten Heringe als Lodde klassifizieren.

💬 KI-Chatbot: KI-Chatbots werden vorwiegend mit Texten aus dem Internet trainiert, in welchen westliche Philosophien vorherrschen, sehr viele einfache Sichtweisen und Vorurteile vorhanden sind und Minderheiten häufig schlecht dargestellt werden. Daher ist es kaum zu vermeiden, dass KI-Chatbots diese Eigenheiten wiedergeben. KI-Chatbots unterliegen daher immer einem Bias und können nicht als „neutral“ bezeichnet werden.

✍ Auftrag

In diesem Auftrag recherchierst du nach konkreten Beispielen für ein KI-Bias.

Recherchiere nach drei verschiedenen KI-Bias-Beispielen. Überlege dir, wer davon betroffen ist und welche Auswirkungen das für die Betroffenen hat.
Schreibe deine Beispiele und Überlegungen in das Textfeld. Loading ⌛

3.3 Black Box

Abbildung 9: Neuronales Netz als Black Box ¹¹⁾

🤖 KI im Allgemeinen: Das Wissen eines neuronalen Netzes ist in seinen Gewichten gespeichert. Diese Gewichte sind im Wesentlichen mehrere, mehr oder weniger miteinander verbundene Zahlen. Damit lässt sich zwar gut aus einer Eingabe eine Ausgabe berechnen, jedoch lässt sich aufgrund dieser Gewichte kaum herausfinden, warum ein neuronales Netz eine bestimmte Ausgabe ausgibt. In diesem Sinne ist ein neuronales Netz eine Black Box. Nur schon deswegen sind neuronale Netze nicht für jeden Anwendungsbereich geeignet. Es gibt zwar andere KI-Verfahren, wie z. B. statistische Verfahren, welche besser interpretiert werden können, jedoch zeigen diese in einigen Anwendungsgebieten deutlich schlechtere Resultate.

🐟 Fisch-NN: Warum genau das Fisch-NN einen Fisch als Hering oder Lodde einordnet, lässt sich kaum aus den verwendeten 11 Gewichten ablesen.

💬 KI-Chatbot: Neuronale Netze (mit Milliarden oder gar Billionen von Gewichten) bilden den Hauptbestandteil moderner KI-Chatbots. Somit erscheint es als unmöglich, aufgrund der Gewichte darauf schliessen zu können, warum zu einem gegebenen Eingabetext gerade der tatsächlich ausgegebene Ausgabetext ausgegeben wird.

✍ Auftrag

In diesem Auftrag überlegst du dir, worin das Problem einer Black Box bestehen kann.

Überlege dir eine Anwendung für eine künstliche Intelligenz, bei welcher es ungünstig wäre, wenn die KI ihre Entscheidung oder ihre Ausgabe nicht begründen könnte (wie z. B. eine KI, die selbständig entscheidet, ob du für einen Job angestellt wirst oder nicht).
Schreibe dein Beispiel in das Textfeld. Loading ⌛

4. Fazit

Wir Menschen wählen das KI-Modell, die Fehlerfunktion und die Daten für das Training aus. Somit sind wir auch verantwortlich dafür, was eine KI macht. Aber egal, wie viel Mühe wir uns dabei auch geben und egal, wie gut die KI am Ende funktioniert, eine KI wird vermutlich immer dann und wann Fehler produzieren und ein gewisses Bias aufweisen. Es stellt sich die Frage, wie wir damit umgehen wollen.

⚠️ Natürlich lassen sich noch ganz andere Fazits zu KI im Allgemeinen ziehen und weitere, interessante Fragen aufwerfen. Hier eine kleine Auswahl.

Nachhaltigkeit: Wird der enorme Energiebedarf grosser neuronaler Netze eher dazu führen, den Planeten zu „verbrennen“ oder kann die erhöhte Effizienz der KI den globalen Energiebedarf senken?
Entwicklung: Werden KIs uns so viel abnehmen, dass wir kaum mehr selbst etwas lernen und in der Folge „verdummen“ oder befreien uns die KIs von allem Lästigen, sodass wir uns noch positiver entwickeln können?
Entscheidungsfreiheit: Werden wir künftig entscheiden können, ob wir etwas, das eine KI viel schneller und besser erledigen kann, trotzdem selbst machen können (z. B. weil es uns Freude macht) oder dürfen wir nur noch das machen, was die KI für uns übriglässt?

✍ Auftrag

In diesem Auftrag setzt du dich mit dem Fazit kritisch auseinander.

Überlege dir die folgenden Punkte oder noch besser diskutiere die folgenden Punkte mit einer Kollegin oder einem Kollegen und halte das Wichtigste davon im Textfeld fest.
- Bist du mit dem Fazit einverstanden?
- Sollten grosse KI-Firmen (z.B. OpenAI oder Google) für das, was ihre KI-Chatbots produzieren, angeklagt werden können?
- Müssen wir Entscheidungen, welche eine KI fällt, akzeptieren oder darf ein Mensch den Entscheid einer KI vor Gericht anfechten?
- Welche KI-Anwendungen sollten verboten werden?
- Wie sieht ein wünschenswertes „Zusammenleben“ von KI und Menschen aus?
- Wie sieht ein Lernen mit KI aus, bei dem dich die KI „dümmer“ macht? Wie sieht ein Lernen mit KI aus, bei dem dich die KI „schlauer“ macht?

Loading ⌛

Eigene Notizen

Loading ⌛

¹⁾

Picture by Mohamed_hassan on Pixabay, Pixabay Licence

²⁾

Eigene Darstellung CC0 1.0, der Fisch ist übernommen: Hering [Citron, Public Domain, Clupea harengus by Citron on wikimedia

³⁾ , ⁵⁾

Eigene Darstellung CC0 1.0, die Fische sind übernommen: Hering [Citron, Public Domain, Clupea harengus by Citron on wikimedia; Lodde [Fb78, Public Domain]Mallotus villosus by Fb78 on wikimedia.

⁴⁾

Mit den Benotungszahlen der Menschen können aus mathematischen Gründen die Gewichte im KI-Chatbot nicht direkt angepasst werden (nicht ableitbarer Fehlerwert). Daher braucht es den Umweg über die Benotungs-KI. Grob gesagt werden für das Training unter anderem die Abweichung der aktuellen Note von der Maximalnote als Grundlage genommen, die Benotungs-KI mit dem KI-Chatbot zu einem einzigen neuronalen Netz „verschmolzen“ und daraufhin die Gewichte im KI-Chatbot angepasst.

⁶⁾

Eigene Darstellung CC0 1.0, der Fisch ist übernommen: Lodde [Fb78, Public Domain]Mallotus villosus by Fb78 on wikimedia.

⁷⁾ , ⁹⁾

Eigene Darstellung, CC0 1.0

⁸⁾

Der Grund ist mathematischer Natur, die Fehlerfunktion für das Training des Fisch-NNs muss ableitbar sein.

¹⁰⁾ , ¹¹⁾

eigene Darstellung, CC0 1.0

exorciser.ch

Webseiten-Werkzeuge

🐟 Was können wir von den Fischen über KI im Allgemeinen lernen?

1. Funktionsweise

1.1 Anwenden

✍ Auftrag

1.2 Trainieren

✍ Auftrag

2. Herausforderungen

2.1 Datensatz zusammenstellen

✍ Auftrag

2.2 Eingangsgrössen finden

✍ Auftrag

2.3 Fehlerfunktion bestimmen und interpretieren

✍ Auftrag

2.4 Modell wählen und trainieren

✍ Auftrag

3. Limitationen

3.1 Nicht Fehlerfrei

✍ Auftrag

3.2 Bias

✍ Auftrag

3.3 Black Box

✍ Auftrag

4. Fazit

✍ Auftrag

Eigene Notizen

Benutzer-Werkzeuge

Seiten-Werkzeuge

Webseiten-Werkzeuge