Der Kampf um die Daten
Momentan versuchen viele Firmen den Zugang zu ihren gesammelten Daten, die für das Trainieren von Large Language Models (LLMs) interessant sein könnten, viel strenger zu kontrollieren. Da werden z.B. APIs einfach abgeschaltet oder mit Bezahlschranken versehen. Beobachten konnte man das in den vergangenen Monaten bei X/Twitter, Reddit und StackOverflow. Das gilt aber auch in die entgegengesetzte Richtung. Die Firmen wollen verhindern, dass ihre Datenbanken mit generiertem Unsinn der LLMs überschwemmt und so wertlos gemacht werden.
Überall wird versucht, so viel Daten wie möglich zu sammeln. Vielen ist wahrscheinlich nicht bewusst, welche gigantische Menge an Daten z.B. in einem E-Auto verarbeitet und gespeichert werden. Hier wird nicht nur ständig die gesamte Umgebung des Autos mit Kameras und anderen Sensoren gescannt und ausgewertet, auch alle Aktionen des Fahrers werden erfasst und in Datencentern gespeichert.
Früher wurden die Daten an die Werbeindustrie verkauft und heute sind sie auch die Existenzgrundlage für die LLMs.