Generative AI und LLMs (Large Language Models) benutzen riesige Datenmengen zum Training, aber aktuelle Daten oder Nischenthemen sind nicht darin enthalten. In diesem Vortrag zeigen wir, wie Techniken wie Retrieval Augmented Generation (RAG) genutzt werden können, um Open Data und andere freie Datenquellen in KI-Chatbots zu integrieren. Anhand von praktischen Beispielen und einer Live-Demo wird gezeigt, wie Open Data (bsp. Gesetze und Verwaltungsdaten, Wiki Dumps, ZIM Files und Web Crawls) und eigene Daten (z. B. Unternehmensdaten) in die Antworten eines Chatbots einfließen können.
Der Vortrag schließt inhaltlich an meinen Vorjahresvortrag bei den Chemnitzer Linuxtagen 2024 „Wie funktioniert ChatGPT ganz genau“ an: die Funktionsweise von komplexen KI-Systemen sollen in der Open Source Community ganz genau verstanden werden, damit sie dort für die Kultur der freien Daten und dezentralen Systemen genutzt werden können.
Licensed to the public under http://creativecommons.org/licenses/by/4.0