Ich will neben meinen fortschreitenden Erforschungen der Möglichkeiten von text2image-Generatoren, seit einiger Zeit vor allem lokal auf dem eigenen Rechner, nun auch einmal in die Welt der Chatbots reinschnuppern. Auch hier lege ich vorrangig Wert auf lokale Ausführung, was mich recht schnell zu Mozillas Llamafile brachte.
- Lokale Chatbots für jeden PC
- Lokalen Chatbot einrichten mit Llamafile
- Llamafile: Leistungsstarker KI-Chat für den eigenen PC
- Alle Open Source KI-Modelle als Offline-Chatbots auf jedem PC nutzen (Youtube)

Chatlösung in einer Datei
Llamafile ist im Grunde eine geniale Sache: Das ganze LLM-System samt Modell ist zusammengefasst in einer einzigen Datei, die Nutzer*innen lediglich auf ihrem PC speichern und ausführen müssen. Als Eingabe- also Chat-Schnittstelle dient eine recht einfach gestrickte lokale Webseite, die im Browser aufgerufen wird. Mehr ist nicht nötig.
Ohne weiteres Zutun läuft die Anwendung im lokalen RAM des PCs, kann aber auch, vor allem, wenn man Varianten mit umfangreicheren Modellen lädt, im VRAM-Speicher leistungsfähiger Grafikkarten ausgeführt werden.
Wie ich verstehe, stehen mehrere LLM-Varianten (Modelle, in Form sogenannter Llamafiles) zur Auswahl, die unterschiedlich leistungsfähig sind und sich dementsprechend im Speicherbedarf auf der Festplatte bemerkbar machen.
Ich habe mich für erste Erkundungen für ein aktuelles einfacheres File entschieden: llava-v1.5-7b-q4.llamafile, das 4,6 GB groß ist. Ich will einfach mal schauen, was ich damit alles anstellen kann.
Ich bin mir nach wie vor nicht so sicher, was genau ich mit einem solchen LLM-Chatbot machen soll. OK, ich könnte, wenn das möglich ist, mir aufgrund eher schwammiger Schlagwortangaben vernünftige Prompts für meine bevorzugten txt2img-Modelle erstellen lassen – vor allem, wenn ich in deutsch formulieren kann und das LLM einen englischen Prompt zurückgibt. Ich werde schauen, ob und wie das funktioniert. Das will ich auf jeden Fall testen.
LM Studio
Alternativ und etwas komfortabler geht das lokale Chatten mit der Anwendung LM Studio, die für Linux als sogenanntes Appimage verfügbar ist. Darüber hinaus gibt es Versionen für Windows und Mac. LM Studio stellt ein GUI dar, von dem aus die lokal auf der Festplatte befindlichen LLMs verwaltet werden. Das heißt, in diesem GUI installierst du einfach die gewünschten LLMs aus einem übersichtlichen Katalog heraus und nutzt sie anschließend nach Bedarf.
Die LLMs sind natürlich allesamt nicht gerade klein, etwas Platz auf der SSD/HD sollte schon frei sein. Der Platzbedarf reicht von knapp wenigen Hundert MB bis an die 20 GB, Googles größtes LLM Gemma 2 27B z.B. belegt ca. 16,65 GB. Damit kann es auf meinem PC zwar ausgeführt werden, es passt allerdings nicht ganz in die 16 GB VRAM meiner Grafikkarte.
Grundsätzlich werden zur maximalen Performance alle lokalen KI-Modelle (LLMs genau wie txt2img-Modelle) in das VRAM geladen, falls ausreichend davon verfügbar ist.
Ein Teil des LLMs wird also in das RAM des PCs verlagert, was die Geschwindigkeit der Ausführung etwas verringert. Meine ersten Geh- (Chat-) Versuche mache ich gerade mit einem abgespeckten Gemma 3 4b, das sich mit 3,34 GB Speicherbedarf begnügt.
Dieser Umstand sollte allerdings bei Text-LLMs (Chatbots) nicht so stark ins Gewicht fallen wie bei bilderzeugenden txt2img-Modellen.
Tatsächlich ist die lokale Ausführung von Chatbots z.B. mittels einer wie oben beschriebenen llamafile 1-Datei-Lösung sogar auf modernen Android-Smartphones möglich. Zumindest kleinere Modelle sind tatsächlich zum Chat ausführbar.
Vorteile/Nachteile
Nachteil: Fehlende Aktualität
Klar ersichtlich dürfte der wahrscheinlich wesentliche Nachteil lokaler LLM-Chatbots sein: sie sind immer auf dem zeitlichen Stand der Dinge, an dem sie erzeugt wurden. Ein LLM, das sechs Monate alt ist, nutzt wenig, wenn ich mit ihm über aktuellere Ereignisse chatten will. Im besten Fall kann ich immer dann, wenn eine neue Version verfügbar ist, diese herunterladen und die ältere Version löschen.
Chatbots, deren Nutzung via Internet ich bei den bekannten Anbietern gegen Gebühr buchen kann, dürften hier klar im Vorteil sein.
Ein geringere Rolle dürfte das aber beispielsweise für Nutzer spielen, die Programmcode oder Markup-Code (HTML u.a.) per LLM optimieren oder erzeugen lassen wollen. Oder Nutzer, die redaktionelle Texte (oder Blogartikel) mit Hilfe eines Chatbots »feintunen« lassen möchten. In solchen Fällen braucht es keine Aktualität, sondern eine gute und umfangreiche Datenbasis (Token-Basis).
Ja, ich weiß! Ich habe mich an früherer Stelle (und hier) besonders über letztere Nutzung geäußert, und das steht weiterhin. Es steht bekanntlich jedem frei, LLMs auch zu diesem Zweck zu nutzen, ich habe lediglich einen Standpunkt dazu.
Nachteil: PC-Leistung
Miete ich per Mitgliedschaft Chatbot-Nutzung (ChatGPT, Claude, Perplexity o.ä.) oder nutze solche, die kostenlos via Internet erreicht werden können (Gemini o.ä.), spare ich lokale Ressourcen, die ich bei rein lokaler Anwendung gegebenenfalls erst anschaffen bzw. einrichten müsste: Speicherplatz in RAM/VRAM und auf SSD/HD.
Vorteil: Privatheit
Demgegenüber steht auf der Habenseite lokaler LLM-Chatbots die Privatheit der Anwendung: Lokale LLMs laufen ohne Internetverbindung auf deiner Hardware. Keine Eingaben landen bei Herstellern respektive Anbietern, wo sie MASGW1 fleißig gesammelt und ausgewertet werden.
Es kann ja eine interessante Frage sein, ob du gerade an einem Softwareprojekt arbeitest und die Unterstützung eines geeigneten LLMs in Anspruch nimmst. Willst du dabei womöglich sicherstellen, dass deine Code-Entwicklung (vor z.B. einem Peer-Review) erst einmal bloß lokal in deiner Arbeitsumgebung verbleibt?
Vorteil (wahrscheinlich): Ressourcenschonung
Ich vermute stark, dass die lokale Nutzung von KI (LLM-Chatbots und txt2img-Modelle) weniger Ressourcen (Strom und alles, was daran hängt) verbraucht als die Online-Nutzung solcher Angebote. Es fallen auf Nutzer*innen-Seite lediglich Beschaffungsaufwand in Form von Downloads und geringfügig erhöhter Strombedarf des eigenen PCs an.
Fazit
Ich bin meiner Natur nach jemand, der Dinge, die er nutzt, gerne in ihrer Funktionsweise und ihren Zusammenhängen versteht. Dabei lerne ich und das war mir immer wichtig. Und ich bin gerne unabhängig von Angeboten und damit meist auch von Vorgaben Dritter – was heute leider fast immer auch Schnüffeleien derselben in meiner Privatsphäre bedeutet.
Deswegen spiele ich inzwischen (auch) mit LLM-Chatbots herum. Es interessiert mich prinzipiell, ich will lernen, und vielleicht fällt mir sogar hierzu noch eine geeignete Nutzung solcher Systeme ein. Ich habe zu Beginn dieses Artikels ja eine Idee geäußert.
Letzter Hinweis:
Diesen Artikel habe ich frei Hand… bzw. Tastatur und frei Kopf geschrieben. Ohne auf KI, einen LLM-Chatbot, zurückzugreifen.
Lediglich testweise habe ich den ersten längeren Abschnitt (Chatlösung in einer Datei) Gemma 3 4b zwecks Überprüfung und Verbesserungsvorschlägen vorgegeben. Das Modell hat keine Fehler gefunden und ein paar durchaus hilfreiche Anmerkungen zu besseren Formulierungen beigesteuert, woraus ich immerhin schließen konnte, dass es aufmerksam dafür ist, vage und unklare Formulierungen zu finden und Vorschläge zu konkreteren Formulierungen zu machen. In einem Fall fand ich tatsächlich einen Vorschlag so passend, dass ich das Modell aufgefordert habe, die Textpassage entsprechend dieses Vorschlags geändert zurückzugeben.
- Mit an Sicherheit grenzender Wahrscheinlichkeit ↩︎
Schreibe einen Kommentar