Inhaltsverzeichnis Verschiedene Formate von Sprachmodellen im Überblick Unsichere Serialisierung mit pickle Das Safetensors-Format Das GGUF-Format für quantisierte LLMs Fazit Artikel in iX 4/2025 lesen Wer generative KI lokal betreiben möchte, kann sich unzählige Sprachmodelle in verschiedenen Größen bei Hugging Face herunterladen. Allerdings liegen sie dort in vielen unterschiedlichen Formaten vor – und nicht jedes ist für jede Software geeignet. Außerdem gibt es spezifische Vor- und Nachteile der verschiedenen Formate. Egal, ob GPT- oder BERT-Modelle – ein Large Language Model (LLM) enthält große Mengen an Daten unterschiedlicher Art. Zum einen sind das die Gewichte des zugrunde liegenden tiefen neuronalen Netzwerks, zum andern viele Metainformationen. Da es sich um Sprache handelt, ist auch eine Vorschrift enthalten, wie das Modell Texte in kleinere Bestandteile, die Token, zerlegt. iX-tract Sprachmodelle liegen bei Hugging Face immer als Git-Repositorys vor und enthalten neben den Gewichten auch Metadaten. Das Safetensors-Format ist eine sicherere und flexiblere Alternative zum Serialisieren mit Pythons pickle. GGUF aus dem llama.cpp-Projekt ist für lokal eingesetzte quantisierte Modelle das übliche Format. Prof. Christian Winkler is a data scientist and machine learning architect. He holds a PhD in theoretical physics and has been working in the field of big data and artificial intelligence for 20 years, with a particular focus on scalable systems and intelligent algorithms for mass text processing. As a professor at Nuremberg Institute of Technology, his research focuses on the optimization of user experience using modern methods. He is the founder of datanizing GmbH, a speaker at conferences and author of articles on machine learning and text analytics. Auf der Website von Hugging Face kann man das gut sehen, exemplarisch zeigt es die erste Abbildung für eines der ersten BERT-Modelle. Auch modernere Modelle sind nach einem ähnlichen Schema aufgebaut. Zunächst wird deutlich, dass es sich bei allen Modellen um Git-Repositorys handelt. Und wie auch von GitHub bekannt gibt es hier ein README.md und eine LICENSE-Datei. Das Git-Format ist praktisch, weil man mit den üblichen Tools darauf zugreifen kann. Klonen sollte man diese Repositorys aber nicht, denn durch das Speichern der Git-Metainformationen nehmen die Modelle noch mehr lokalen Speicherplatz in Anspruch. Um die Modelle dennoch lokal auszuführen, kann man entweder direkt die Transformers-Bibliothek von Hugging Face in einem Python-Programm verwenden oder die entsprechenden CLI-Tools wie huggingface_hub. Das war die Leseprobe unseres heise-Plus-Artikels "Verschiedene Formate von Sprachmodellen im Überblick". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.