Zurück zur Übersicht
Tutorials

Lokale KI: So nutzt du Ollama und LLaMA auf deinem Rechner

Datenschutz-freundlich und kostenlos: Lerne, wie du mit Ollama leistungsfaehige KI-Modelle lokal auf deinem Computer ausfuehrst.

Max MüllerMax Müller16. April 20264 Min. Lesezeit
Lokale KI: So nutzt du Ollama und LLaMA auf deinem Rechner

Lokale KI mit Ollama: Der komplette Einsteiger-Guide

Nicht jeder moechte seine Daten an Cloud-Dienste senden. Mit Ollama kannst du leistungsfaehige Open-Source-KI-Modelle direkt auf deinem Rechner ausfuehren, komplett offline und kostenlos. In diesem Tutorial zeige ich dir, wie das geht.

Warum lokale KI?

Es gibt mehrere gute Gruende, KI-Modelle lokal auszufuehren:

  • Datenschutz: Deine Daten verlassen nie deinen Rechner
  • Kosten: Nach der Einrichtung fallen keine laufenden Kosten an
  • Offline-Nutzung: Funktioniert auch ohne Internetverbindung
  • Anpassbarkeit: Du kannst Modelle feintunen und anpassen
  • Geschwindigkeit: Keine Netzwerk-Latenz bei der Anfrageverarbeitung

Systemanforderungen

Bevor wir starten, pruefe deine Hardware:

Minimum (fuer kleine Modelle wie Llama 3.2 3B):

  • 8 GB RAM
  • Moderne CPU (Intel i5/AMD Ryzen 5 oder besser)
  • 10 GB freier Speicherplatz

Empfohlen (fuer mittlere Modelle wie Llama 3.1 8B):

  • 16 GB RAM
  • GPU mit mindestens 8 GB VRAM (NVIDIA empfohlen)
  • 20 GB freier Speicherplatz

Optimal (fuer grosse Modelle wie Llama 3.1 70B):

  • 64 GB RAM oder GPU mit 48 GB VRAM
  • Schnelle SSD
  • 100 GB freier Speicherplatz

Schritt 1: Ollama installieren

Die Installation ist denkbar einfach:

macOS und Linux:

Bash
curl -fsSL https://ollama.com/install.sh | sh

Windows: Lade den Installer von ollama.com herunter und fuehre ihn aus.

Verifiziere die Installation:

Bash
ollama --version

Schritt 2: Erstes Modell herunterladen

Lade ein Modell herunter. Wir starten mit Llama 3.2:

Bash
ollama pull llama3.2

Das Modell ist ca. 2 GB gross. Der Download dauert je nach Internetverbindung einige Minuten.

Weitere empfehlenswerte Modelle:

Bash
ollama pull mistral          # Mistral 7B - guter Allrounder
ollama pull codellama        # Spezialisiert auf Code
ollama pull llama3.1:8b      # Groessere Llama-Variante
ollama pull gemma2           # Googles Open-Source-Modell
ollama pull phi3             # Microsofts kleines aber leistungsfaehiges Modell

Schritt 3: Mit dem Modell chatten

Starte eine Chat-Session:

Bash
ollama run llama3.2

Du kannst jetzt direkt im Terminal mit dem Modell chatten:

Code
>>> Erklaere mir in 3 Saetzen, was Machine Learning ist.

Machine Learning ist ein Teilbereich der kuenstlichen Intelligenz, bei dem
Computer aus Daten lernen, anstatt explizit programmiert zu werden. Algorithmen
erkennen Muster in grossen Datenmengen und verbessern ihre Vorhersagen
automatisch mit mehr Erfahrung. Typische Anwendungen sind Spracherkennung,
Bildklassifizierung und Empfehlungssysteme.

Schritt 4: Ollama als API-Server nutzen

Ollama laeuft automatisch als lokaler Server auf Port 11434. Du kannst ihn per REST-API ansprechen:

Bash
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Was ist Kubernetes?",
  "stream": false
}'

Fuer Streaming-Antworten:

Bash
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Schreibe ein kurzes Gedicht ueber Programmierung",
  "stream": true
}'

Schritt 5: Integration in eigene Projekte

Python-Integration:

Bash
pip install ollama
Python
import ollama

response = ollama.chat(model='llama3.2', messages=[
  {'role': 'user', 'content': 'Erklaere mir Docker in einfachen Worten'}
])
print(response['message']['content'])

JavaScript/TypeScript-Integration:

Bash
npm install ollama
Typescript
import { Ollama } from 'ollama';

const ollama = new Ollama();
const response = await ollama.chat({
  model: 'llama3.2',
  messages: [{ role: 'user', content: 'Was ist TypeScript?' }],
});
console.log(response.message.content);

Schritt 6: Web-Interface einrichten

Fuer eine komfortablere Benutzeroberflaeche empfehle ich Open WebUI:

Bash
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Oeffne dann http://localhost:3000 im Browser. Du hast jetzt eine ChatGPT-aehnliche Oberflaeche, die deine lokalen Ollama-Modelle nutzt.

Performance-Tipps

  • GPU-Beschleunigung: Wenn du eine NVIDIA-GPU hast, nutzt Ollama diese automatisch. Pruefe mit nvidia-smi, ob die GPU erkannt wird
  • Modellgroesse waehlen: Starte mit kleineren Modellen (3B oder 7B Parameter) und steigere dich
  • Quantisierung: Quantisierte Modelle (z.B. Q4_0) sind kleiner und schneller, verlieren aber etwas Qualitaet
  • Context Length: Laengere Kontexte brauchen mehr RAM. Passe die Kontextlaenge an deinen verfuegbaren Speicher an

Modellvergleich fuer lokale Nutzung

| Modell | Groesse | RAM (min.) | Staerke | |--------|---------|-----------|---------| | Phi-3 Mini | 2,3 GB | 4 GB | Schnell, gut fuer einfache Aufgaben | | Llama 3.2 3B | 2,0 GB | 6 GB | Guter Allrounder fuer kleine Hardware | | Mistral 7B | 4,1 GB | 8 GB | Exzellentes Preis-Leistungs-Verhaeltnis | | Llama 3.1 8B | 4,7 GB | 10 GB | Stark bei Deutsch und Reasoning | | CodeLlama 13B | 7,4 GB | 16 GB | Beste Code-Generierung lokal |

Fazit

Lokale KI mit Ollama ist eine hervorragende Option fuer alle, die Wert auf Datenschutz legen oder keine laufenden Kosten fuer KI-APIs haben moechten. Die Einrichtung ist ueberraschend einfach und die Qualitaet der Open-Source-Modelle hat sich enorm verbessert. Fuer die meisten alltaeglichen Aufgaben reicht ein lokales Modell voellig aus.

LLaMALokale KIOllamaOpen Source
Max Müller

Über den Autor

Max Müller

KI-Experte und Software-Entwickler mit Fokus auf Large Language Models und AI-Automation. Schreibt über praktische KI-Anwendungen.

KI-News direkt ins Postfach

Die wichtigsten KI-Entwicklungen, neue Tools und Tutorials. Einmal pro Woche, kein Spam. DSGVO-konform mit Double-Opt-In.

Du erhältst eine Bestätigungs-E-Mail. Erst nach Klick auf den Link wirst du in den Verteiler aufgenommen.