← Alle Artikel
llmops 8 min Lesezeit

LLM Routing in der Praxis — wie man Modelle automatisch wählt

Classifier-basiertes Routing, regelbasierte Fallbacks und hybride Ansätze: Wie du mit Model Prism das richtige Modell für jede Anfrage auswählst und dabei Kosten und Qualität im Gleichgewicht hältst.

Was ist LLM Routing — und warum brauche ich das?

Wer heute mit mehreren LLMs arbeitet, steht schnell vor der Frage: Welches Modell nehme ich für welche Anfrage? GPT-4o ist leistungsstark, aber teuer. GPT-4o-mini kostet fast nichts — kann aber komplexe Reasoning-Aufgaben nicht gleich gut lösen. Claude Sonnet liegt irgendwo dazwischen. Und lokale Modelle via Ollama kosten buchstäblich nichts, sind aber nicht für jede Aufgabe geeignet.

LLM Routing ist die Praxis, eingehende Anfragen automatisch an das jeweils optimale Modell weiterzuleiten — basierend auf Komplexität der Anfrage, gewünschter Antwortqualität und Kostenbudget. Das Ziel: die beste Balance aus Qualität und Kosten, ohne dass Entwickler manuell entscheiden müssen.

Die drei wichtigsten Routing-Strategien

1. Regelbasiertes Routing

Die einfachste Form: Du definierst explizite Regeln, nach denen Anfragen zugewiesen werden. Beispiele:

  • Alle Anfragen unter 500 Tokens → GPT-4o-mini
  • Anfragen mit dem Tag code_generation → Claude Sonnet
  • Anfragen von Tenant premium-customer → GPT-4o

Regelbasiertes Routing ist transparent, deterministisch und einfach zu debuggen. Es funktioniert gut, wenn du klare Kategorien hast — stößt aber an Grenzen, sobald die Regeln zu komplex werden.

2. Classifier-basiertes Routing

Hier wird ein kleines, schnelles Modell (der “Classifier”) genutzt, um die Komplexität der Anfrage zu bewerten und daraus eine Routing-Entscheidung abzuleiten. Model Prism nutzt diesen Ansatz: Jede eingehende Anfrage wird zuerst durch einen Lightweight-Classifier analysiert, der eine Komplexitätsstufe (low / medium / high) zurückgibt. Diese wird dann auf einen Modell-Tier gemappt.

# Beispiel-Konfiguration (routing-rules.yaml)
tiers:
  low:
    model: gpt-4o-mini
    max_tokens: 2048
  medium:
    model: claude-3-5-haiku
    max_tokens: 4096
  high:
    model: gpt-4o
    max_tokens: 8192

classifier:
  model: text-classification-small
  fallback_tier: medium

3. Hybrides Routing

In der Praxis kombiniert man beide Ansätze: Regelsets filtern zuerst nach klaren Kriterien (Tenant, Tag, Kontext-Länge), dann bewertet der Classifier die verbleibenden Anfragen dynamisch. Fallbacks sorgen dafür, dass bei Classifier-Ausfall oder API-Fehler automatisch auf ein Standard-Modell gewechselt wird.

Routing mit Model Prism einrichten

Model Prism bringt Auto-Routing out-of-the-box mit. Hier ein minimales Beispiel:

# docker-compose.yml Ausschnitt
services:
  model-prism:
    image: ghcr.io/ohara-systems/model-prism:latest
    environment:
      OPENAI_API_KEY: ${OPENAI_API_KEY}
      ANTHROPIC_API_KEY: ${ANTHROPIC_API_KEY}
      PRISM_ROUTING_MODE: auto
      PRISM_ROUTING_CONFIG: /config/routing-rules.yaml

Mit "model": "auto" in deiner API-Anfrage übernimmt Model Prism die Routing-Entscheidung automatisch:

curl http://localhost:8080/v1/chat/completions \
  -H "Authorization: Bearer YOUR_TENANT_KEY" \
  -d '{
    "model": "auto",
    "messages": [{"role": "user", "content": "Erkläre mir Quantenmechanik in 3 Sätzen"}]
  }'

Fazit

LLM Routing ist keine Optimierung für später — es ist von Tag 1 an relevant, sobald du mit mehreren Modellen oder mehreren Teams arbeitest. Classifier-basiertes Auto-Routing mit Model Prism gibt dir sofort eine vernünftige Grundkonfiguration, die du schrittweise verfeinern kannst.

Im nächsten Artikel dieser Serie schauen wir uns an, wie du die Routing-Genauigkeit misst und deinen Classifier kontinuierlich verbesserst.

O
ohara.systems Team
ohara.systems