Definition
Inferenz ist der Akt, ein trainiertes Modell zu verwenden — unterschiedlich vom Training. Für LLMs ist Inferenz das, was in Produktion Geld kostet: jeder API-Aufruf, jede Chatbot-Antwort, jedes Embedding. Inferenzoptimierung (Batching, KV-Caching, Quantisierung, spekulative Dekodierung) kann die Kosten um das 10-fache senken.
Beispiel
Eine App macht 10 Millionen LLM-Inferenzaufrufe pro Monat zu durchschnittlich $0,001 pro Aufruf — $10k/Monat.
Wie Vedwix das verwendet
Inferenzkosten sind eine erstklassige Überlegung in unseren Architekturentscheidungen.
Sie arbeiten an einem Projekt rund um Inferenz?
Inferenz.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten