L'économie cachée des LLM
Combien coûte vraiment un million de tokens quand on ne paie plus l’API, mais l’infrastructure qui les produit ? En partant du prefill, du decode, du batching, du KV cache et des modèles MoE, on estime combien de tokens une infrastructure GPU peut générer.
Soutenez OCTO Talks en consultant la ressource originale
Lire l'article original