Deutsch
Zeit: 2025/03/20
Durchsuchen: 23
NVIDIA Dynamo verbessert die GPU -Ressourcenauslastung in AI -Fabriken durch intelligente Inferenzplanung, erhöht die Token -Output und senkt die Kosten.Es wird eine disaggregierte Servicearchitektur angewendet, in der die LLM -Verarbeitungs- und -generationsphasen über verschiedene GPUs hinweg für eine genauere Optimierung und einen höheren Durchsatz über eine genauere Optimierung und einen höheren Durchsatz verteilt werden.
Jensen Huang, CEO von NVIDIA, erklärte, dass Dynamo einen skalierbaren KI -Inferenzeinsatz ermöglicht und die Leistung und Effizienz von Llama gegenüber Nvidia Hopper mit denselben GPU -Ressourcen verdoppelt.In GB200 NVL72 -Clustern erhöht Dynamo die pro GPU erzeugten Token um 30x.
Darüber hinaus passt Dynamo die GPU -Ressourcen dynamisch an, optimiert Inferenzdatenspeicher und reduziert die Berechnungs- und Routingkosten.Es unterstützt Pytorch, Sglang, Tensorrt-LlM und VLLM und beschleunigt die Akzeptanz von KI-Inferenz in den wichtigsten Unternehmen, einschließlich AWS, Google Cloud, Meta und Microsoft Azure.
2025/03/20
2025/03/17
2025/03/13
2025/03/10
2025/03/6
2025/03/3
2025/02/27
2025/02/24
2025/02/20
2025/02/17