随着上下文窗口的不断扩大,大型语言模型(LLM)面临着显著的性能瓶颈。尽管键值(KV)缓存对于避免重复计算至关重要,但长上下文缓存的存储开销会迅速超出GPU内存容量,迫使生产系统在多级内存结构中采用分层缓存策略。然而,将大量缓存的上下文重新 ...