
本文的主要作者来自Tsinghua University的I-Vision小组和Tencent HunyuanX。本文的联合命中作者是Wang Jiahui,他是Tsinghua University系和Liu Zuyan的本科生Wang Jiahui。本文的相应集是Tsinghua University自动化系的Lu Jiwen教授。通常根据大型预训练的语言模型(LLM)扩展大型多模型模型。尽管原始的LLM没有视觉理解能力,但是在多模式训练之后,这些模型可以在各种视觉相关的活动中表现出强烈的性能。这触发了我们的思考:在多模式训练过程中,哪些内部LLM基础内部结构,尤其是哪些多头注意力单元,实际上是对视觉内容的理解?是否确定了这种注意力的头脑,可以引用视觉偏好或熟练的功能吗?如果这些”可以识别视觉头“可以识别出大型多式模式内的“黑匣子”机制,而且还提供了一个理论上的基础,以优化优化模型的结构和资源提供。在本文中,我们专注于注意力头的视觉偏好,并专注于基于OCR活动的过程,而无需进一步培训了他们的注意力,而不是系统地培训了注意力的注意力。在视觉理解任务中的领先作用,有效地集中精力并从图像中获取基本信息,而关注的头部则集中在文本信息或其他辅助特征上。r: https://arxiv.org/abs/2506.05344 Code: https://github.com/cr400af-e/sparemm Project Address: Sparemm: A KV-C-C-cache Optimizing Optimizing Stima Considering that multimodal large models input more visual tokens than text tokens, carrying a significant memory pressure, we differ in KV-cache resources.具体而言,Sparsem将总的缓存预算分为三个部分:其中一部分可确保本地L的主要高速缓存的头部,部分均匀地分布在固定比例的情况下,其余部分根据视觉头标记给予视觉头部优先级,从而在效率和效率之间取得更好的平衡。通过DOCVQA,OCRBENCH,TEXTVQA,CHARTQA,MMBENCH,GQA等,与SNAPKV,ADAKV和其他方法相比,Sparsemm对多模式基准流量进行了广泛的检查,可以更好地平衡性能和效率。效率评估测试达到了高达1.87倍的阶段的超速阶段,并使峰值存储器降低了52%。在Additio中n,在高速缓存预算下,绩效的下降幅度较小,完全证明了基于视力主管在权衡效率绩效方面的视力主管的效率更高。通过引入视觉编码器模块,LLM(最初无能力的视觉效果)来引入多模型的大型模型,最初可以在各种情况下(例如图形问题和答案,文档理解等)进行表现良好。我们相信,在多模式大型模型训练期间,在多模型的大型训练期间,有些头痛逐渐成为“视觉和与视觉信息相互作用的负责人”。在本文中,我们提出了一个基于OCR工作量和视觉头的识别的过程,并基于此,Sparsemm-一种新型的多峰模型加速方法。通过对视觉头的深入审查,我们发现视觉头与大型多模型模型相比很小。即,少数数字注意力负责人实际上是对视觉内容及其在语言表示中有效整合的主要任务的主要任务,而大多数注意力负责人更专注于语言信息,或仅限于本地上下文建模,并且对图像内容的影响有限。基于此,我们采用了一个级别的缓存分配机制,为注意力头提供了更多的缓存预算,以关注视觉内容,以最大程度地维护视觉信息。对于不关注视觉内容的注意力头,它们提供了更少的缓存预算,以关注其最近的邻居的信息,从而实现更好的性能和速度平衡。该方法的总体操作我们的过程主要分为两个部分:第一个视觉定位在OCR工作中,然后将不同的缓存预算分配给不同的注意力头。基于OCR的视觉头定位方法深入探索e大型多模型的注意机制在处理视觉内容时,我们提出了一种基于OCR工作的审查方法,并基于此,我们定义了“视觉感觉段”,以在视觉内容中发展该模型的注意力表现。根据视觉意义,本文可以有效地找到并研究对视觉内容高度敏感的模型中的注意力头。具体来说,当给出OCR任务中的图像输入时,多模型需要根据图像的内容生成和输出图片中的文本信息。对于每个模型令牌输出,将OCR的标记信息标记为“(文本,bbox)”对来阐明字符在图像中的空间位置。通过此注释,每个字符都可以归因于图片中其特定位置之一。接下来,根据多模式大型模型,将输入图像分为块或补丁,进一步定义了输入的图像。视觉令牌是位于与每个字符相对应的视觉区域,并在整个putum中准确找到视觉令牌的特定位置。在此基础上,我们期待着大型多模式模型中的所有注意力。对于任何关注者,我们审查了其注意力标记的矩阵。考虑过去所有输入令牌的当前角色令牌的注意力标记。如果具有最高分数的令牌发生在图像中字符相应区域的Visal令牌,则认为头部的头成功地“击中”了该位置的相应视觉内容。每当发生“命中”时,注意力头会累积一次。通过计算和标准化所有角色令牌的命中,每个注意力的关注水平最终可能会计算视觉内容,从而在处理视觉信息的过程中揭示模型的内部机制。基于KV-CACH压缩方法在完成视觉头的位置后,在视觉头上,我们甚至提出了基于视觉头的KV-CACHE分配和压缩方法。传统的KV-CACHE机制为所有位置的所有注意力头和令牌提供了相等数量的缓存空间。尽管很简单,但是在处理高分辨率图像时,这种方法是相当注意的:大量关注的头部不关注视觉内容力量,从而缓存了完整的视觉令牌,从而大量浪费了资源。为了解决此问题,Sparemm根据视觉含义设计了三部分缓存分配机制:本地窗口缓存:为所有注意力标头提供固定的高速缓存窗口大小,仅维护最新的标记以确保主要的本地上下文功能;基于缓存的统一:同样提供所有注意标头之间的缓存预算的一部分,以避免头部信息过多;得分提供了缓存:允许大部分剩余缓存资源根据上一阶段的VisualHeaders的视觉感知比例,以便主要的视觉头可以维持尽可能多的历史视觉令牌,从而提高模型维护图像语义的能力。缓存压缩策略的多样性大大降低了KV-CACHE存储器的总体使用,而无需大量牺牲模型性能。尤其是在视觉代币占高比例的输入的情况下,稀疏可以为资源提供更多的理由,并集中计算和存储真正有价值的视觉内容。实验结果OCR多模式数据集导致富含OCR的数据集(例如DOCVQA,OCRBENCH和TEXTVQA),SPARSEMM显示出显着的性能优势,这充分证实了该方法的有效性,可以识别识别识别识别识别的头部。例如,在DOCVQA中,当缓存键值预算仅为10%时输入长度,诸如AVA-NEXT-VICUNA7B和QWEN2-VL-7B-7B - 保险公司之类的LLANG模型仍然可以保持性能几乎与整个缓存调整保持一致,而现有方法通常在低预算下经历了其对兔子的可扣除扣除额,具有低预算,具有视觉头选择的准确性和重要性。 TextVQA实验也证明了波的好处。多种模型在低至5%至10%的缓存预算的条件下仍保持良好的性能,这比ADAKV,SNAPKV和其他方法要好得多。这些结果表明,Sparsem特别适合密集的文本和密切相关的视觉活动,并且具有构思和性能维护能力的效率,可在处理高分辨率输入和稀疏文本分发方案中。对一般多模式活动的分析,尽管本文的视觉头部识别是基于OCR的作品,以进一步验证可用性和ABI在更大范围的视觉场景中,我们在许多视觉活动的一般基准中系统地评估了这种方法,例如MMBENCH,GQA和VQAV2。实验结果表明,该方法在一般视觉活动中仍显示出强大的整体稳定性和能力。尽管在过度有限的缓存预算条件下,QWEN2-VL-7B-7B - 引入模型可以通过MMBench的整个模型ofcache保持几乎恒定的性能;在具有复杂视觉理解能力的GQA和VQAV2等活动中,绩效下降始终在1%之内受到调节,这比现有的压缩方法要好。这些结果表明,尽管识别视觉头是基于OCR场景,但视觉区域及其焦点机制具有很高的用途,并且可以在各种视觉理解任务中发挥着可靠的作用,为加速和确定一般多模拟的高速缓存提供了一种良好,可靠和流行的解决方案DAL模型。加速速度的分析本文评估了在不同的输入(2K至32K)情况下,波计算的效率。结果表明,这种方法已在忽视速度识别和减少内存使用方面取得了显着改善。在32K输入处,Llava-nnext-Vica First-Vica-Vicuna和Qwen2-Vl-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7b-7g,同时通过15GB的范围进行了范围。灵活性。这完美地表明,弹药可以有效地减少对高分辨率图像或上下文活动的间接费用的理解,并提高大型多峰模型的扩展和实用性的效率。视觉视觉头,我们已经描述了在Llava-Next-Vicaba首先鉴定出的一些视觉头和非视觉头。显然,视觉头可以准确地搜索图片中的对象或文本,而不是视觉头通常不付费注意他们。图像或注意力信息在错误的位置,这有力地反映了视觉头部和非视觉头部之间的差异。总结我们建议Sparsemm,这是一种基于视觉头的KV-CACHE CACHS压缩方法。通过准确地认识到OCR的视觉信息的最敏感的关注点,并基于此设计了多种缓存分配方法,我们可以在理解阶段大大减少开销的计算和记忆,同时确保模型性能。实验结果表明,在许多视觉语言活动中,毫无疑问,斑点可以很好地维护准确性,出色的计算效率和强大的慷慨,尤其是在高分辨率图像和较长的上下文输入情况下。 Sparemm提供了新的解决方案,以了解Largemultimodal模型的深刻理解和实际扩展。我们还希望这项工作可以激发更多关于加速对大型多模型识别的研究E未来。