[论文笔记] VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding (2026.02)

发表于 2026-06-08 更新于 2026-06-11 分类于论文笔记阅读次数：本文字数： 841 阅读时长 ≈ 1 分钟

动机

MLLM的在长上下文的检索能力难以解释
在长上下文下，相比纯文本场景，多模态场景下模型的检索能力变弱
图片分辨率越低，性能降低越多（DeepSeek-OCR）

贡献

发现并识别了VER Heads

在模型的 retrieval-moment（输出token熵值最高的时刻）导出每个attention-head在的注意力权重。考虑证据块被每个head覆盖的注意力评分之和（每个patch中证据块的面积占比 * 注意力权重）作为视觉检索分数。取检索分数最高的 top-k 个 head，认为他们是VER heads。

在模型检索证据的时刻，假如某个head对于证据部分的注意力强度很高，则认为它是负责做检索的head，这确实是一个直观的理解。但存在两个问题：第一，为什么说输出token熵值最高的时刻就是 retrieval-moment？代码中实际也没有实现熵值这个东西。第二，相关性不代表因果性，也许他们只是刚好在检索过程中被激活，并负责对长上下文的语义理解等事情。感觉这里单纯取 top-k 的做法还是比较简单。

VER Heads的性质

在整个模型中比较稀疏，只占<1.65%；检索分数呈现出长尾分布。
在不同数据集之间较为保守；不同数据集之间分数的相关系数较高，而且取出的VER Heads很相似。
从效果看，遮蔽掉VER Heads后，模型效果大幅下降。而遮蔽OCR Heads或随机头则不会产生类似效果。
VER Heads的对应分数在微调后，会随着模型性能的提升而更加集中

将检索头用于辅助模型性能提升

离线阶段：对某个特定的模型，遍历数据集，识别出VER Heads
在线阶段
1. 将image+query输入模型，根据retrieval-moment的attention分布找出evidence
2. 将evidence输入OCR模型转成文字，将image+text+query输入模型得出答案

优化点：提出了一个可以自动识别evidence位置的方法；将evidence转成文字的手段可以有效弥补MLLM在多模态场景下进行检索的不足