请问vllm上的实现是否与论文不太一致,vllm上单次prefill阶段,hidden_states的的第一个维度是多个句子拼接的总tokens数,vllm实现中似乎只对这一个请求计算了一个δ,而不是每个样本单独一个δ,这是否会影响最后的推理结果
请问vllm上的实现是否与论文不太一致,vllm上单次prefill阶段,hidden_states的的第一个维度是多个句子拼接的总tokens数,vllm实现中似乎只对这一个请求计算了一个δ,而不是每个样本单独一个δ,这是否会影响最后的推理结果