<a href="./LICENSE"><img src="https://img.shields.io/badge/License-Apache%202.0-blue.svg" alt="license"></a>
MOSS-Video-Preview 是一款专为实时视频理解打造的多模态视觉基础模型。基于 Llama-3.2-Vision 架构,我们全面提升了模型原生处理视频的能力,使其具备了卓越的实时多模态推理表现。
Important
💡 项目说明:
本项目目前处于探索性阶段,旨在利用高质量开源数据集,验证 Cross-Attention 架构在原生实时视频理解任务中的潜力。这仅仅是一个起点,我们已制定了覆盖数据规模(Data Scaling)、参数规模(Parameter Scaling)和上下文长度(Context Scaling)三个维度的完整演进路线图,致力于打造更稳健、更通用的视频智能模型。
我们诚挚邀请在表征学习(Representation Learning)、模型压缩(Model Compression)及推理加速(Inference Acceleration)领域有深厚积累的开发者加入我们。无论您是致力于优化推理延迟,还是希望探索高效的架构设计,我们都欢迎您基于本框架进行实验与创新。让我们共同突破视频智能的边界,推动开源社区的进步!
🌟 核心亮点
-
🧩 图像-视频 Cross-Attention 架构: 打破现有主流架构局限,MOSS-Video-Preview 原生支持图视统一理解。通过 Cross-Attention 机制实现视觉与语言的深度解耦,支持超长时序内容的连续、流畅解析。
-
🔄 毫秒级实时交互与动态自纠错: 系统支持在“静默”与“发言”模式之间无缝切换。凭借强大的上下文感知能力,模型允许用户在视频场景演变时进行实时打断,从而动态调整或修正反馈,提供真正具备响应式、全双工特性的交互体验。
-
⚡ 极致推理性能与算子加速: 通过针对 CUDA 和 NPU 平台深度优化 Cross-Attention 算子并集成 Flash Attention 2 加速,MOSS-Video-Preview 专为长视频流处理而生。在显著降低显存开销的同时,实现了极低的推理延迟。
-
📊 精细化数据合成流水线: 我们构建了一套基于SOTA视觉理解模型驱动的精细化视频理解数据合成流水线。我们承诺在不久的将来开源这些数据集,旨在服务研究社区,并共同推动实时视频感知技术的前沿发展。
- 🔥 新闻
- 🏗️ 模型架构
- 🌊 实时推理流程
- 🎬 演示 (Demo)
- 📊 训练阶段与数据组成
- 📊 评测结果
- 📈 流式推理解码速度
- 🚀 快速开始
- 🛠️ 训练与微调
- 📥 模型下载
- 💡 局限和展望
- 📑 待办事项 (TODO)
- 引用
- 致谢
- 2026/04/08: 🎉 MOSS-VL 正式开源!发布了 MOSS-VL-Base-0408 和 MOSS-VL-Instruct-0408。
- 2026/03/04: 🚀 MOSS-Video-Preview 源代码和架构细节发布!
- 2025/10/18: 🧭 对当前问题进行复盘,并启动 MOSS-VL 项目。
- 2025/10/08: 🎬 在实验室与学院内部完成 Demo 展示。
- 2025/09: 🌟 moss-video-preview-realtime-sft 训练完成。
- 2025/08: ✅ moss-video-preview-sft 训练完成。
MOSS-Video-Preview 基于 原生实时时序架构 构建,通过将视觉感知与语言推理解耦,极大降低了计算延迟。这使得模型能够实现毫秒级的流式处理性能,为连续视频流提供极高响应速度和流畅的交互体验。
MOSS-Video-Preview 的核心优势在于其原生的实时处理架构,能够以极低延迟、连续地解析动态视频流,实现真正意义上的实时视频理解。
- 异步逐帧 实时输入 视频帧以稳定频率持续注入模型,实现高频实时视觉感知。输入链路与文本输出链路完全解耦(Decoupled),确保视觉捕捉的连续性不受生成逻辑的中断或阻塞。
- 长程状态保持 依托 Cross-Attention KV Cache 与时序位置编码 (Temporal Positional Encoding),模型能够在连续视频流中维持稳健的长程上下文关联,实现跨帧的信息沉淀与时序对齐。
- 实时响应 支持在视频流推进的同时同步进行自回归文本生成。无需等待完整片段缓存,显著降低端到端延迟,实现“边看边说”的极致交互体验。
- 跨模态投影器 (Cross-Modal Projector)
内置专有的
VideoMllamaTextCrossAttention机制。通过深度双向交叉注意力计算,实现视觉时序特征与语言语境的高效融合,确保模态间语义的高精度对齐。 - 流式因果解码器 (Streaming Causal Decoder) 负责基于动态视觉流的自回归文本生成。该模块具备动态自适应能力,能够根据最新捕获的视觉输入实时调整并修正生成策略,确保输出内容与实时画面高度同步。
streaming_demo.mp4
video_demo.mp4
image_demo.mp4
MOSS-Video-Preview 采用三阶段渐进式训练策略,通过从模态对齐到实时流式任务的演进,构建强大的视频理解能力。
| 阶段 | 核心目标 | 可训练参数 | 数据混合 (T / I / V) | 训练样本数 |
|---|---|---|---|---|
| PT-Stage 1 | 跨模态对齐 | 仅 Vision Projector | 0% / 79% / 21% | 15.1 M |
| PT-Stage 2 | 时序与长视频感知 | 全参数 | 0% / 26% / 74% | 1.8 M |
| Offline SFT | 指令遵循与推理 | 全参数 | 14% / 44% / 42% | 8.6 M |
| Real-Time SFT | 实时理解与推理 | 全参数 | 11% / 29% / 60% | 836 K |
-
Realtime 版本性能的“无损”保持: 实验数据表明,MOSS-Video-Preview-Realtime-SFT 实现了几乎“无损”的性能保持。在 MMBench、AI2D 以及大部分视频指标上,其表现与标准 SFT 版本高度一致,甚至在部分时序理解任务(如 TempCompass)中表现更优。这验证了该模型在实际落地场景中,能够兼顾实时响应需求与极高的感知精度。
-
视觉逻辑推理能力: 在 Multimodal Reasoning 类别中,MOSS 系列展现了稳健的逻辑推导性能。特别是在 VisuLogic 榜单上,MOSS 的两个版本(28.60 / 28.70)均优于 LLaVA-OneVision (27.00) 和 Qwen2.5-VL (25.90)。这反映出模型在处理具有逻辑挑战的视觉规律、空间推理等任务时,具备更强的稳定性。
-
细粒度视频细节洞察: 在视频理解维度,MOSS 系列在处理细粒度动作逻辑和时空感知上具有显著竞争力。在 Video-Holmes 基准测试中,MOSS 系列取得了 39.30 / 39.50 的高分,Qwen2.5-VL 为 33.00;评测结果显示,MOSS 在捕捉视频长序列中的细微动作和复杂时空变化方面,相比同量级开源模型具备更深层的感知能力。
MOSS-Video-Preview 的核心优化在于兼顾高质量推理与低延迟的实时流式处理;下方的速度对比将进一步说明这一点。
我们在相同的硬件与解码配置下,对比了 MOSS-Video-Preview 与另一款开源视频模型在流式推理场景下的速度表现(这是单一配置下的速度对比,并非标准化基准测试套件)。
- 硬件:单卡 NVIDIA H200
- 视频抽帧数:256 帧
- 输入视频参数:
- 路径:
data/example_video.mp4 - 分辨率:1920×1080
- 时长:97.56 秒
- 码率:2223.33 kbps(约)
- 路径:
速度对比(TPS 越高、时延越低越好):
| 模型 | 抽帧数 | 参数规模 | 平均 TTFT (s) | 平均 TPS (tokens/s) | 平均总时延 (s) | P95 TTFT (s) |
|---|---|---|---|---|---|---|
| MOSS-Video-Preview | 256 | 11B | 1.9537 | 38.41 | 28.5104 | 1.9573 |
| Qwen2.5-VL-7B | 256 | 7B | 9.9402 | 14.26 | 52.7624 | 9.9564 |
在该设置下,MOSS-Video-Preview(11B)相比 Qwen2.5-VL-7B(7B)实现了约 5× 的 TTFT 加速、约 2.7× 的解码吞吐提升(TPS),并显著降低了端到端总时延;在更大参数量配置下依然保持明显优势,在大参数量场景中展现出巨大的速度提升空间,更适合实时视频理解场景。
conda create -n moss-video python=3.12.4 -y
conda activate moss-video
pip install -e .本仓库已提供少量示例文件:
- 视频:
data/example_video.mp4 - 图片:
data/example_image.jpg
经验证可正常运行的环境:Python 3.12.4 + PyTorch 2.4.0(CUDA 12.1)+ DeepSpeed 0.16.1。
请先安装 PyTorch(根据你的 CUDA/CPU 环境选择正确的版本),再安装 FlashAttention2 与 DeepSpeed:
# CUDA 12.1(推荐)
pip install --index-url https://download.pytorch.org/whl/cu121 "torch==2.4.0"
# 仅 CPU(兜底)
# pip install --index-url https://download.pytorch.org/whl/cpu "torch==2.4.0"
pip install -e ".[flash-attn,deepspeed]" --no-build-isolationMOSS-Video-Preview 支持离线(Offline)推理、实时 SFT 离线(Real-Time SFT Offline)推理和流式(Streaming)推理三种推理模式。
离线推理一次性处理整个视频,适用于批处理或分析预录制的视频文件。
# 运行离线推理示例
python -m inference.offline_infer \
--checkpoint models/moss-video-sft \
--video_path data/example_video.mp4 \
--prompt "Describe the video." \
--max_new_tokens 512该模式仅支持 Real-Time SFT 模型:以离线方式对整段视频进行推理,不支持 base 或非实时的普通 SFT 模型。
# 运行实时 SFT 离线推理示例
python -m inference.realtime_offline_infer \
--checkpoint models/moss-video-realtime-sft \
--video_path data/example_video.mp4 \
--prompt "Describe the video." \
--max_new_tokens 512流式推理会在接收到视频帧时同步处理,非常适合直播流或低延迟应用场景,同样仅支持 Real-Time SFT 模型,不适用于 base 或普通 SFT(非实时)模型。
# 运行流式推理示例
python -m inference.realtime_streaming_infer \
--checkpoint models/moss-video-realtime-sft \
--video_path data/example_video.mp4 \
--prompt "Describe the video." \
--max_new_tokens 512流式推理采用统一的流水线,视频帧被送入 image_queue,生成的 Token 则通过 token_queue 实时读取。
MOSS-Video-Preview 通过 LlamaFactory 集成支持多种训练模式。
| 模式 | 显存 (GB/GPU) | 硬件 | 配置文件 |
|---|---|---|---|
| PT(预训练) | ≈80GB | H100/H200 | mllm_pretrain_1node.yaml |
| SFT(离线) | ≈80GB | H100/H200 | mllm_offline_sft_1node.yaml |
| SFT (实时) | ≈80GB | H100/H200 | mllm_realtime_sft_1node.yaml |
开始训练,请使用以下命令:
FORCE_TORCHRUN=1 llamafactory-cli train train_config/mllm_pretrain_1node.yaml你可以根据训练阶段从 train_config 目录中选择不同的配置文件:
- pretrain:
train_config/mllm_pretrain_1node.yaml - sft-offline:
train_config/mllm_offline_sft_1node.yaml - sft-realtime:
train_config/mllm_realtime_sft_1node.yaml
| 模型 | 🤗 下载链接 | 🤖ModelScope 链接 |
|---|---|---|
| moss-video-preview-base | HuggingFace | ModelScope |
| moss-video-preview-sft | HuggingFace | ModelScope |
| moss-video-preview-realtime-sft | HuggingFace | ModelScope |
- 性能基准对齐:虽然模型已验证了卓越的实时理解能力,但在基础通用性能上与业界顶尖的半开源模型(如 Qwen2.5-VL)相比仍有提升空间。缩小这一差距、对齐 SOTA 表现是我们后续迭代的核心目标。
- 分布式训练扩展:目前的训练流程主要用于架构验证。我们计划在后续版本中迁移至 Megatron-LM 框架,利用其成熟的 3D 并行(张量、流水线、数据并行) 技术,以支撑更大规模的预训练与全参数微调。同时,我们将在下一个主要版本中正式向社区开源完整的训练代码、模型权重及实验配置。
- 数据规模与多样性:当前训练高度依赖公开数据集。未来我们将持续构建更高质量、更多元化的多模态数据集,通过扩大数据体量与覆盖面,进一步强化模型的泛化能力与综合鲁棒性。
- 统一位置编码
- NPU/CUDA Flash Attention 2 集成
- 流式视觉编码器
- LlamaFactory 训练支持
- Technical Report
- Open-source Moss-VL
@misc{moss_video_2026,
title = {{MOSS-Video-Preview: Next-Generation Real-Time Video Understanding}},
author = {OpenMOSS Team},
year = {2026},
howpublished = {\url{https://github.com/OpenMOSS/MOSS-Video-Preview}},
note = {GitHub repository}
}- 核心贡献者: Pengyu Wang*, Chenkun Tan, Shaojun Zhou, Wei Huang, Qirui Zhou, Zhan Huang, Zhen Ye, Jijun Cheng
- 贡献者: Xiaomeng Qian, Yanxin Chen, Xingyang He, Huazheng Zeng, Chenghao Wang, Hongkai Wang, Pengfei Wang, Chenghao Liu, Shanqing Gao, Yixian Tian, Xinghao Wang, Botian Jiang, Xipeng Qiu†
注: * 项目Leader;† 通讯作者
我们向 LlamaFactory、Transformers 的贡献者以及 OpenMOSS 社区的宝贵支持表示感谢。



