字节跳动推出新“视频理解”工具Vidi2：可精准定位画面+回答问题-AI前沿快讯-AI工具导航

字节跳动推出新“视频理解”工具Vidi2：可精准定位画面+回答问题

导读：想快速从长达半小时的视频里找到特定人物的动作片段？想让工具自动识别视频中的关键画面并给出解释？字节跳动最新推出的Vidi2实现了这些功能。它不仅能精准锁定视频中目标的时间和位置，还能回答相关问题，相关测试成绩大幅超越Gemini 3 Pro、GPT-5等同类工具。

在短视频和长视频成为主流传播方式的今天，高质量视频创作和编辑对普通人来说依然门槛不低。比如想从一段长视频中截取特定人物的动作片段，或是根据需求精准剪辑画面，往往要花费大量时间手动操作。近日，字节跳动旗下智能创作团队推出全新视频理解工具Vidi2，成功解决了这些痛点。

Vidi2最亮眼的能力在于“时空定位”，只要输入文字描述，它就能在视频中精准找到对应的时间段，还能标出目标物体的位置范围。比如查询“一个人从跪姿站起来”，哪怕视频长达6分多钟、画面较暗且有多人出现，Vidi2也能准确锁定动作发生的具体秒数，并通过边框清晰区分目标人物。

为了全面检验这类工具的实际表现，字节跳动打造了VUE-STG和VUE-TR-V2两大全新评测基准。VUE-STG涵盖了10秒到30分钟不等的各类视频，共包含1600个查询指令，所有时间和位置标注都由人工精准完成，能更真实地模拟现实使用场景。VUE-TR-V2则优化了视频长度分布，增加了更多长视频和超长篇视频，查询方式也更贴近用户日常表达习惯。

在VUE-STG基准测试里，Vidi2在时间定位准度、时空综合定位准度等方面，大幅领先于Gemini 3 Pro、GPT-5和Qwen3-VL-32B等同类视频问答工具。在VUE-TR-V2的时间检索测试中，Vidi2在中长视频到超长篇视频等多个类别中，也以较大优势超越了Gemini 3 Pro和GPT-5，尤其是处理10-30分钟的长视频时，Vidi2的优势更加明显，而其他工具的性能则出现显著下滑。

除了定位功能，Vidi2还新增视频问答能力。面对LVBench、LongVideoBench等主流评测基准中的视觉和听觉问题，它都能给出准确答案。

这些功能让Vidi2在实际应用中拥有广阔前景：它能自动从长视频中提取高光片段并配标题，帮助用户快速生成可直接发布的短视频；能理解影视剧情中的人物关系和事件逻辑，为专业编辑节省大量剪辑时间；还能根据多个视频素材生成完整叙事脚本（包含旁白、配乐和转场设计），让普通用户也能轻松创作高质量视频。

作为字节跳动在视频理解领域的新一代工具，Vidi2通过技术升级和实用功能创新，降低了视频创作和编辑的门槛。未来，智能工具或许能像专业编辑一样，精准理解用户需求，助力更多人实现创意表达。

参考资料：https://arxiv.org/pdf/2511.19529