前沿资讯
1764577566更新
0
导读: 想快速从长达半小时的视频里找到特定人物的动作片段?想让工具自动识别视频中的关键画面并给出解释?字节跳动最新推出的Vidi2实现了这些功能。它不仅能精准锁定视频中目标的时间和位置,还能回答相关问题,相关测试成绩大幅超越Gemini 3 Pro、GPT-5等同类工具。
在短视频和长视频成为主流传播方式的今天,高质量视频创作和编辑对普通人来说依然门槛不低。比如想从一段长视频中截取特定人物的动作片段,或是根据需求精准剪辑画面,往往要花费大量时间手动操作。近日,字节跳动旗下智能创作团队推出全新视频理解工具Vidi2,成功解决了这些痛点。

Vidi2最亮眼的能力在于“时空定位”,只要输入文字描述,它就能在视频中精准找到对应的时间段,还能标出目标物体的位置范围。比如查询“一个人从跪姿站起来”,哪怕视频长达6分多钟、画面较暗且有多人出现,Vidi2也能准确锁定动作发生的具体秒数,并通过边框清晰区分目标人物。
为了全面检验这类工具的实际表现,字节跳动打造了VUE-STG和VUE-TR-V2两大全新评测基准。VUE-STG涵盖了10秒到30分钟不等的各类视频,共包含1600个查询指令,所有时间和位置标注都由人工精准完成,能更真实地模拟现实使用场景。VUE-TR-V2则优化了视频长度分布,增加了更多长视频和超长篇视频,查询方式也更贴近用户日常表达习惯。

在VUE-STG基准测试里,Vidi2在时间定位准度、时空综合定位准度等方面,大幅领先于Gemini 3 Pro、GPT-5和Qwen3-VL-32B等同类视频问答工具。在VUE-TR-V2的时间检索测试中,Vidi2在中长视频到超长篇视频等多个类别中,也以较大优势超越了Gemini 3 Pro和GPT-5,尤其是处理10-30分钟的长视频时,Vidi2的优势更加明显,而其他工具的性能则出现显著下滑。

除了定位功能,Vidi2还新增视频问答能力。面对LVBench、LongVideoBench等主流评测基准中的视觉和听觉问题,它都能给出准确答案。
这些功能让Vidi2在实际应用中拥有广阔前景:它能自动从长视频中提取高光片段并配标题,帮助用户快速生成可直接发布的短视频;能理解影视剧情中的人物关系和事件逻辑,为专业编辑节省大量剪辑时间;还能根据多个视频素材生成完整叙事脚本(包含旁白、配乐和转场设计),让普通用户也能轻松创作高质量视频。
作为字节跳动在视频理解领域的新一代工具,Vidi2通过技术升级和实用功能创新,降低了视频创作和编辑的门槛。未来,智能工具或许能像专业编辑一样,精准理解用户需求,助力更多人实现创意表达。
参考资料:https://arxiv.org/pdf/2511.19529
豫公网安备41010702003375号