更精准地生成字幕!哥大&Facebook提出Vx2Text:多模态融合,性能更强!