视频配音

视频配音功能概览

本页帮助你先理解 NativeVid 视频配音模块的真实工作流，再决定从快速上手、FAQ 或插件说明进入。

本页摘要

NativeVid 的视频配音不是单纯的“把字幕读出来”，而是一条完整的本地化生产链：先匹配视频与字幕，再根据需要完成术语审校与字幕翻译，然后进入角色配置、角色音色选择、批量语音生成、逐句审校，最后把新语音与视频重新合成，并输出新的成片视频文件与字幕文件。

🔒 隐私边界： 视频文件、字幕文件、配音中间结果与最终导出文件都保留在本地；只有您主动使用的翻译或 TTS 服务请求会走网络，原始媒体素材不会被上传到 NativeVid 服务器。

选择媒体文件夹后，系统会自动按文件名匹配视频与字幕；未匹配成功的文件支持手动指定，检测到重复内容时会移动到 _duplicates 文件夹，减少批量任务误配。

可选择“先翻译后配音”，也可在字幕已经是目标语言时直接“跳过翻译”；如果开启术语审校，还会先进入术语确认页面再继续流程。

支持任务级角色库、逐句分配角色、拖拽快速标注、快捷键切换角色，适合旁白、访谈、课程讲师等多说话人场景。

每个已分配字幕的角色都能单独选择目标语言音色，支持关键字搜索、性别与年龄筛选、音色试听，并区分免费与付费音色来源。

提交任务时可开启背景音乐分离，并选择保留鼓点、低音、其他伴奏、吉他或钢琴等音轨；新配音会在后续合成阶段单独叠加，适合需要保留原片氛围的内容。

系统会按字幕行批量生成配音，审校页可查看每个文件的进度、成功/失败状态，支持批量重试失败项，也支持单句重新生成。

配音完成后系统会结合字幕时间轴与生成音频时长做音画对齐，再输出成片与对齐后的字幕；预览页支持字幕开关、播放速度调整，以及拖动字幕位置做最终检查。

已有视频和字幕，想快速制作多语言教学内容，同时保留背景伴奏或环境音。

一个视频里有多个说话人，需要先区分角色，再分别配置音色生成目标语言版本。

把同一栏目或同一课程的多集视频放进同一个文件夹，用自动匹配与批量流程统一处理。

根据 NativeVid 当前实现，视频配音通常会经过下面这些页面与步骤：

💡 一个关键分支： 如果您在提交任务时勾选了“跳过翻译”，NativeVid 会直接把上传字幕作为目标语言文本，任务创建后会直接进入“角色配置”页面，而不是先走翻译流程。

默认情况下，输出目录会自动设为所选媒体文件夹下的 dubbed 子目录。配音与视频合成完成后，通常会得到：

在预览页和审校页中，您都可以直接打开输出目录继续检查成片。

如果您准备第一次实际操作，建议先看“快速上手”；如果遇到流程或效果问题，再查看“常见问题”。

查看快速上手查看常见问题