voxly 能为你做什么

第一部分:音视频转录与字幕编辑

核心转录能力

基于 Whisper + FFmpeg + LibVLC 构建,兼顾准确性与稳定性。

支持音频直接导入 / 视频自动转码导入
自由选择推理模型(Tiny ~ Large-v3 完整覆盖)
参数全掌控:语言、线程数、Temperature、自动拆分策略等
完全离线推理,音频数据绝不上传

不再需要每次重新设置参数,voxly 完整记忆您的工作流。

模型、语言、线程等参数全局持久化
任务队列自动记忆,重启后可无缝继续
支持多套配置方案,按需切换
即开即用 · 即时恢复 · 无缝继续编辑

这是 voxly 的核心特色,在编辑界面高效完成新增、翻译、拆分与合并。

快捷键实时调整时间轴,精度覆盖 10ms 到 1s
自动检测边界,防止字幕行重叠冲突
批量操作:整体时间偏移、正则查找替换
支持 REAPER DAW 导入导出(.SRT 脚本)
🎧 随调随听设计

调整时间轴的同时,实时播放对应的音频片段,让你在"听见"的状态下精确调整,类似 DAW 音频工作站的体验。

第二部分:AI 智能辅助

集成主流 OpenAI 兼容 API,智能处理字幕内容。

支持 DeepSeekOpenRouter(任意 OpenAI 兼容 API)
智能分行:AI 根据语义自动优化字幕断行
批量翻译:一键为所有字幕行生成译文
自动校对:检测转录错误并给出修改建议

第三部分:音视频合成器

随主程序附带,支持独立更新,专注于成片输出。

🎥 视频 + 字幕合成

适用于已有视频仅需加字幕的场景。

支持 mp4 / mkv / mov 等主流格式
音频流直拷,无损音质
硬字幕渲染,画面保持原样

🎵 音频 + 字幕合成

将播客、访谈或歌曲转化为视频。

纯黑背景或自定义背景图片
自动生成 1080P 画布
字幕按时间轴精确叠加

通过 ASS 参数体系精细控制字幕外观,严格遵循用户设定。

预设风格:

横屏 1920×1080 竖屏 1080×1920 抖音 / 快手风格 YouTube CC 风格 电影感黑边 自定义颜色

支持导出格式:

.srt .ass .txt mp4(硬字幕)

功能已了解?试用体验最有说服力。

免费试用 15 天 →