voxly - 面向创作者的综合性音视频字幕处理工具

开发者说

为什么要做它？

原因很简单：市面上的其他软件要么不好用，要么不耐用，收费也不合理。

“我和你一样，都是盲人，全盲。你在制作过程中遇到的问题，我都遇到过；你没遇到过的问题，可能我也遇到过。”

我不希望让设计和操作成为我们往前再走一步的拦路虎与绊脚石。

—— 这就是 voxly 诞生的初衷。

voxly 是什么？

voxly 是一款面向创作者的综合性音视频字幕处理工具，专注于提升音视频转录、字幕编辑与成片输出的整体效率。

#无障碍优化 #Whisper引擎 #本地处理

第一部分：音视频转录与字幕编辑

1. 核心转录能力

基于 Whisper + FFmpeg + LibVLC 构建，兼顾准确性与稳定性。

支持音频直接导入 / 视频自动转码导入
自由选择推理模型与输出格式
参数全掌控：语言、线程数、Temperature、自动拆分策略等

2. 配置与任务管理

不再需要每次打开软件都重新设置。voxly 支持保存配置，并具备自动的任务记忆功能。

即开即用 · 即时恢复 · 无缝继续编辑

软件会在下次启动时自动加载最近一次的任务状态。

3. 字幕编辑与「随调随听」

这是 voxly 的核心特色。在编辑界面，你可以高效完成新增、翻译、拆分合并等操作。

时间轴精细控制

快捷键实时调整，精度覆盖 10ms 到 1s
自动检测边界，防止重叠冲突

🎧 随调随听设计：

调整时间轴的同时，实时播放对应的音频片段。让你在“听见”的状态下精确调整，类似 DAW 音频工作站的体验。

4. 导出与快捷键

支持 SRT, VTT, TXT, LRC 及 JSON 原始数据导出。内置全套快捷键体系，实现“几乎不离开键盘”的高效体验。

第二部分：音视频与字幕合并

由随附的“视频合成器”提供支持，支持独立更新。

视频 + 字幕合成

适用于已有视频仅需加字幕的场景。

支持 mp4 / mkv / mov 等格式
音频流直拷，无损音质
硬字幕渲染，画面保持原样

音频 + 字幕合成

将播客、访谈或歌曲转化为视频。

纯黑背景或自定义图片
自动生成 1080P 画布
字幕按时间轴精确叠加

样式控制系统

通过 ASS 参数控制，严格遵循用户设定。

画幅支持

横屏 (1920×1080)
竖屏 (1080×1920)

样式预设

抖音/快手通用
YouTube CC 风格
电影感风格

关于定价

一次付费，永久使用

88元

支持 7天完整功能试用

满意后付款，售出不退。希望我们都能好好睡觉，吃得饱饱。

获取 voxly

支持自动更新，可随时回退旧版本

下载 voxly 主程序下载视频合成器

模型库下载

voxly 支持从 Tiny 到 Large-v3 的完整模型范围，请根据设备性能按需下载。

* 首次使用时软件也会提示下载推荐模型。

Tiny 模型

75 MB | 极速转录

适合：低性能旧设备

Base 模型

142 MB | 速度优先

适合：普通办公电脑

Small 模型

466 MB | 平衡之选

适合：大多数场景

Medium 模型

1.5 GB | 高精度

适合：高性能设备

Large-v3 模型

2.9 GB | 最高精度

适合：生产力工作站