voxly 标志

voxly

面向创作者的综合性音视频字幕处理工具

开发者说

为什么要做它?

原因很简单:市面上的其他软件要么不好用,要么不耐用,收费也不合理。

“我和你一样,都是盲人,全盲。你在制作过程中遇到的问题,我都遇到过;你没遇到过的问题,可能我也遇到过。”

我不希望让设计和操作成为我们往前再走一步的拦路虎与绊脚石。

—— 这就是 voxly 诞生的初衷。

voxly 是什么?

voxly 是一款面向创作者的综合性音视频字幕处理工具,专注于提升音视频转录、字幕编辑与成片输出的整体效率。

#无障碍优化 #Whisper引擎 #本地处理

第一部分:音视频转录与字幕编辑

1. 核心转录能力

基于 Whisper + FFmpeg + LibVLC 构建,兼顾准确性与稳定性。

  • 支持音频直接导入 / 视频自动转码导入
  • 自由选择推理模型与输出格式
  • 参数全掌控:语言、线程数、Temperature、自动拆分策略等

2. 配置与任务管理

不再需要每次打开软件都重新设置。voxly 支持保存配置,并具备自动的任务记忆功能。

即开即用 · 即时恢复 · 无缝继续编辑

软件会在下次启动时自动加载最近一次的任务状态。

3. 字幕编辑与「随调随听」

这是 voxly 的核心特色。在编辑界面,你可以高效完成新增、翻译、拆分合并等操作。

时间轴精细控制

  • 快捷键实时调整,精度覆盖 10ms 到 1s
  • 自动检测边界,防止重叠冲突
🎧 随调随听设计:

调整时间轴的同时,实时播放对应的音频片段。让你在“听见”的状态下精确调整,类似 DAW 音频工作站的体验。

4. 导出与快捷键

支持 SRT, VTT, TXT, LRC 及 JSON 原始数据导出。内置全套快捷键体系,实现“几乎不离开键盘”的高效体验。

第二部分:音视频与字幕合并

由随附的“视频合成器”提供支持,支持独立更新。

视频 + 字幕合成

适用于已有视频仅需加字幕的场景。

  • 支持 mp4 / mkv / mov 等格式
  • 音频流直拷,无损音质
  • 硬字幕渲染,画面保持原样

音频 + 字幕合成

将播客、访谈或歌曲转化为视频。

  • 纯黑背景或自定义图片
  • 自动生成 1080P 画布
  • 字幕按时间轴精确叠加

样式控制系统

通过 ASS 参数控制,严格遵循用户设定。

画幅支持

  • 横屏 (1920×1080)
  • 竖屏 (1080×1920)

样式预设

  • 抖音/快手通用
  • YouTube CC 风格
  • 电影感风格

关于定价

一次付费,永久使用

88元

支持 7天完整功能试用

满意后付款,售出不退。希望我们都能好好睡觉,吃得饱饱。

获取 voxly

支持自动更新,可随时回退旧版本

模型库下载

voxly 支持从 Tiny 到 Large-v3 的完整模型范围,请根据设备性能按需下载。

* 首次使用时软件也会提示下载推荐模型。

Tiny 模型

75 MB | 极速转录
适合:低性能旧设备

Base 模型

142 MB | 速度优先
适合:普通办公电脑

Small 模型

466 MB | 平衡之选
适合:大多数场景

Medium 模型

1.5 GB | 高精度
适合:高性能设备

Large-v3 模型

2.9 GB | 最高精度
适合:生产力工作站