设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5555|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 6 d! ^8 v! G; K
  a+ q1 x' V. Y9 U
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
* f% s/ q7 a- c效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。* J: @  q% k0 D* ]' }- y5 @2 U
----------------------------------------- C- e1 ?8 n! N2 g
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
& D1 v& A3 {0 y/ a在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
4 k8 z8 t$ G5 n2 v5 R$ o----------------------------------------
8 H: |! G7 K* E3 o9 U6 {https://github.com/guillaumekln/faster-whisper
# s3 o- h8 d: I1 d' d2 I6 ~安装如下:, c" V# F8 p( Z! _. J8 {
1, Windows 101 I, g  Z& s) P: \
2, Python 3.10.11
3 u" Z$ O4 X% u+ l" D3, CUDA 12.1
: E; v4 X  W; i3 t2 H. [4, 在python 3 中安装# Y' D8 L7 n2 T) \% _& G9 h
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
9 s7 H7 z+ n! I+ q7 D, B这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。: Y; H8 ^+ Q. j+ j  F; y0 a8 d
5,pip install -U openai-whisper2 J' D3 x) H& @2 k
这是向whisper 致敬,可以不装9 x! U4 Q9 A: z) |
6,pip install faster-whisper1 E8 G$ a+ [! k: m. j/ l0 X8 E
----------------------------------------
7 ?4 G' ]7 i5 x! D7 \whisper 我用的命令行,faster-whisper 我用的是python。
9 z. T, |. W4 z$ q6 Y! i下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
2 e( {# t; n; O. M  y+ k/ C; v- M7 k7 B& k
----------------------------------------4 C9 K! m1 t9 Z0 a  a
. U' z5 ^- b! P5 Y1 j" ]
from faster_whisper import WhisperModel- M! S7 D  _$ X+ G( j1 G

! w( {* [0 T  W8 E% m4 Jmodel_size = "small"- F" ]  D- e! Z
1 k) G9 f9 Y9 e) b7 v% \$ e
model = WhisperModel(model_size, device="cuda", compute_type="int8")8 i8 j- b* A" o8 l

- k4 y+ L; o8 d- y! e: \# {/ Bsegments, info = model.transcribe(
$ L0 B' z3 N0 p5 T  A    sourceFileName, ( n! `4 ]) p( e6 h# c# I3 T* d# S& A
    beam_size=5,
. y0 D! ^+ J! q+ }7 y' {1 h    language="en", 7 C: I0 u6 k4 x  F
    task="transcribe",
0 s9 p1 ~; I8 n+ J1 x6 N* f    word_timestamps=True,
. x" f' u# w) R1 Z$ w7 u% n0 P1 j    initial_prompt = "Hello, welcome to my lecture.")" \; g# s. B$ e1 S

0 d; m! k7 f9 {1 c" zfor segment in segments:4 O: B" d( B4 h3 Z, {5 ^& ^9 N  M
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))% r% S. u, c4 G2 v

4 n0 w# F3 p8 P) c        for word in segment.words:  Z) l5 U0 Z# t7 K( D0 d
                  w  ]9 A9 R  i2 ^8 C
----------------------------------------
  J6 p5 M8 U- G* E& c- n: q
& ~' B: @" G8 e, J4 X. O! A  B代码说明:
6 X+ Z/ D  S8 U( K! f5 p1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
" `; V" {) d, p但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
) z- O$ p4 L8 C" c  x. N2,segment 本身是很粗糙的,做字幕勉强能用。' J. Q3 S( b# Y4 d& s2 C1 M3 \* P
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
4 s! t" K& N/ }9 w4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中) c9 E* Z4 p! c" s9 T9 m( F
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
' a' K. P: x% H; E. X+ ?5,model.transcribe 中参数说明:
( X5 b' K: ?, H" L% l你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
# f6 x4 c+ h: e, w8 \其中5 h5 Z; r* i. R4 d0 q2 u5 f
    word_timestamps=True,
! p9 ~9 t' l7 z5 O* B: f6 x保证了你能拿到 word,否则是拿不到的
) g( ?( ^* ^) e+ h* S    initial_prompt = "Hello, welcome to my lecture.")
- g1 I6 P$ F( S/ M, R: \2 K: R- _保证能尽可能准确的断句 punctuation,但是不是决定性的。
' F1 @, j5 V9 k其他参数可参考源文件:
7 K( p3 w" [! ~4 G: C: o! x+ R5 Ihttps://github.com/guillaumekln/ ... isper/transcribe.py. X9 Y$ v+ _+ F! e! L
152 def transcribe(" [) c" ?8 i' j: q
从源文件你可以看到是支持中文的句号断句的。
( o/ [* s1 P- y/ S+ B! q! Z7 R- X$ Z
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
7 B' j) x* _" {. A" @7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。/ u# Q3 v1 j, @% W
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。3 V" x  `6 L+ j( O8 D5 y
0 k1 C( u/ r: D" T0 f$ e

$ N* W4 |. g# s# I+ k1 L/ X
, M# ?% ]- Z7 r9 W

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-5-9 13:38 , Processed in 0.055983 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表