爱吱声

标题: faster-whisper 更快的语音到文字的识别 ASR [打印本页]

作者: nanimarcus    时间: 2023-6-4 02:10
标题: faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 5 X0 g* c2 C7 N8 e
) E' X8 T/ n+ B  {/ D( _
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
* i6 E# h/ p% L) D: n: k* B; I5 j效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。. V4 h# Z, L# T1 \! `7 g7 w
----------------------------------------: Z: [* E, u7 D/ D
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。+ m( k- I! L( H4 ?9 J
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。! B3 x7 g5 f9 K! E7 i, w, H
----------------------------------------
8 ]3 `9 c) L' I9 [6 X2 Y- vhttps://github.com/guillaumekln/faster-whisper, o* m( S6 c1 S3 E1 s
安装如下:
# m# N6 ]( @  a1, Windows 10
  d' u! \8 d: Z% p2, Python 3.10.11
; T0 y* j* ]% d* f2 E( c4 X3, CUDA 12.11 z7 u1 E& h. A$ e6 K- w
4, 在python 3 中安装
7 N, v+ s( ]$ \# G% Y+ R" W# W3 H. xpip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117: s2 T4 @- n' ~
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
5 z% l; Q; T; ^5,pip install -U openai-whisper
4 \% a9 h+ n$ [7 ~4 o这是向whisper 致敬,可以不装; _% P$ L& Q' w& U& ]# a
6,pip install faster-whisper. L  f0 x' A2 R- X# P. q1 m
----------------------------------------$ F( B1 [! s+ ?+ Q3 H
whisper 我用的命令行,faster-whisper 我用的是python。8 \3 d6 [% f: y; ~9 v
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:) Q1 V/ {, ?% F6 W

& |9 G! g0 [1 Z2 e: [: k' t8 D----------------------------------------0 f5 |. X( K3 S& H" ]; s
/ A# F* t/ \2 b8 U
from faster_whisper import WhisperModel2 R- q1 n# L( _" a

& Y7 {1 H7 R& v5 D9 h8 }4 rmodel_size = "small"
! L7 ?+ k) E5 r0 I' p( @; |$ X! P- P: p& v" w
model = WhisperModel(model_size, device="cuda", compute_type="int8"): j* e0 Q$ U) a( z% V

! A) y6 Z1 W$ E. ksegments, info = model.transcribe(: E6 K" J( V) u+ q0 f& I. O
    sourceFileName, ( x6 d/ R# N. q/ b; r9 d  n
    beam_size=5,
" Y2 h5 O. l2 X2 M    language="en", + U* \5 p6 `( P3 a. n5 U6 D5 R4 Z
    task="transcribe",
; E( @9 ~( w- c( U, _/ E    word_timestamps=True, / w2 h& L; s; D& G5 O  V3 u
    initial_prompt = "Hello, welcome to my lecture.")
0 A: U; f6 Z9 t2 }. i: ~* N" c" m/ S1 X: v
for segment in segments:- o+ i* K- D, w# h
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
( t/ Z4 B% T9 }6 ^8 W4 }; C& s3 Y
        for word in segment.words:
) N5 L8 Z2 r1 C                ' ]" A3 Y& U4 d( g7 D
----------------------------------------
0 m! d  ^, \: ]- ]
+ I# ^  r" P4 M, N" ?# b, ~3 F代码说明:
  T9 G2 U( N3 D! A7 l8 d! z1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。( t* L4 K0 t, C6 w6 ^. V
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。* J9 w$ z" Y/ P/ y$ o7 h$ g
2,segment 本身是很粗糙的,做字幕勉强能用。' L" _( X3 x- e
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。7 {/ [6 e" N3 O1 V& Q6 P8 Z
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中1 z7 {7 n" @. w# G9 x
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
' S" i, c& R* ?8 S* N' F5,model.transcribe 中参数说明:
; b  W; ~5 G, a/ ^" N你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数0 s9 r: B/ G8 s6 G4 w1 r, i, p* L
其中. X/ j3 ^2 J5 ^( r3 v+ L
    word_timestamps=True, 3 ^1 c/ \( [) K% J; ]
保证了你能拿到 word,否则是拿不到的
9 M4 ^6 n0 }4 U) I  R/ K0 V8 x    initial_prompt = "Hello, welcome to my lecture.")
& O9 ~, U$ \  `' A8 s6 V) ~保证能尽可能准确的断句 punctuation,但是不是决定性的。
4 b7 B, E3 }  W6 C" K) K. r其他参数可参考源文件:! N4 \, n+ G. O4 m2 f* ^
https://github.com/guillaumekln/ ... isper/transcribe.py; P5 M  `' e' R2 ^/ J2 W" Q
152 def transcribe(
2 U# \% Q* q$ x6 L4 B从源文件你可以看到是支持中文的句号断句的。* G7 [1 _9 w: ~) ]# M$ a
8 B5 a3 N% A0 V0 H1 h0 d( }
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
' n/ S% `$ q8 U9 P4 w- u7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
3 A7 {& d% c7 f& m4 O: u8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。# t- C" T1 g! C# J
% C; T' d0 [1 D% P$ a2 m
; T* D0 k5 }/ I! G7 M

0 p% R) T9 l0 h3 y) l
作者: nanimarcus    时间: 2023-6-4 11:53
多谢各位榜爷打赏。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2