爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
5 X0 g* c2 C7 N8 e
) E' X8 T/ n+ B {/ D( _
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
* i6 E# h/ p% L) D: n: k* B; I5 j
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
. V4 h# Z, L# T1 \! `7 g7 w
----------------------------------------
: Z: [* E, u7 D/ D
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
+ m( k- I! L( H4 ?9 J
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
! B3 x7 g5 f9 K! E7 i, w, H
----------------------------------------
8 ]3 `9 c) L' I9 [6 X2 Y- v
https://github.com/guillaumekln/faster-whisper
, o* m( S6 c1 S3 E1 s
安装如下:
# m# N6 ]( @ a
1, Windows 10
d' u! \8 d: Z% p
2, Python 3.10.11
; T0 y* j* ]% d* f2 E( c4 X
3, CUDA 12.1
1 z7 u1 E& h. A$ e6 K- w
4, 在python 3 中安装
7 N, v+ s( ]$ \# G% Y+ R" W# W3 H. x
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
: s2 T4 @- n' ~
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
5 z% l; Q; T; ^
5,pip install -U openai-whisper
4 \% a9 h+ n$ [7 ~4 o
这是向whisper 致敬,可以不装
; _% P$ L& Q' w& U& ]# a
6,pip install faster-whisper
. L f0 x' A2 R- X# P. q1 m
----------------------------------------
$ F( B1 [! s+ ?+ Q3 H
whisper 我用的命令行,faster-whisper 我用的是python。
8 \3 d6 [% f: y; ~9 v
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
) Q1 V/ {, ?% F6 W
& |9 G! g0 [1 Z2 e: [: k' t8 D
----------------------------------------
0 f5 |. X( K3 S& H" ]; s
/ A# F* t/ \2 b8 U
from faster_whisper import WhisperModel
2 R- q1 n# L( _" a
& Y7 {1 H7 R& v5 D9 h8 }4 r
model_size = "small"
! L7 ?+ k) E5 r0 I' p( @
; |$ X! P- P: p& v" w
model = WhisperModel(model_size, device="cuda", compute_type="int8")
: j* e0 Q$ U) a( z% V
! A) y6 Z1 W$ E. k
segments, info = model.transcribe(
: E6 K" J( V) u+ q0 f& I. O
sourceFileName,
( x6 d/ R# N. q/ b; r9 d n
beam_size=5,
" Y2 h5 O. l2 X2 M
language="en",
+ U* \5 p6 `( P3 a. n5 U6 D5 R4 Z
task="transcribe",
; E( @9 ~( w- c( U, _/ E
word_timestamps=True,
/ w2 h& L; s; D& G5 O V3 u
initial_prompt = "Hello, welcome to my lecture.")
0 A: U; f6 Z9 t2 }
. i: ~* N" c" m/ S1 X: v
for segment in segments:
- o+ i* K- D, w# h
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
( t/ Z4 B% T9 }
6 ^8 W4 }; C& s3 Y
for word in segment.words:
) N5 L8 Z2 r1 C
' ]" A3 Y& U4 d( g7 D
----------------------------------------
0 m! d ^, \: ]- ]
+ I# ^ r" P4 M, N" ?# b, ~3 F
代码说明:
T9 G2 U( N3 D! A7 l8 d! z
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
( t* L4 K0 t, C6 w6 ^. V
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
* J9 w$ z" Y/ P/ y$ o7 h$ g
2,segment 本身是很粗糙的,做字幕勉强能用。
' L" _( X3 x- e
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
7 {/ [6 e" N3 O1 V& Q6 P8 Z
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
1 z7 {7 n" @. w# G9 x
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
' S" i, c& R* ?8 S* N' F
5,model.transcribe 中参数说明:
; b W; ~5 G, a/ ^" N
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
0 s9 r: B/ G8 s6 G4 w1 r, i, p* L
其中
. X/ j3 ^2 J5 ^( r3 v+ L
word_timestamps=True,
3 ^1 c/ \( [) K% J; ]
保证了你能拿到 word,否则是拿不到的
9 M4 ^6 n0 }4 U) I R/ K0 V8 x
initial_prompt = "Hello, welcome to my lecture.")
& O9 ~, U$ \ `' A8 s6 V) ~
保证能尽可能准确的断句 punctuation,但是不是决定性的。
4 b7 B, E3 } W6 C" K) K. r
其他参数可参考源文件:
! N4 \, n+ G. O4 m2 f* ^
https://github.com/guillaumekln/ ... isper/transcribe.py
; P5 M `' e' R2 ^/ J2 W" Q
152 def transcribe(
2 U# \% Q* q$ x6 L4 B
从源文件你可以看到是支持中文的句号断句的。
* G7 [1 _9 w: ~) ]# M$ a
8 B5 a3 N% A0 V0 H1 h0 d( }
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
' n/ S% `$ q8 U9 P4 w- u
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
3 A7 {& d% c7 f& m4 O: u
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
# t- C" T1 g! C# J
% C; T' d0 [1 D% P$ a2 m
; T* D0 k5 }/ I! G7 M
0 p% R) T9 l0 h3 y) l
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://129.226.69.186/bbs/)
Powered by Discuz! X3.2