|
|
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 + w( F$ r2 K; Z9 x; R
( y) u, ^! l0 d5 d2 M借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
- W; k! c9 c, x8 ~效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
( p+ o) R7 g0 [' y7 q----------------------------------------
; A, A9 U1 K" M0 V; k- G; [5 Z显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。; Y; R8 y1 D) N8 k
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。1 I" l: w5 d% E* Z% A
----------------------------------------
" Q7 \* ^. v( m% `5 a9 P5 {https://github.com/guillaumekln/faster-whisper
; D+ {3 Q% S4 Z. Q& r# V( \; r安装如下:
- w* g! m+ b4 h6 G1, Windows 10
/ { z" y% E$ j. s) z7 b2, Python 3.10.11
7 t9 n' o( A+ r3 e) Y3, CUDA 12.18 J$ G3 j O( w$ j: i. P
4, 在python 3 中安装 I: n' V3 `" c
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
0 _- v ]5 j' B2 V这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
Q( H- m. h& c$ s5,pip install -U openai-whisper
" j" D) H5 F$ ?) U' ^这是向whisper 致敬,可以不装
6 e3 H( p; T8 _, { u* Y7 m6,pip install faster-whisper% C% T2 N `0 f( h; z/ u7 |
----------------------------------------
6 v/ M, ~' y+ b# G2 r* m% a, i1 Awhisper 我用的命令行,faster-whisper 我用的是python。$ c1 A6 [ {: D$ v3 a
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
8 d1 e3 M3 C- c1 n/ V _/ w
. {+ @4 o; }9 R----------------------------------------4 B! }! w& W2 \' n( l/ C; ]
- Y$ Q9 p) K B1 g9 S( }
from faster_whisper import WhisperModel, U& Z" z( k5 e
0 s; n. Z+ k- n7 U9 ]5 mmodel_size = "small"
/ T9 \" O0 D+ s9 {2 m
/ U4 A7 i8 I6 a6 f! @( w9 Jmodel = WhisperModel(model_size, device="cuda", compute_type="int8")
6 _% ?/ q- U/ c% x7 y+ `# c! @; n& w) [3 ]0 q
segments, info = model.transcribe(1 @: a1 @4 A7 @! O+ |
sourceFileName, # Q, a6 g5 j& E4 _; k2 V/ n
beam_size=5,
1 f3 p( L4 \$ m8 w7 I+ D language="en", 3 A3 Q" C$ q8 w- ]* x: M
task="transcribe",
, ]. [' ~; s, N& Z- a! [5 p& S! A! e% k word_timestamps=True, $ a8 s) ?4 n, P9 N3 ~- @9 t0 P: a5 Y
initial_prompt = "Hello, welcome to my lecture.")
; J3 q8 f. F4 e, k. ^8 e
2 C5 P% K" |! ?! B ofor segment in segments:1 ?, E3 L8 d3 x" j! W
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))0 g7 |; ]3 m4 B; e) _3 e' ~
; E8 m# U' n3 D/ y3 V2 K
for word in segment.words:4 x) Z! L9 w% T% N
* s) Y# y6 \# V$ a. `1 R+ R) ^: o m----------------------------------------
& ]9 _' o2 X9 Z$ X- J3 @4 R
$ z/ f) \5 }# ^; C# V. p, h5 t& X代码说明:; L- ~' N/ [' |5 D- ~
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。+ K) q! R+ l4 t8 S: u
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。$ \3 D L5 Q1 \( \! U+ t2 ^9 v
2,segment 本身是很粗糙的,做字幕勉强能用。
- w& G, u+ p8 ~- i! B3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。4 ^4 p9 K! @! J+ n+ t% a& O
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
; u" L) L" U* I# Z( S比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。8 C% t0 t7 M- B" f7 W
5,model.transcribe 中参数说明:
0 j) Q3 R- l5 M$ f/ S& j+ j1 [你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数9 e: ]3 O4 P5 e: p: E6 g
其中9 }# ~* @- s* L- a$ O! D2 z F) G
word_timestamps=True, - H8 i7 ]$ B; ~- }3 w9 f
保证了你能拿到 word,否则是拿不到的6 }: O' | c4 T
initial_prompt = "Hello, welcome to my lecture.")# F6 b" @0 q& g+ h
保证能尽可能准确的断句 punctuation,但是不是决定性的。- c7 D$ l) m$ M0 @9 o3 F: I
其他参数可参考源文件:# n7 B( U; Y- z) o: l. f
https://github.com/guillaumekln/ ... isper/transcribe.py
, L5 n3 h4 U; u+ d0 ?. _152 def transcribe(* H& f/ P( A: v6 l9 r
从源文件你可以看到是支持中文的句号断句的。. q/ Q9 X4 {' F$ s; x; \; _
7 W" ?/ V& t3 P ]0 S6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
# g% B% e2 \: ?/ o' D' o1 C: ]7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
1 A& u, q5 H# \4 X$ K0 u! u8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。/ C5 Q X7 q$ E& ]2 Y
* k2 l+ c5 U0 e
/ U- p+ {$ D5 z, ?1 r% t
4 k6 O7 B1 c, G8 z( Y1 W" ? |
评分
-
查看全部评分
|