|
|
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
: u* J* Z' I5 d0 `3 c5 A- a/ ~* {0 v: v, Q/ [ {
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
# R* [+ a: a- R# A) d5 }& F: ]+ }4 H效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。4 B0 u |0 i% P: J# V
----------------------------------------
! T& F3 m$ V! G0 E显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
+ E9 Q* [) a0 C/ X; t2 G在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
$ I& J8 `6 N( ~$ z----------------------------------------
0 h( v* V& I) {3 ]% jhttps://github.com/guillaumekln/faster-whisper
( [) p4 o7 I; r: i9 ^8 `安装如下:% s: M& i# a: g4 r
1, Windows 106 o$ o3 s2 J" x3 n- R1 ^
2, Python 3.10.110 V; @1 y4 Q( X: m: q" m% E
3, CUDA 12.1( p! V" Q8 F+ k! {
4, 在python 3 中安装& @7 C+ \/ \% h6 _, m
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117. U! B: d4 X; o" G
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。. b2 {2 x2 }* a1 l$ @8 {
5,pip install -U openai-whisper6 P6 B2 M) x, C1 C
这是向whisper 致敬,可以不装
( d% _# v" z: ^ s9 M6,pip install faster-whisper
" G* O- M) k! ?6 P# l----------------------------------------
8 Z6 q; J r8 b3 F$ nwhisper 我用的命令行,faster-whisper 我用的是python。
. q, I: {$ b0 j+ m& l0 F5 m下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:7 V. J8 A; y8 N \# t
/ ~& Q* `. P7 |& X" t! _9 f
----------------------------------------$ h9 S; V' T0 E6 }$ J. `
: l* g2 S. v! [ Q- @from faster_whisper import WhisperModel* K) D' o3 a4 w$ i/ Y- @+ |
) b/ I7 Z1 x* ?3 o6 j
model_size = "small"- d5 w" k% c8 U% M4 v
0 D V+ O- \+ \. T5 w7 {
model = WhisperModel(model_size, device="cuda", compute_type="int8")
2 s6 r2 e' o" m% ~! V0 {' E( r# g* x: J2 @7 q
segments, info = model.transcribe(
" E' I( y- L- _1 @. Q sourceFileName,
2 o1 C+ C4 H6 F3 `+ n, ^ beam_size=5,
. D7 T( M- N) L7 q* P5 a6 h# Z: a language="en", 6 @6 z. y! f' |! }* b
task="transcribe", 4 ]2 H" z/ v/ ]! K3 v7 e1 S5 r
word_timestamps=True, - u5 F0 s/ m! P$ E' g8 |& c
initial_prompt = "Hello, welcome to my lecture.")
# a3 s' q; A" w( k6 a5 S/ c. \
for segment in segments:# V; Y6 L' b. w! ]# ?! h
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))2 u9 K7 @5 o& J
# T& B" x/ G8 x
for word in segment.words:5 ?- C5 @ i8 R9 d/ I3 r
( f8 z& P- v$ h: v$ Z, T2 s
----------------------------------------
% t1 M6 V2 p7 z$ ?: [1 B" ~
( ]6 r6 k% Y0 B: }+ Q4 k代码说明:
n' z3 \4 J. S# \7 q' R1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
, S7 F* ]- e$ k' F9 m+ {" m4 |但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。$ r' g+ }- G* H8 @8 Y4 K
2,segment 本身是很粗糙的,做字幕勉强能用。" T+ |( [( a) G/ Z& I
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
) Q; R4 ~; i3 n' L4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
: g- {9 d1 Y) W! t比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
$ H; G8 M, d; T) {5,model.transcribe 中参数说明:" K5 s( B7 z, B
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数: ?! V; m) G4 w% C
其中
( ^5 m1 r" o- m7 [: z1 e9 j word_timestamps=True, + X8 \% H4 |* v% z. C* s, W
保证了你能拿到 word,否则是拿不到的4 D2 Q- C1 P9 v2 B) w
initial_prompt = "Hello, welcome to my lecture."): H- e6 r9 a2 L7 r$ _2 Z# u" ?) F
保证能尽可能准确的断句 punctuation,但是不是决定性的。
2 U6 p8 Q1 W5 z+ S) K3 _5 ?5 v! @其他参数可参考源文件:/ e! B" c: w+ ]$ M; a0 w" ^& \
https://github.com/guillaumekln/ ... isper/transcribe.py5 n0 o: x) _+ h0 W0 m2 J
152 def transcribe(- k) f1 p! r( C& ~( r
从源文件你可以看到是支持中文的句号断句的。7 {2 J. p, Y$ J0 V: u7 P" D
$ H; z4 ~( w& V* _4 U
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
/ R2 s" u" L3 r5 C7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
2 _3 {1 I* x: |/ Z) `8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
3 B$ V; W4 W& I0 B S! _" j0 E
5 t7 N& k' j+ d. d4 J
9 [; Y' F2 q7 y5 {; \9 w! p% h6 ~! {) E- C3 C- s) H# O& D/ u
|
评分
-
查看全部评分
|