|
|
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 V4 J2 ^6 V" t# ?2 H6 u: R) q
/ h8 m: Z( F% u; n. L1 G3 a( K借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。, R4 y$ [+ U5 K/ l4 ^
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。! c5 S* k. u6 G( N, N, }
----------------------------------------
3 U0 m& e# u4 T% O' M2 l* o7 |显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
6 j$ h+ v* d' s6 }" V在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
- Y* r- T$ E( r----------------------------------------
. z/ W0 a' O4 d Ghttps://github.com/guillaumekln/faster-whisper. l2 q) j6 Z: P# r5 u8 r. l
安装如下:( L" H" Z4 I2 D! n; l" o+ _
1, Windows 105 G! |( U% e7 V4 R* x4 Z0 u3 x4 J' ]4 g
2, Python 3.10.11- l. X7 e" f) o% Q+ ?! s0 {
3, CUDA 12.13 ]+ U5 S2 n) p! x) l% F
4, 在python 3 中安装
/ @; X! \- W2 P+ Xpip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
0 f9 Y" c/ ]: l0 Y这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
0 T7 M4 h: f6 ~% r& [+ S2 K5,pip install -U openai-whisper
1 I) h( X/ j2 T7 Z, Z/ w5 Z这是向whisper 致敬,可以不装
) ^* f% L1 Q6 z* F0 Y6,pip install faster-whisper
2 S: K- f, T( ^# |! L* n----------------------------------------
! W9 G& y/ Y5 awhisper 我用的命令行,faster-whisper 我用的是python。$ K/ @' u) x* w, }3 _! O3 W
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:2 o5 {) Y: D0 E
- P3 [7 Y; ]+ T1 T2 t
----------------------------------------- p: S; k3 J; X4 E5 y2 A
7 x7 G& v5 ^' C d9 r% `/ V; R
from faster_whisper import WhisperModel
$ b5 e+ V, X' b( k7 B
+ k3 N2 X" m& B5 v$ i% n$ Dmodel_size = "small"' u5 V6 b+ e- S* ^# {9 S
( g3 I% r% d* d' P# ?5 \) s) r- umodel = WhisperModel(model_size, device="cuda", compute_type="int8")- z/ I, [; {" k0 ?) K; V: o0 O% g3 O
5 k3 j, K' s& {( s0 ?" s- s. E
segments, info = model.transcribe(8 D% H9 X+ N% I+ V
sourceFileName, # X& F8 d& b$ [9 Y' |
beam_size=5,
+ g' _& t& c& r# ` language="en",
4 e2 `, |/ A* {$ W1 i& [$ s5 a6 u task="transcribe",
# u3 B4 [ e0 o2 J9 a+ A word_timestamps=True,
& e8 t5 @. M1 Z. v initial_prompt = "Hello, welcome to my lecture."). d) @& \. S: v: Z- ^
5 A# {, _0 z! r' K8 {3 C) Z
for segment in segments:
9 p" j% Z. W: \1 B- Y print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))7 ]: A' D3 v W
* l, L( @( R& L4 z$ k4 d: ~2 ` D for word in segment.words:* |# V2 [% l/ r2 q8 M5 C
) m+ U1 c" w# O" R) p2 F4 Q----------------------------------------
3 O+ N7 Z( w; ]
- n( D9 _/ _8 B o$ f3 I0 X- `代码说明:/ b5 e9 X/ k! ~+ j) W# _
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
( @! W8 L' ?4 X" ~# E+ _6 D但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。% c- S9 W: ]0 Q4 u5 f
2,segment 本身是很粗糙的,做字幕勉强能用。' t- i m* F$ o! k6 P2 y
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
# U Z3 y( j( o" i' {4 U4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中0 C" g( w* a# C
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。/ q Y$ h9 K+ S$ w, J6 N0 R
5,model.transcribe 中参数说明:& L. d' u4 Q. H2 V% H# v+ B
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数* B& K+ n) |7 H X, g
其中, i8 W+ R* b3 r+ P
word_timestamps=True,
/ _1 }" W3 L8 w y* \保证了你能拿到 word,否则是拿不到的' r \* L# Y! a7 [' w. S- E
initial_prompt = "Hello, welcome to my lecture.")8 ~) t$ X& {6 B& u# I" u6 W
保证能尽可能准确的断句 punctuation,但是不是决定性的。
0 j R: U1 K# X( Y. e其他参数可参考源文件:
) P1 k C; c: K/ F' W# ?& fhttps://github.com/guillaumekln/ ... isper/transcribe.py
2 Q+ x/ P7 m5 L; l: l152 def transcribe(
7 V3 g4 ^7 I0 K: c8 ^) y8 s% T从源文件你可以看到是支持中文的句号断句的。
4 D1 X5 n+ l9 X
8 m% ^- o' @- z* V6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
, c, J9 R6 z' ^4 e% [7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。( b) X* v; R7 e: e8 N
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
1 I, S1 [, Y9 m
2 i: k1 O* G/ U+ ], X
- y! N* I* c6 O7 v
5 q# ?8 \, |- R5 \! P- M. I |
评分
-
查看全部评分
|