爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
. B9 ^9 {% n5 y! Q& n
1 J9 t5 \$ g2 e
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
; ~8 `8 y3 L9 h9 g7 r
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
0 y, k- S1 P* [3 q- D
----------------------------------------
" w& h& e1 U8 y4 b
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
1 I# j+ ~. z' y( m
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
: f) \2 K6 i) L! d$ ~) v
----------------------------------------
! A) Z7 z# l' D( I
https://github.com/guillaumekln/faster-whisper
7 }2 D3 @' F2 }# x! C+ r
安装如下:
" f K0 F$ O/ \# h# C
1, Windows 10
: `* P0 m$ Z( x/ M2 T: ~4 W* f
2, Python 3.10.11
8 Z# q: o( r, ?) r( _
3, CUDA 12.1
) P+ E9 L: g2 r# B9 X! t; }1 S
4, 在python 3 中安装
6 }0 U8 P& Z8 n
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
( ~( ?0 L) O1 z
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
& y) t: K& e3 k& M
5,pip install -U openai-whisper
( d! u+ [ f, U9 _( [# w% c
这是向whisper 致敬,可以不装
5 \. ], D8 |. @' b7 H1 ?+ @. x
6,pip install faster-whisper
% `* r) Z8 q# F6 W6 d, a1 C. g
----------------------------------------
, i' i2 M+ p L1 c1 K
whisper 我用的命令行,faster-whisper 我用的是python。
# \! d4 g2 H) o T) M! I
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
. z/ Y5 }% u; [. N z8 d
% \3 d- K' {( `$ ?
----------------------------------------
1 E: J) |. P/ J' s
0 `% R6 m; D \# B9 h3 D, ^: F2 w; E4 M
from faster_whisper import WhisperModel
/ _' l% T8 g( n# T! @
, N/ B2 i: e8 k/ S* C
model_size = "small"
& ~6 c) [+ L# {* G! t* l6 H/ { g$ D9 F
0 W: s# S* _2 [9 c
model = WhisperModel(model_size, device="cuda", compute_type="int8")
* u# n- U. j9 t7 G- ?8 F5 r# I
6 r7 M4 m) w9 D5 Y: k5 G
segments, info = model.transcribe(
8 D4 c, Z0 v+ C8 i- ]' H3 R
sourceFileName,
2 B3 q8 c3 N) b
beam_size=5,
: u7 J% Q& e/ }7 L2 Z
language="en",
0 {5 |0 L. t z& o. G
task="transcribe",
9 I" d1 D8 ^( ?3 Z' \0 E6 A" b% S$ k
word_timestamps=True,
, @2 J, [3 t) d$ u2 R% I, a
initial_prompt = "Hello, welcome to my lecture.")
; i: M( I' A A7 L- [# Y. x
" q3 `) a, B7 R, d6 P
for segment in segments:
- B7 j: r: `; I+ {* _
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
/ Z% a* J0 k" r5 k/ n
, @: J+ k5 d) @$ Y! Q, l: R
for word in segment.words:
" F) H. O9 M; X4 S" m: O: P
" @/ S# Y( R" B9 C9 V' S
----------------------------------------
& }0 U& V, a0 A! J2 G' ^
2 S# ^- |. h- O6 T' w* U0 ^
代码说明:
9 J5 ^" U/ F3 o( b0 H3 _
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
' _* Y0 ~. Y* c
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
* U2 O& N) Z9 k& d' i4 _! O
2,segment 本身是很粗糙的,做字幕勉强能用。
1 d) y0 y3 {3 O! v4 {+ S% Q- c3 ^
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
1 t3 n, y1 A5 {. a5 L7 t5 ^& w
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
2 O7 E- c, l3 L ]
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
& X" s( q7 |) b) O# X3 a
5,model.transcribe 中参数说明:
! t- y6 N# c2 W! B8 t
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
# E# h8 G+ o! K0 {$ z
其中
% ^$ w3 _7 m$ u
word_timestamps=True,
: |( C0 y2 A T, p
保证了你能拿到 word,否则是拿不到的
7 p2 K8 \9 ^; x, T
initial_prompt = "Hello, welcome to my lecture.")
$ i0 L N! B6 C
保证能尽可能准确的断句 punctuation,但是不是决定性的。
2 ^: D# K* }: G5 n# m( r4 u( E
其他参数可参考源文件:
" j! t( K" m0 G- E( {4 V0 N
https://github.com/guillaumekln/ ... isper/transcribe.py
4 J1 H2 w( `5 Q- ^+ e% J
152 def transcribe(
# U" H3 x* n2 a. L3 Y: a
从源文件你可以看到是支持中文的句号断句的。
. y- U5 |1 \( ?/ V% U% Z
( m9 z% n6 u+ d5 e c6 i
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
. m. u) k5 _" X8 K, G2 \8 N
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
" f' ]- n7 L- T
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
- L! f: w- C( U, |. p5 ^7 F' E/ h
# t9 L z0 I/ V {0 z3 \
' ^( t* x; _$ q1 H7 @( Z
2 U+ y1 G% [3 Z% P# Z
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://129.226.69.186/bbs/)
Powered by Discuz! X3.2