爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
- F6 ?( T; ]% e: |: \2 L1 @
7 m" D: N# P$ Q" b; O) N$ B- w
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
3 O( b f' n( G/ b
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
& H, U! D$ ?3 j a, H4 K! l- g |2 r
----------------------------------------
% J. w7 O" L c/ {. }
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
6 l; s) c& l9 W6 S/ ]" I4 W: @. t7 \
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
6 Q# I4 w+ I' W9 x- P, U! c) m$ T
----------------------------------------
7 B! T$ [: m w
https://github.com/guillaumekln/faster-whisper
+ \% d' _2 F( ]5 C: U
安装如下:
* F' R6 C- @( O1 Z; e- c& K
1, Windows 10
1 h! d. z5 L. [' u* r& c/ N
2, Python 3.10.11
9 f( ~9 d1 T! u+ D5 {
3, CUDA 12.1
; x5 M1 }9 b& v6 q* K. j; G
4, 在python 3 中安装
5 A5 N' Z' O3 x. N! F. y/ g& E
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
* g7 F% ?$ k; E% _( D
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
. x v) p* E& b) N5 w. d$ l4 W2 b
5,pip install -U openai-whisper
" o/ Y ^3 Q6 N
这是向whisper 致敬,可以不装
* T r) g& z. i5 v5 r) T6 w! t
6,pip install faster-whisper
! F2 ~( ]. Y7 r4 Q0 c+ d
----------------------------------------
/ \# x' b( @' @/ Y5 J
whisper 我用的命令行,faster-whisper 我用的是python。
% C2 T0 @! F0 L, k6 `2 F+ ^
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
4 i1 h2 N( u, h6 @$ p$ c8 ~" r
T8 ]% W' `" t( r' F) @! o3 b' N
----------------------------------------
, }8 N; `3 b& `% } y4 S
0 U8 q# l; j; e: z# [1 z5 W6 Q! `
from faster_whisper import WhisperModel
$ H0 ^7 f) O g& N7 f8 |
9 A9 S! J8 u* Y5 g. A# K
model_size = "small"
4 m' N) R- z. ?
R! s+ m4 A1 U' n! V! t
model = WhisperModel(model_size, device="cuda", compute_type="int8")
1 g# y$ s3 M: ^9 Y9 w! F( S6 e/ @& O
x1 I$ U8 A- t* o3 p9 @: }& X
segments, info = model.transcribe(
$ g) L8 R0 @# I g
sourceFileName,
$ j# |9 H1 E1 ~8 Q7 Q Q* U
beam_size=5,
- h6 n8 Z! `- {: W# Z
language="en",
7 E5 Q* r( g! a, U6 u5 |
task="transcribe",
: _9 z8 m E. ]0 ?; y/ Q
word_timestamps=True,
0 L7 h: z" d) w5 v( @
initial_prompt = "Hello, welcome to my lecture.")
8 H; A- m0 j% j9 M7 R
' J; E+ O; [8 ?
for segment in segments:
1 I$ c( E3 M. ]: O; \
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
& \6 y2 V) D( e8 d
3 ]9 j9 i" l& h" D; \1 h) N3 L
for word in segment.words:
/ K* t3 p. M! u9 A7 d2 s
) `8 e O1 }- \- d/ e0 w
----------------------------------------
) s0 l' C& l1 e0 ?* a- ]$ j
5 u* R% T+ _- H; U" F) J
代码说明:
0 J5 v" `4 e1 I; q
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
+ I( W& P1 J( N" w
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
$ u) a& X) I; a4 U* O7 S
2,segment 本身是很粗糙的,做字幕勉强能用。
; M+ d# K$ V$ i& l* U
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
8 ~2 a# |8 X$ _/ d
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
9 W- \7 u" I( @& j) R- O3 F
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
% p; O' X( a, s
5,model.transcribe 中参数说明:
# f+ Q) u* s4 @% V1 ]# t( a
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
4 w( u' }3 d% z# m
其中
& \7 E( X; w: u
word_timestamps=True,
) T" k5 s y1 g, e) e% S
保证了你能拿到 word,否则是拿不到的
0 ]; V% V4 |, }. V+ {5 J& k/ \
initial_prompt = "Hello, welcome to my lecture.")
; p I; C' e; R9 V& x/ Y
保证能尽可能准确的断句 punctuation,但是不是决定性的。
/ C$ b8 s3 Y2 a& M2 D2 p; F! r
其他参数可参考源文件:
! R9 z' O! W3 Y( _+ ^' I) Q
https://github.com/guillaumekln/ ... isper/transcribe.py
" R% @& f' T) U' B G+ m/ v# `* t
152 def transcribe(
D- \% C! Y, \) X; H
从源文件你可以看到是支持中文的句号断句的。
/ t! Z. J8 Y3 n3 I+ i% `+ ]
( r" w4 M5 }) m8 V8 u* y
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
. Y5 U" `8 `/ v) Y W! m u
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
- u/ {+ C) l2 t) V3 w' x t
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
" ~7 i D7 H9 ~6 }9 M5 P; `
1 K J$ M% B# v" A+ ]$ |3 z
0 e- Z! {7 n6 U; q( ^+ l3 x
1 {! \3 S) I# _) T2 ]
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://129.226.69.186/bbs/)
Powered by Discuz! X3.2