爱吱声

标题: faster-whisper 更快的语音到文字的识别 ASR [打印本页]

作者: nanimarcus    时间: 2023-6-4 02:10
标题: faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 - F6 ?( T; ]% e: |: \2 L1 @

7 m" D: N# P$ Q" b; O) N$ B- w借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。3 O( b  f' n( G/ b
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
& H, U! D$ ?3 j  a, H4 K! l- g  |2 r----------------------------------------% J. w7 O" L  c/ {. }
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。6 l; s) c& l9 W6 S/ ]" I4 W: @. t7 \
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。6 Q# I4 w+ I' W9 x- P, U! c) m$ T
----------------------------------------7 B! T$ [: m  w
https://github.com/guillaumekln/faster-whisper+ \% d' _2 F( ]5 C: U
安装如下:* F' R6 C- @( O1 Z; e- c& K
1, Windows 101 h! d. z5 L. [' u* r& c/ N
2, Python 3.10.119 f( ~9 d1 T! u+ D5 {
3, CUDA 12.1; x5 M1 }9 b& v6 q* K. j; G
4, 在python 3 中安装5 A5 N' Z' O3 x. N! F. y/ g& E
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
* g7 F% ?$ k; E% _( D这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
. x  v) p* E& b) N5 w. d$ l4 W2 b5,pip install -U openai-whisper
" o/ Y  ^3 Q6 N这是向whisper 致敬,可以不装
* T  r) g& z. i5 v5 r) T6 w! t6,pip install faster-whisper! F2 ~( ]. Y7 r4 Q0 c+ d
----------------------------------------
/ \# x' b( @' @/ Y5 Jwhisper 我用的命令行,faster-whisper 我用的是python。
% C2 T0 @! F0 L, k6 `2 F+ ^下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:4 i1 h2 N( u, h6 @$ p$ c8 ~" r

  T8 ]% W' `" t( r' F) @! o3 b' N----------------------------------------, }8 N; `3 b& `% }  y4 S
0 U8 q# l; j; e: z# [1 z5 W6 Q! `
from faster_whisper import WhisperModel
$ H0 ^7 f) O  g& N7 f8 |
9 A9 S! J8 u* Y5 g. A# Kmodel_size = "small"
4 m' N) R- z. ?
  R! s+ m4 A1 U' n! V! tmodel = WhisperModel(model_size, device="cuda", compute_type="int8")
1 g# y$ s3 M: ^9 Y9 w! F( S6 e/ @& O
  x1 I$ U8 A- t* o3 p9 @: }& Xsegments, info = model.transcribe($ g) L8 R0 @# I  g
    sourceFileName,
$ j# |9 H1 E1 ~8 Q7 Q  Q* U    beam_size=5, - h6 n8 Z! `- {: W# Z
    language="en", 7 E5 Q* r( g! a, U6 u5 |
    task="transcribe", : _9 z8 m  E. ]0 ?; y/ Q
    word_timestamps=True,
0 L7 h: z" d) w5 v( @    initial_prompt = "Hello, welcome to my lecture.")
8 H; A- m0 j% j9 M7 R' J; E+ O; [8 ?
for segment in segments:
1 I$ c( E3 M. ]: O; \    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
& \6 y2 V) D( e8 d
3 ]9 j9 i" l& h" D; \1 h) N3 L        for word in segment.words:/ K* t3 p. M! u9 A7 d2 s
                ) `8 e  O1 }- \- d/ e0 w
----------------------------------------
) s0 l' C& l1 e0 ?* a- ]$ j
5 u* R% T+ _- H; U" F) J代码说明:
0 J5 v" `4 e1 I; q1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。+ I( W& P1 J( N" w
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。$ u) a& X) I; a4 U* O7 S
2,segment 本身是很粗糙的,做字幕勉强能用。
; M+ d# K$ V$ i& l* U3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
8 ~2 a# |8 X$ _/ d4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中9 W- \7 u" I( @& j) R- O3 F
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
% p; O' X( a, s5,model.transcribe 中参数说明:# f+ Q) u* s4 @% V1 ]# t( a
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数4 w( u' }3 d% z# m
其中& \7 E( X; w: u
    word_timestamps=True, ) T" k5 s  y1 g, e) e% S
保证了你能拿到 word,否则是拿不到的0 ]; V% V4 |, }. V+ {5 J& k/ \
    initial_prompt = "Hello, welcome to my lecture.")
; p  I; C' e; R9 V& x/ Y保证能尽可能准确的断句 punctuation,但是不是决定性的。
/ C$ b8 s3 Y2 a& M2 D2 p; F! r其他参数可参考源文件:
! R9 z' O! W3 Y( _+ ^' I) Qhttps://github.com/guillaumekln/ ... isper/transcribe.py
" R% @& f' T) U' B  G+ m/ v# `* t152 def transcribe(  D- \% C! Y, \) X; H
从源文件你可以看到是支持中文的句号断句的。/ t! Z. J8 Y3 n3 I+ i% `+ ]
( r" w4 M5 }) m8 V8 u* y
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。. Y5 U" `8 `/ v) Y  W! m  u
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。- u/ {+ C) l2 t) V3 w' x  t
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
" ~7 i  D7 H9 ~6 }9 M5 P; `1 K  J$ M% B# v" A+ ]$ |3 z

0 e- Z! {7 n6 U; q( ^+ l3 x
1 {! \3 S) I# _) T2 ]
作者: nanimarcus    时间: 2023-6-4 11:53
多谢各位榜爷打赏。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2