设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5303|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 + w( F$ r2 K; Z9 x; R

( y) u, ^! l0 d5 d2 M借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
- W; k! c9 c, x8 ~效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
( p+ o) R7 g0 [' y7 q----------------------------------------
; A, A9 U1 K" M0 V; k- G; [5 Z显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。; Y; R8 y1 D) N8 k
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。1 I" l: w5 d% E* Z% A
----------------------------------------
" Q7 \* ^. v( m% `5 a9 P5 {https://github.com/guillaumekln/faster-whisper
; D+ {3 Q% S4 Z. Q& r# V( \; r安装如下:
- w* g! m+ b4 h6 G1, Windows 10
/ {  z" y% E$ j. s) z7 b2, Python 3.10.11
7 t9 n' o( A+ r3 e) Y3, CUDA 12.18 J$ G3 j  O( w$ j: i. P
4, 在python 3 中安装  I: n' V3 `" c
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
0 _- v  ]5 j' B2 V这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
  Q( H- m. h& c$ s5,pip install -U openai-whisper
" j" D) H5 F$ ?) U' ^这是向whisper 致敬,可以不装
6 e3 H( p; T8 _, {  u* Y7 m6,pip install faster-whisper% C% T2 N  `0 f( h; z/ u7 |
----------------------------------------
6 v/ M, ~' y+ b# G2 r* m% a, i1 Awhisper 我用的命令行,faster-whisper 我用的是python。$ c1 A6 [  {: D$ v3 a
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
8 d1 e3 M3 C- c1 n/ V  _/ w
. {+ @4 o; }9 R----------------------------------------4 B! }! w& W2 \' n( l/ C; ]
- Y$ Q9 p) K  B1 g9 S( }
from faster_whisper import WhisperModel, U& Z" z( k5 e

0 s; n. Z+ k- n7 U9 ]5 mmodel_size = "small"
/ T9 \" O0 D+ s9 {2 m
/ U4 A7 i8 I6 a6 f! @( w9 Jmodel = WhisperModel(model_size, device="cuda", compute_type="int8")
6 _% ?/ q- U/ c% x7 y+ `# c! @; n& w) [3 ]0 q
segments, info = model.transcribe(1 @: a1 @4 A7 @! O+ |
    sourceFileName, # Q, a6 g5 j& E4 _; k2 V/ n
    beam_size=5,
1 f3 p( L4 \$ m8 w7 I+ D    language="en", 3 A3 Q" C$ q8 w- ]* x: M
    task="transcribe",
, ]. [' ~; s, N& Z- a! [5 p& S! A! e% k    word_timestamps=True, $ a8 s) ?4 n, P9 N3 ~- @9 t0 P: a5 Y
    initial_prompt = "Hello, welcome to my lecture.")
; J3 q8 f. F4 e, k. ^8 e
2 C5 P% K" |! ?! B  ofor segment in segments:1 ?, E3 L8 d3 x" j! W
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))0 g7 |; ]3 m4 B; e) _3 e' ~
; E8 m# U' n3 D/ y3 V2 K
        for word in segment.words:4 x) Z! L9 w% T% N
               
* s) Y# y6 \# V$ a. `1 R+ R) ^: o  m----------------------------------------
& ]9 _' o2 X9 Z$ X- J3 @4 R
$ z/ f) \5 }# ^; C# V. p, h5 t& X代码说明:; L- ~' N/ [' |5 D- ~
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。+ K) q! R+ l4 t8 S: u
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。$ \3 D  L5 Q1 \( \! U+ t2 ^9 v
2,segment 本身是很粗糙的,做字幕勉强能用。
- w& G, u+ p8 ~- i! B3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。4 ^4 p9 K! @! J+ n+ t% a& O
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
; u" L) L" U* I# Z( S比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。8 C% t0 t7 M- B" f7 W
5,model.transcribe 中参数说明:
0 j) Q3 R- l5 M$ f/ S& j+ j1 [你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数9 e: ]3 O4 P5 e: p: E6 g
其中9 }# ~* @- s* L- a$ O! D2 z  F) G
    word_timestamps=True, - H8 i7 ]$ B; ~- }3 w9 f
保证了你能拿到 word,否则是拿不到的6 }: O' |  c4 T
    initial_prompt = "Hello, welcome to my lecture.")# F6 b" @0 q& g+ h
保证能尽可能准确的断句 punctuation,但是不是决定性的。- c7 D$ l) m$ M0 @9 o3 F: I
其他参数可参考源文件:# n7 B( U; Y- z) o: l. f
https://github.com/guillaumekln/ ... isper/transcribe.py
, L5 n3 h4 U; u+ d0 ?. _152 def transcribe(* H& f/ P( A: v6 l9 r
从源文件你可以看到是支持中文的句号断句的。. q/ Q9 X4 {' F$ s; x; \; _

7 W" ?/ V& t3 P  ]0 S6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
# g% B% e2 \: ?/ o' D' o1 C: ]7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
1 A& u, q5 H# \4 X$ K0 u! u8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。/ C5 Q  X7 q$ E& ]2 Y
* k2 l+ c5 U0 e
/ U- p+ {$ D5 z, ?1 r% t

4 k6 O7 B1 c, G8 z( Y1 W" ?

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-2-19 03:09 , Processed in 0.054194 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表