柚子快報邀請碼778899分享:kaldi做語音識別
柚子快報邀請碼778899分享:kaldi做語音識別
kaildi講解
kaldi是一個開源的語音識別工具箱,是基于c++、perl、shell編寫的,可以在windows和unix 平臺上編譯。
教程網(wǎng)頁:http://www.kaldi-asr.org/doc/ 里面可以查閱語音/說話人識別實現(xiàn)過程、kaldi的數(shù)據(jù)結(jié)構(gòu)、命令的使用說明等。還有網(wǎng)上的dan的ppt。
kaldi下載:https://github.com/kaldi-asr/kaldi。
語音識別基礎(chǔ)知識快速入門
英文:《Speech and Language Processing》第9、10章。
中文入門方式可以看《語音信號處理》韓紀慶(編)的語音識別章節(jié);或者《模式分類》這本書的部分章節(jié)。
kaldi安裝
簡要說明:(運行環(huán)境centos7、ubuntu16.4、macos 10.13都能安裝成功) 0、安裝前你需要對你的 linux 進行配置,需要安裝的軟件apt-get、subversion、automake、autoconf、libtool、g++、zlib、libatal、wget,如何安裝見《kaldi的全部資料_v0.7(未完成版本).pdf》。
1、git clone https://github.com/kaldi-asr/kaldi.git 選擇某個路徑,下載kaldi。
2、在命令行cd到kaldi路徑下,cd到tool目錄下,在命令行分別輸入:
make -j?nproc
extras/install_irstlm.sh
install_irstlm.sh是安裝語言模型。
? ? ? ? extras/install_kaldi_lm.sh
install_kaldi_lm.sh 也是安裝語言模型。
3. make 完后,在src目錄下:在命令行分別輸入:
./configure
make depend
make
make階段是編譯階段,將下載的包編譯為可執(zhí)行文件,耗時較長,耐心等待。
ubuntu安裝遇到問題最少,centos和macos上安裝都會出現(xiàn)一些問題,得手動解決。
遇到過的error和解決方法:
make過程中,openfst-1.6.7.tar.gz沒有解壓完全,因此自動又解壓一遍,生成openfst-1.6.7.tar.gz.1,因此要把原openfst-1.6.7.tar.gz刪掉(rm openfst-1.6.7.tar.gz),openfst-1.6.7.tar.gz.1重命名為openfst-1.6.7.tar.gz(mv openfst-1.6.7.tar.gz.1 openfst-1.6.7.tar.gz)。再次make(不需要手動解壓)。 sudo make仍出現(xiàn)permission denied造成error。把文件夾的用戶改成使用者。比如我的用戶名叫work,chown -R work kaldi。 如果多次make都遇到error,建議先make clean把編譯過的全刪掉,再重新裝。
kaldi各文件解釋
/egs:不同語料例子的執(zhí)行腳本文件/tools:存放asr過程中用到的庫/src:存放實際執(zhí)行的c++算法
以aishell為例的ASR過程
命令行到kaldi路徑下,輸入
cd egs/aishell/s5
首先改cmd的配置:
vim cmd.sh
改為:
export train_cmd=run.pl #"queue.pl --mem 2G"
export decode_cmd="run.pl --mem 4G" #"queue.pl --mem 4G"
export mkgraph_cmd="run.pl --mem 8G" #"queue.pl --mem 8G"
export cuda_cmd="run.pl --gpu 1"
原文件的queue是基于集群的,這里我們用本機/服務(wù)器跑,因此改為run.sh。
:wq保存后,輸入:
vim run.sh
看見data=/export/a05/xna/data改成想存放語料的路徑,返回后,新建對應(yīng)的文件夾。之后輸入
./run.sh
就開始進行asr過程了。強烈建議逐行運行,運行當前行時,把其他暫時注釋調(diào),這樣清楚看見每個階段的過程。
過程簡單說來就是:
語料數(shù)據(jù)準備 下載語料庫到本地/服務(wù)器的文件夾數(shù)據(jù)關(guān)系,詞典、語言文件(text, wav.scp, utt2pk, spk2utt)準備,訓(xùn)練集、測試集、驗證集準備單音素(或者其他模型)訓(xùn)練和解碼構(gòu)建解碼圖解碼查看結(jié)果
數(shù)據(jù)準備
1、首先在根目錄下建立路徑:/export/a05/xna/data然后下載數(shù)據(jù)集。這里下載數(shù)據(jù)集要在run.sh前面加sudo命令,這是路徑的緣故。下載數(shù)據(jù)集用到的腳本是local/download_and_untar.sh 需要下載兩個數(shù)據(jù)文件:data_aishell 和 resource_aishell. 2、數(shù)據(jù)準備階段運行腳本:local/aishell_data_prep.sh 運行腳本后會產(chǎn)生 以下文件:
??? spk2utt: 這里存放的是測試集好訓(xùn)練集中每個樣例名稱及其它下面的語音文件名稱。這個文件在test下面則說明是test集的相關(guān)信息,如果在train 文件下則說明是train集的相關(guān)信息。文件內(nèi)容如下所示(只展示部分樣例):

??? text :這里存放的是訓(xùn)練集和測試集中語音文本的信息,第一列是語音文件名,第二列是語音文件所對應(yīng)的說話的內(nèi)容,如下所示(只展示部分信息):
??????? BAC009S0764W0121 甚至 出現(xiàn) 交易 幾乎 停滯 的 情況 ??????? BAC009S0764W0122 一二 線 城市 雖然 也 處于 調(diào)整 中 ??????? BAC009S0764W0123 但 因為 聚集 了 過多 公共 資源 ??????? BAC009S0764W0124 為了 規(guī)避 三四 線 城市 明顯 過剩 的 市場 風險 ??????? BAC009S0764W0125 標桿 房企 必然 調(diào)整 市場 戰(zhàn)略 ??????? BAC009S0764W0126 因此 土地 儲備 至關(guān) 重要 ??????? BAC009S0764W0127 中原 地產(chǎn) 首席 分析 師 張大 偉 說 ??????? BAC009S0764W0128 一 線 城市 土地 供應(yīng) 量 減少
??? transcripts.txt 這個文件是text文件的副本 。內(nèi)容跟text文件的內(nèi)容格式一樣
??? utt.list 這個文件是測試集和訓(xùn)練集中所有語音文件的名稱
??????? BAC009S0764W0121 ??????? BAC009S0764W0122 ??????? BAC009S0764W0123 ??????? BAC009S0764W0124 ??????? BAC009S0764W0125 ??????? BAC009S0764W0126 ??????? BAC009S0764W0127 ??????? BAC009S0764W0128 ??????? BAC009S0764W0129 ??????? BAC009S0764W0130 ??????? BAC009S0764W0131 ??????? BAC009S0764W0132 ??????? BAC009S0764W0133 ??????? BAC009S0764W0134 ??????? BAC009S0764W0135 ??????? BAC009S0764W0136 ??????? BAC009S0764W0137 ??????? BAC009S0764W0138 ??????? BAC009S0764W0139
??? utt2spk_all 這里放的是語音文件的詳細信息。第一列是語音文件名稱,第二列是語音文件類別,即說話人名稱
??? BAC009S0764W0121 S0764 ??? BAC009S0764W0122 S0764 ??? BAC009S0764W0123 S0764 ??? BAC009S0764W0124 S0764 ??? BAC009S0764W0125 S0764 ??? BAC009S0764W0126 S0764 ??? BAC009S0764W0127 S0764 ??? BAC009S0764W0128 S0764 ??? BAC009S0764W0129 S0764 ??? BAC009S0764W0130 S0764 ??? BAC009S0764W0131 S0764 ??? BAC009S0764W0132 S0764 ??? BAC009S0764W0133 S0764 ??? BAC009S0764W0134 S0764 ??? BAC009S0764W0135 S0764 ??? BAC009S0764W0136 S0764 ??? BAC009S0764W0137 S0764 ??? BAC009S0764W0138 S0764 ??? BAC009S0764W0139 S0764 ??? BAC009S0764W0140 S0764
??? wav.flist 這個文件中放的是語音文件的詳細地址和語音文件
??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0360.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0448.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0324.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0133.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0287.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0482.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0456.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0214.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0376.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0157.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0194.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0484.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0490.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0251.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0366.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0210.wav ??????? /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0263.wav
??? wav.scp
??? BAC009S0764W0121 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0360.wav ??? BAC009S0764W0122 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0448.wav ??? BAC009S0764W0123 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0324.wav ??? BAC009S0764W0124 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0133.wav ??? BAC009S0764W0125 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0287.wav ??? BAC009S0764W0126 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0482.wav ??? BAC009S0764W0127 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0456.wav ??? BAC009S0764W0128 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0214.wav ??? BAC009S0764W0129 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0376.wav ??? BAC009S0764W0130 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0157.wav ??? BAC009S0764W0131 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0194.wav ??? BAC009S0764W0132 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0484.wav ??? BAC009S0764W0133 /export/a05/xna/data/data_aishell/wav/test/S0766/BAC009S0766W0490.wav ?
二、特征提取
1、特征提取用到的腳本是:step/make_mfcc.sh 在文件夾exp中會產(chǎn)生make_mfcc文件夾。在make_mfcc文件夾下會有test 和 train 文件夾,里面放的是特征提取的日志。正真對的提取的特征在kaldi-master/egs/aishell/v1/mfcc 中。下面將提取到的特征可視化:
~/kaldi-master/src/featbin/copy-feats ark:/home/gwp/kaldi-master/egs/aishell/v1/mfcc/raw_mfcc_train.2.ark ark,t:- |head
??? 1
運行結(jié)果:
??? BAC009S0036W0279 [ ??? 12.55563 -21.31167 11.26867 6.343046 15.55155 4.494844 20.27812 17.99247 18.88603 11.74063 1.810493 -4.666584 -0.2448959 -1.099169 1.787078 8.768214 -0.5345917 0.7129593 -1.881903 -0.184864 ??? 11.32757 -20.03719 16.31762 6.122036 2.568633 0.9016883 4.645835 9.24137 4.62358 7.516443 11.05698 7.462651 1.606389 2.067619 7.471634 4.220415 -7.865553 -4.594973 -2.89533 2.004371 ??? 11.91236 -24.09615 11.07287 10.10023 11.98197 8.601308 12.80181 20.9095 9.971997 -3.990842 -9.981028 -4.873005 12.09514 -0.05607986 -13.64925 2.12143 9.522418 10.41734 1.833998 2.004371 ??? 13.08194 -23.40003 8.919159 8.774164 14.95662 18.35416 18.23913 16.04778 5.812117 -8.620422 -6.109185 -6.524362 4.739332 7.88231 4.0609 10.8672 7.427207 4.352102 0.8205705 0.7026639 ??? 12.14628 -22.70391 9.506536 7.448099 19.12113 25.02716 16.8798 -1.454416 -6.327747 1.68997 9.730171 3.383781 3.17286 5.459522 3.68193 5.619738 -4.90952 1.926007 5.549899 6.6653 ??? 11.91236 -19.61236 13.08912 7.890121 11.98197 16.81424 3.966171 13.13075 9.377729 3.729235 7.266272 22.1378 17.13299 0.987011 -1.784221 -2.556049 0.3034925 -2.488651 0.4827612 0.9393382 ??? 12.84803 -17.27582 15.67192 10.76326 8.27466 12.19446 -10.80211 11.18606 13.53761 4.166221 9.202192 15.51031 1.463983 4.974965 8.608545 2.471261 4.074871 -1.730374 -1.206284 4.040326 ??? 12.20475 -22.00779 10.87708 8.332142 17.93127 11.16785 8.044158 17.99247 18.29176 18.80422 15.70079 9.829611 -8.219662 -8.25178 4.43987 8.768214 -0.1155496 -3.246927 -2.89533 -1.427403 ??? 11.7954 -22.00779 8.13599 7.448099 16.14648 11.68116 6.005165 17.02012 22.45164 9.555708 8.49822 6.042475 1.606389 -2.589295 -4.964538 1.071938 1.141577 2.896445 -8.269815 -1.604908
2、特征提取結(jié)束后還要運行腳本sid/compute_vad_decision.sh 進行數(shù)據(jù)預(yù)處理,進行VAD檢測。VAD是語音激活檢測算法,用于判斷什么時候有語音輸出,什么時候是靜音狀態(tài)。 3、如果在此數(shù)據(jù)出現(xiàn)異常重復(fù)等都可以運行腳本utils/fix_data_dir.sh 進行處理。
utils/fix_data_dir.sh data/所有data下的文件都可以進行處理。
之后會在 exp 文件夾下產(chǎn)生一個 mono 的目錄,里面以 .mdl 結(jié)尾的就保存了模型的參數(shù)。使用下面的命令可以查看模型的內(nèi)容。
$ gmm-copy --binary=false exp/mono/0.mdl - | less
構(gòu)建單音素解碼圖:
# Monophone decoding utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1;
mkgraph.sh主要生成了HCLG.fst和words.txt這兩個重要的文件,后續(xù)識別主要利用了三個文件,分別是final.mdl、HCLG.fst、words.txt。
解碼:分別針對開發(fā)集和測試集解碼
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \ exp/mono/graph data/dev exp/mono/decode_dev steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \ exp/mono/graph data/test exp/mono/decode_test
解碼的日志會保存在 exp/mono/decode_dev/log 和 exp/mono/decode_test/log 里。
Veterbi 對齊
# Get alignments from monophone system. steps/align_si.sh --cmd "$train_cmd" --nj 10 \ data/train data/lang exp/mono exp/mono_ali || exit 1;
之后就是和訓(xùn)練單音素一樣,進行其他模型的訓(xùn)練解碼,生成聲學(xué)模型和語言模型,保存在/exp中。
查看結(jié)果:
輸入下面的命令來查看結(jié)果
# getting results (see RESULTS file) for x in exp/*/decode_test; do [ -d $x ] && grep WER $x/cer_* | utils/best_wer.sh; done 2>/dev/null
總結(jié):aishell的/s5/run.sh文件運行了gmm+hmm hybrid模型以及dnn+hmm hybrid模型。
首先用標準的13維MFCC加上一階和二階導(dǎo)數(shù)訓(xùn)練單音素GMM系統(tǒng),采用倒譜均值歸一化(CMN)來降低通道效應(yīng)。然后基于具有由LDA和MLLT變換的特征的單音系統(tǒng)構(gòu)造三音GMM系統(tǒng),最后的GMM系統(tǒng)用于為隨后的DNN訓(xùn)練生成狀態(tài)對齊?;贕MM系統(tǒng)提供的對齊來訓(xùn)練DNN系統(tǒng),特征是40維FBank,并且相鄰的幀由11幀窗口(每側(cè)5個窗口)連接。連接的特征被LDA轉(zhuǎn)換,其中維度降低到200。然后應(yīng)用全局均值和方差歸一化以獲得DNN輸入。DNN架構(gòu)由4個隱藏層組成,每個層由1200個單元組成,輸出層由3386個單元組成。 基線DNN模型用交叉熵的標準訓(xùn)練。 使用隨機梯度下降(SGD)算法來執(zhí)行優(yōu)化。 將迷你批量大小設(shè)定為256,初始學(xué)習率設(shè)定為0.008。被噪聲干擾的語音可以使用基于深度自動編碼器(DAE)的噪聲消除方法。DAE是自動編碼器(AE)的一種特殊實現(xiàn),通過在模型訓(xùn)練中對輸入特征引入隨機破壞。已經(jīng)表明,該模型學(xué)習低維度特征的能力非常強大,并且可以用于恢復(fù)被噪聲破壞的信號。在實踐中,DAE被用作前端管道的特定組件。輸入是11維Fbank特征(在均值歸一化之后),輸出是對應(yīng)于中心幀的噪聲消除特征。然后對輸出進行LDA變換,提取全局標準化的常規(guī)Fbank特征,然后送到DNN聲學(xué)模型(用純凈語音進行訓(xùn)練)。
train_mono.sh 用來訓(xùn)練單音子隱馬爾科夫模型,一共進行40次迭代,每兩次迭代進行一次對齊操作train_deltas.sh 用來訓(xùn)練與上下文相關(guān)的三音子模型train_lda_mllt.sh 用來進行線性判別分析和最大似然線性轉(zhuǎn)換train_sat.sh 用來訓(xùn)練發(fā)音人自適應(yīng),基于特征空間最大似然線性回歸nnet3/run_dnn.sh 用nnet3來訓(xùn)練DNN,包括xent和MPE用chain訓(xùn)練DNN
aishell訓(xùn)練模型的詞錯誤率wer和字錯誤率cer如下:
%WER 44.23 [ 28499 / 64428, 1821 ins, 4610 del, 22068 sub ] exp/mono/decode_test/wer_13_0.0 %WER 29.67 [ 19113 / 64428, 1567 ins, 2934 del, 14612 sub ] exp/tri1/decode_test/wer_14_0.5 %WER 29.24 [ 18841 / 64428, 1557 ins, 2813 del, 14471 sub ] exp/tri2/decode_test/wer_15_0.5 %WER 27.38 [ 17640 / 64428, 1764 ins, 2267 del, 13609 sub ] exp/tri3a/decode_test/wer_16_0.0 %WER 23.44 [ 15102 / 64428, 1468 ins, 2110 del, 11524 sub ] exp/tri4a/decode_test/wer_15_0.5 %WER 21.76 [ 14017 / 64428, 1383 ins, 1954 del, 10680 sub ] exp/tri5a/decode_test/wer_16_0.5 %WER 17.43 [ 11233 / 64428, 1077 ins, 1675 del, 8481 sub ] exp/nnet3/tdnn_sp/decode_test/wer_16_0.5 %WER 15.96 [ 10281 / 64428, 919 ins, 1672 del, 7690 sub ] exp/chain/tdnn_1a_sp/decode_test/wer_12_0.5 %CER 34.13 [ 35757 / 104765, 783 ins, 3765 del, 31209 sub ] exp/mono/decode_test/cer_11_0.0 %CER 19.56 [ 20496 / 104765, 910 ins, 1436 del, 18150 sub ] exp/tri1/decode_test/cer_13_0.5 %CER 19.16 [ 20073 / 104765, 989 ins, 1211 del, 17873 sub ] exp/tri2/decode_test/cer_13_0.5 %CER 17.24 [ 18060 / 104765, 780 ins, 1024 del, 16256 sub ] exp/tri3a/decode_test/cer_13_0.5 %CER 13.58 [ 14227 / 104765, 640 ins, 716 del, 12871 sub ] exp/tri4a/decode_test/cer_14_0.5 %CER 12.22 [ 12803 / 104765, 668 ins, 565 del, 11570 sub ] exp/tri5a/decode_test/cer_14_0.5 %CER 8.44 [ 8838 / 104765, 331 ins, 510 del, 7997 sub ] exp/nnet3/tdnn_sp/decode_test/cer_14_0.5 %CER 7.37 [ 7722 / 104765, 303 ins, 581 del, 6838 sub ] exp/chain/tdnn_1a_sp/decode_test/cer_11_1.0
在線識別
在kaldi 的工具集里有好幾個程序可以用于在線識別。這些程序都位在src/onlinebin文件夾里,他們是由src/online文件夾里的文件編譯而成(你現(xiàn)在可以用make ext 命令進行編譯)。這些程序大多還需要tools文件夾中的portaudio 庫文件支持,portaudio 庫文件可以使用tools文件夾中的相應(yīng)腳本文件下載安裝。
# 安裝portaudio yum -y install *alsa* cd kaldi/tools/ ./install_portaudio.sh # 編譯在線識別工具 cd src/ make ext 或者進入kaldi/src/online和kaldi/src/onlinebin,分別make clean ,make就完美解決
服務(wù)器linux系統(tǒng)查看顯卡信息:
root@poweredge:/joanna/kaldi/egs/aishell/online_demo# lspci -vnn | grep VGA -A 12 03:00.0 VGA compatible controller [0300]: Matrox Electronics Systems Ltd. Integrated Matrox G200eW3 Graphics Controller [102b:0536] (rev 04) (prog-if 00 [VGA controller]) ?? ?DeviceName: Embedded Video ?? ?Subsystem: Dell Integrated Matrox G200eW3 Graphics Controller [1028:07e5] ?? ?Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 16, NUMA node 0 ?? ?Memory at 91000000 (32-bit, prefetchable) [size=16M] ?? ?Memory at 92808000 (32-bit, non-prefetchable) [size=16K] ?? ?Memory at 92000000 (32-bit, non-prefetchable) [size=8M] ?? ?Expansion ROM at 000c0000 [virtual] [disabled] [size=128K] ?? ?Capabilities: [dc] Power Management version 3 ?? ?Kernel driver in use: mgag200 ?? ?Kernel modules: mgag200
17:00.0 PCI bridge [0604]: Intel Corporation Sky Lake-E PCI Express Root Port A [8086:2030] (rev 07) (prog-if 00 [Normal decode])
柚子快報邀請碼778899分享:kaldi做語音識別
推薦鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。