cli work

wenet-e2e · robin1001 · Oct 30, 2023 · Oct 16, 2023 · Oct 20, 2023 · Oct 23, 2023
commit 20146f45c8c4f366939f9e3f02787c61450e9eb1
diff --git a/wenet/cli/paraformer_model.py b/wenet/cli/paraformer_model.py
@@ -0,0 +1,42 @@
+import os
+
+import torch
+import torchaudio
+import torchaudio.compliance.kaldi as kaldi
+
+from wenet.paraformer.search import paraformer_beam_search, paraformer_greedy_search
+from wenet.utils.file_utils import read_symbol_table
+
+
+class Paraformer:
+
+    def __init__(self, model_dir: str) -> None:
+
+        model_path = os.path.join(model_dir, 'final.zip')
+        units_path = os.path.join(model_dir, 'units.txt')
+        self.model = torch.jit.load(model_path)
+        symbol_table = read_symbol_table(units_path)
+        self.char_dict = {v: k for k, v in symbol_table.items()}
+        self.eos = 2
+
+    def transcribe(self, audio_file: str):
+        waveform, sample_rate = torchaudio.load(audio_file, normalize=False)
+        waveform = waveform.to(torch.float)
+        feats = kaldi.fbank(waveform,
+                            num_mel_bins=80,
+                            frame_length=25,
+                            frame_shift=10,
+                            energy_floor=0.0,
+                            sample_frequency=16000)
+        feats = feats.unsqueeze(0)
+        feats_lens = torch.tensor([feats.size(1)], dtype=torch.int64)
+
+        decoder_out, token_num = self.model.forward_paraformer(
+            feats, feats_lens)
+
+        results = paraformer_greedy_search(decoder_out, token_num)
+        hyp = [self.char_dict[x] for x in results[0].tokens]
+
+        # TODO(Mddct): deal with '@@'
+        result = ''.join(hyp)
+        return result
diff --git a/wenet/cli/transcribe.py b/wenet/cli/transcribe.py
@@ -15,6 +15,8 @@
 import argparse
 
 from wenet.cli.model import Model
+from wenet.cli.paraformer_model import Paraformer
+
 
 def get_args():
     parser = argparse.ArgumentParser(description='')
@@ -23,17 +25,22 @@ def get_args():
                         choices=[
                             'chinese',
                             'english',
+                            'chinese-paraformer',
                         ],
                         default='chinese',
                         help='language type')
+    parser.add_argument('--model_dir', default='', help='wenet jit model dirs')
 
     args = parser.parse_args()
     return args
 
 
 def main():
     args = get_args()
-    model = Model(args.language)
+    if args.language == 'chinese-paraformer':
+        model = Paraformer(args.model_dir)
+    else:
+        model = Model(args.language)
     result = model.transcribe(args.audio_file)
     print(result)
 

diff --git a/wenet/paraformer/ali_paraformer/export_jit.py b/wenet/paraformer/ali_paraformer/export_jit.py
@@ -3,8 +3,6 @@
 
 import argparse
 import torch
-import torchaudio
-import torchaudio.compliance.kaldi as kaldi
 import yaml
 from wenet.utils.checkpoint import load_checkpoint
 from wenet.utils.file_utils import read_symbol_table

diff --git a/wenet/paraformer/ali_paraformer/model.py b/wenet/paraformer/ali_paraformer/model.py
@@ -9,12 +9,9 @@
                                                        MultiHeadAttentionCross,
                                                        MultiHeadedAttentionSANM
                                                        )
-from wenet.paraformer.paraformer import Paraformer
 from wenet.paraformer.search import paraformer_beam_search, paraformer_greedy_search
-from wenet.transducer.predictor import PredictorBase
-from wenet.transformer.ctc import CTC
 from wenet.transformer.search import DecodeResult
-from wenet.transformer.encoder import BaseEncoder, TransformerEncoder
+from wenet.transformer.encoder import BaseEncoder
 from wenet.transformer.decoder import TransformerDecoder
 from wenet.transformer.decoder_layer import DecoderLayer
 from wenet.transformer.encoder_layer import TransformerEncoderLayer