merge main

wenet-e2e · robin1001 · Oct 30, 2023 · Oct 16, 2023 · Oct 20, 2023 · Oct 23, 2023
commit c11aefeb9e92c5dc954cbb236615c1871e338ef5
diff --git a/wenet/cli/paraformer_model.py b/wenet/cli/paraformer_model.py
@@ -19,7 +19,7 @@ def __init__(self, model_dir: str) -> None:
         self.char_dict = {v: k for k, v in symbol_table.items()}
         self.eos = 2
 
-    def transcribe(self, audio_file: str):
+    def transcribe(self, audio_file: str, tokens_info: bool = False) -> dict:
         waveform, sample_rate = torchaudio.load(audio_file, normalize=False)
         waveform = waveform.to(torch.float)
         feats = kaldi.fbank(waveform,
@@ -36,7 +36,6 @@ def transcribe(self, audio_file: str):
 
         res = paraformer_greedy_search(decoder_out, token_num)[0]
 
-        tokens_info = True
         result = {}
         result['confidence'] = res.confidence
         # # TODO(Mddct): deal with '@@' and 'eos'
@@ -56,3 +55,12 @@ def transcribe(self, audio_file: str):
 
         # result = ''.join(hyp)
         return result
+
+    def align(self, audio_file: str, label: str) -> dict:
+        raise NotImplementedError
+
+
+def load_model(language: str = None, model_dir: str = None) -> Paraformer:
+    if model_dir is None:
+        model_dir = Hub.get_model_by_lang(language)
+    return Paraformer(model_dir)
diff --git a/wenet/cli/transcribe.py b/wenet/cli/transcribe.py
@@ -14,6 +14,7 @@
 
 import argparse
 
+from wenet.cli.paraformer_model import load_model as load_paraformer
 from wenet.cli.model import load_model
 
 
@@ -25,7 +26,6 @@ def get_args():
                         choices=[
                             'chinese',
                             'english',
-                            'chinese-paraformer',
                         ],
                         default='chinese',
                         help='language type')
@@ -41,14 +41,24 @@ def get_args():
     parser.add_argument('--align',
                         action='store_true',
                         help='force align the input audio and transcript')
-    parser.add_argument('--label', type=str, help='the input label to align')
+    parser.add_argument('--label',
+                        type=bool,
+                        default=False,
+                        help='the input label to align')
+    parser.add_argument('--paraformer',
+                        action='store_true',
+                        help='whether to use the best chinese model')
     args = parser.parse_args()
     return args
 
 
 def main():
     args = get_args()
-    model = load_model(args.language, args.model_dir)
+
+    if args.paraformer:
+        model = load_paraformer(args.language, args.model_dir)
+    else:
+        model = load_model(args.language, args.model_dir)
     if args.align:
         result = model.align(args.audio_file, args.label)
     else: