commit missing changes

wenet-e2e · robin1001 · Nov 19, 2021 · Oct 13, 2021 · Oct 28, 2021 · Oct 29, 2021
commit 958621c18aa31a790823f31f768d93b9b6c8dd2b
diff --git a/wenet/dataset/dataset.py b/wenet/dataset/dataset.py
@@ -139,7 +139,8 @@ def Dataset(data_type, data_list_file, symbol_table, conf,
     else:
         dataset = Processor(dataset, processor.parse_raw)
 
-    dataset = Processor(dataset, processor.tokenize, symbol_table, bpe_model, conf.get('char', False))
+    dataset = Processor(dataset, processor.tokenize, symbol_table, \
+        bpe_model, conf.get('split_with_space', False))
     filter_conf = conf.get('filter_conf', {})
     dataset = Processor(dataset, processor.filter, **filter_conf)
 

diff --git a/wenet/dataset/processor.py b/wenet/dataset/processor.py
@@ -258,7 +258,7 @@ def compute_fbank(data,
         yield dict(key=sample['key'], label=sample['label'], feat=mat)
 
 
-def tokenize(data, symbol_table, bpe_model=None, char=False):
+def tokenize(data, symbol_table, bpe_model=None, split_with_space=False):
     """ Decode text to chars or BPE
         Inplace operation
 
@@ -289,7 +289,7 @@ def tokenize(data, symbol_table, bpe_model=None, char=False):
                         for l in sp.encode_as_pieces(k):
                             tokens.append(l)
         else:
-            if char:
+            if split_with_space:
                 txt = txt.split(" ")
             for ch in txt:
                 tokens.append(ch)