Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Summary: **IMPORTANT: Please do not create a Pull Request without creating an issue first.** Changes *must* be discussed. **Original Issue**: #957 `closes #[issue 957]` Patched version of Chaitanya Talnikar's implementation of masked_cpc: we needed to include the pre-training for the VoxPopuli dataset. ### Test Plan (required) Fine-tuning with Common Voices Latvian After downloading Common Voices: ``` export COMMON_VOICE_DIR=[Path to the parent directory containing all common voices subset] export WAV2LETTERDIR=[Path to wav2letter root directory] cd prepare_data bash build_cc_data.sh lv ``` You should get the following output: ``` Building /private/home/mriviere/Common_voices/lv/lv_grapheme.tokens 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5098/5098 [00:12<00:00, 419.89it/s] 5098 files found out of 5098 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5098/5098 [01:20<00:00, 63.61it/s] 59 speakers found Building /private/home/mriviere/Common_voices/lv/dev.lst 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1125/1125 [00:00<00:00, 1403.27it/s] 1125 files found out of 1125 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1125/1125 [00:17<00:00, 65.65it/s] 3 speakers found Building /private/home/mriviere/Common_voices/lv/test.lst 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1629/1629 [00:01<00:00, 1563.26it/s] 1629 files found out of 1629 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1629/1629 [00:26<00:00, 62.50it/s] 54 speakers found Building /private/home/mriviere/Common_voices/lv/train.lst 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2336/2336 [00:01<00:00, 1679.79it/s] 2336 files found out of 2336 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2336/2336 [00:34<00:00, 68.01it/s] 2 speakers found ``` Download and uncompress the checkpoint from https://dl.fbaipublicfiles.com/voxpopuli/wav2letter_100k_small.tar.gz To fine-tune the model: ``` cd scripts_voxpopuli bash train_lang.sh PATH_DIR_CHECKPOINT lv ``` Pull Request resolved: #965 Reviewed By: xuqiantong Differential Revision: D28806871 Pulled By: tlikhomanenko fbshipit-source-id: 18c91869708fb2ee94a864722ef35fa460a7c2ae
- Loading branch information