update ms marco doc segmented collection creation script

castorini · ronakice · Dec 14, 2021 · Dec 7, 2021 · Dec 7, 2021 · Dec 8, 2021
commit 8da7f2fefcc055173454f02f50de8e786272947d
diff --git a/scripts/msmarco-doc/convert_msmarco_doc_to_anserini_collection.py b/scripts/msmarco-doc/convert_msmarco_doc_to_anserini_collection.py
@@ -26,7 +26,6 @@ def generate_output_dict(doc):
     f_corpus = gzip.open(args.original_docs_path, mode='rt')
     f_out = open(args.output_docs_path, 'w')
 
-    print('Appending predictions...')
     for line in tqdm(f_corpus):
         output_dict = generate_output_dict(line.split('\t'))
         f_out.write(json.dumps(output_dict) + '\n')

diff --git a/scripts/msmarco-doc/convert_msmarco_doc_to_segmented_anserini_collection.py b/scripts/msmarco-doc/convert_msmarco_doc_to_segmented_anserini_collection.py
@@ -17,7 +17,7 @@ def generate_output_dicts(doc, nlp, max_length, stride):
         segment = ' '.join(sentences[i:i + max_length])
         doc_text = f'{doc_url}\n{doc_title}\n{segment}'
         output_dicts.append({'id': f'{doc_id}#{i}', 'contents': doc_text})
-    return output_dict
+    return output_dicts
 
 
 if __name__ == '__main__':
@@ -38,7 +38,7 @@ def generate_output_dicts(doc, nlp, max_length, stride):
     f_corpus = gzip.open(args.original_docs_path, mode='rt')
     f_out = open(args.output_docs_path, 'w')
 
-    print('Appending predictions...')
+    print('Creating collection...')
     for line in tqdm(f_corpus):
         output_dicts = generate_output_dicts(line.split('\t'), nlp, args.max_length, args.stride)
         for output_dict in output_dicts: