PaddlePaddle · kuke · Apr 22, 2019 · Apr 5, 2019 · Apr 8, 2019 · Apr 8, 2019
diff --git a/PaddleNLP/paddle-nlp/dialogue_model_toolkit/README.md b/PaddleNLP/paddle-nlp/dialogue_model_toolkit/README.md
@@ -3,22 +3,28 @@
  - [二、快速开始](#二、快速开始)
  - [三、进阶使用](#三、进阶使用)
  - [四、其他](#四、其他)
+
 ## 一、简介
-###任务说明
+
+### 任务说明
+
 &ensp;&ensp;&ensp;&ensp;对话相关的任务中，Dialogue System常常需要根据场景的变化去解决多种多样的任务。任务的多样性（意图识别、槽位解析、DA识别、DST等等），以及领域训练数据的稀少，给Dialogue System的研究和应用带来了巨大的困难和挑战，要使得dialogue system得到更好的发展，需要开发一个通用的对话理解模型。为此，我们给出了基于BERT的对话模型工具箱(DMTK：DialogueModelToolKit)，通过实验表明，使用base-model(BERT)并结合常见的学习范式，就可以在几乎全部对话理解任务上取得比肩甚至超越各个领域业内最好的模型的效果，展现了学习一个通用对话理解模型的巨大潜力。
 
-###效果说明
+### 效果说明
+
 &ensp;&ensp;&ensp;&ensp;a、效果上，我们基于对话相关的业内公开数据集进行评测，效果如下表所示：
-|task_name | udc(R1@10)|udc(R2@10)|udc(R5@10)|atis_slot(F1)|dstc2(JOINT ACC)|atis_intent(acc)|swda(acc)|mrda(acc)|
-|- |:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
-|对话任务|匹配|匹配|匹配|槽位解析|DST|意图识别|DA|DA|
-|任务类型|分类|分类|分类|序列标注|多标签分类|分类|分类|分类|
-|任务名称|udc|udc|udc|atis_slot|dstc2|atis_intent|swda|mrda|
-|评估指标|R1@10|R2@10|R5@10|F1|JOINT ACC|ACC|ACC|ACC|
-|SOTA | 76.70%|87.40%|96.90%|96.89%|74.50%|98.32%|81.30%|91.70%|
-|DMTK | 82.02%|90.43%|97.75%|97.10%|89.57%|97.65%|80.19%|91.43%|
+
+| task_name | udc | udc | udc | atis_slot | dstc2 | atis_intent | swda | mrda |
+| :------ | :------ | :------ | :------ | :------| :------ | :------ | :------ | :------ |
+| 对话任务 | 匹配 | 匹配 | 匹配 | 槽位解析 | DST | 意图识别 | DA | DA |
+| 任务类型 | 分类 | 分类 | 分类 | 序列标注 | 多标签分类 | 分类 | 分类 | 分类 |
+| 任务名称 | udc | udc | udc| atis_slot | dstc2 | atis_intent | swda | mrda |
+| 评估指标 | R1@10 | R2@10 | R5@10 | F1 | JOINT ACC | ACC | ACC | ACC |
+| SOTA | 76.70% | 87.40% | 96.90% | 96.89% | 74.50% | 98.32% | 81.30% | 91.70% |
+| DMTK | 82.02% | 90.43% | 97.75% | 97.10% | 89.57% | 97.65% | 80.19% | 91.43% |
 
 &ensp;&ensp;&ensp;&ensp;b、数据集说明：
+
 ```
 UDC: Ubuntu Corpus V1;
 ATIS: 微软提供的公开数据集DSTC2，Airline Travel Information System;
@@ -27,44 +33,64 @@ MRDA: Meeting Recorder Dialogue Act;
 SWDA：Switchboard Dialogue Act Corpus;
 ```
 
-##二、快速开始
-###1、安装说明
+## 二、快速开始
+
+### 1、安装说明
+
+#### &ensp;&ensp;a、paddle安装
 
-####&ensp;&ensp;a、paddle安装
 &ensp;&ensp;&ensp;&ensp;本项目依赖于Paddle Fluid 1.3，请参考安装指南进行安装
-####&ensp;&ensp;b、安装代码
-####&ensp;&ensp;c、环境依赖
-###2、开始第一次模型调用
-####&ensp;&ensp;a、数据准备（数据、模型下载，预处理）
+
+#### &ensp;&ensp;b、安装代码
+
+#### &ensp;&ensp;c、环境依赖
+
+### 2、开始第一次模型调用
+
+#### &ensp;&ensp;a、数据准备（数据、模型下载，预处理）
+
 &ensp;&ensp;&ensp;&ensp;i、数据下载
+
 ```
 sh download_data.sh
 ```
+
 &ensp;&ensp;&ensp;&ensp;ii、(非必需)下载的数据集中已提供了训练集，测试集和验证集，用户如果需要重新生成某数据集的训练数据，可执行：
+
 ```
 cd dialogue_model_toolkit/scripts && sh run_build_data.sh task_name
 parameters：
 task_name: udc, swda, mrda, atis, dstc2
 ```
-####&ensp;&ensp;b、模型下载
+
+#### &ensp;&ensp;b、模型下载
+
 &ensp;&ensp;&ensp;&ensp;该项目中，我们基于BERT开发了相关的对话模型，对话模型训练时需要依赖BERT的模型做fine-tuning, 且提供了目前公开数据集上训练好的多个对话模型。
+
 &ensp;&ensp;&ensp;&ensp;i、BERT pretrain模型下载：
+
 ```
 sh download_pretrain_model.sh
 ```
+
 &ensp;&ensp;&ensp;&ensp;ii、dialogue_model_toolkit模块内对话相关模型下载：
+
 ```
 sh download_models.sh
 ```
-####&ensp;&ensp;c、训练 
+
+#### &ensp;&ensp;c、训练 
 
 &ensp;&ensp;&ensp;&ensp;方式一(推荐)：
+
 ```
 sh run_train.sh task_name
 parameters：
 task_name: udc, swda, mrda, atis_intent, atis_slot, dstc2
 ```
+
 &ensp;&ensp;&ensp;&ensp;方式二：
+
 ```
 python -u train.py --task_name mrda \ # name model to use. [udc|swda|mrda|atis_intent|atis_slot|dstc2]
 
@@ -88,15 +114,19 @@ python -u train.py --task_name mrda \ # name model to use. [udc|swda|mrda|atis_i
        --num_iteration_per_drop_scope 10 \         # The iteration intervals to clean up temporary variables. 
        --use_fp16 false         # If set, use fp16 for training.
 ```
-####&ensp;&ensp;d、预测 （推荐e的方式来进行预测评估）
+
+#### &ensp;&ensp;d、预测 （推荐e的方式来进行预测评估）
 
 &ensp;&ensp;&ensp;&ensp;方式一(推荐)：
+
 ```
 sh run_predict.sh task_name
 parameters：
 task_name: udc, swda, mrda, atis_intent, atis_slot, dstc2
 ```
+
 &ensp;&ensp;&ensp;&ensp;方式二：
+
 ```
 python -u predict.py --task_name mrda \      # name model to use. [udc|swda|mrda|atis_intent|atis_slot|dstc2]
 --use_cuda true \          # If set, use GPU for training.
@@ -107,30 +137,43 @@ python -u predict.py --task_name mrda \      # name model to use. [udc|swda|mrda
 --max_seq_len 128 \          # Number of words of the longest seqence.
 --bert_config_path ./uncased_L-12_H-768_A-12/bert_config.json        # Path to the json file for bert model config.
 ```
-####&ensp;&ensp;e、预测+评估（推荐）
+
+#### &ensp;&ensp;e、预测+评估（推荐）
 
 &ensp;&ensp;&ensp;&ensp;dialogue_model_toolkit模块内提供已训练好的对话模型，可通过sh download_models.sh下载，用户如果不训练模型的时候，可使用提供模型进行预测评估：
+
 ```
 sh run_eval_metrics.sh task_name
 parameters：
 task_name: udc, swda, mrda, atis_intent, atis_slot, dstc2
 ```
-##三、进阶使用
-###1、任务定义与建模
+
+## 三、进阶使用
+
+### 1、任务定义与建模
+
 &ensp;&ensp;&ensp;&ensp;dialogue_model_toolkit模块，针对数据集开发了相关的模型训练过程，支持分类，多标签分类，序列标注等任务，用户可针对自己的数据集，进行相关的模型定制；
-###2、模型原理介绍
+
+### 2、模型原理介绍
+
 &ensp;&ensp;&ensp;&ensp;本项目针对对话理解相关的问题，底层基于BERT，上层定义范式(分类，多标签分类，序列标注), 开源了一系列公开数据集相关的模型，供用户可配置地使用：
-###3、数据格式说明
+
+### 3、数据格式说明
+
 &ensp;&ensp;&ensp;&ensp;训练、预测、评估使用的数据可以由用户根据实际的对话应用场景，自己组织数据。输入网络的数据格式统一为，示例如下：
+
 ```
 [CLS] token11 token12 token13  [INNER_SEP] token11 token12 token13 [SEP]  token21 token22 token23 [SEP]  token31 token32 token33 [SEP]
 ```
+
 &ensp;&ensp;&ensp;&ensp;输入数据以[CLS]开始，[SEP]分割内容为对话内容相关三部分，如上文，当前句，下文等，如[SEP]分割的每部分内部由多轮组成的话，使用[INNER_SEP]进行分割；第二部分和第三部分部分皆可缺省；
+
 &ensp;&ensp;&ensp;&ensp;目前dialogue_model_toolkit模块内已将数据准备部分集成到代码内，用户可根据上面输入数据格式，组装自己的数据；
-###4、代码结构说明
+### 4、代码结构说明
+
 ```
 .
-├── run_train.sh 					    # 训练执行脚本
+├── run_train.sh     				    # 训练执行脚本
 ├── run_predict.sh					# 预测执行脚本
 ├── run_eval_metrics.sh				# 评估执行脚本
 ├── download_data.sh				    # 下载数据脚本
@@ -161,26 +204,37 @@ task_name: udc, swda, mrda, atis_intent, atis_slot, dstc2
 ├── define_paradigm.py				# 上层网络范式
 └── create_model.py					# 创建底层bert模型+上层网络范式网络结构
 ```
-###5、如何组建自己的模型
+
+### 5、如何组建自己的模型
 
 &ensp;&ensp;&ensp;&ensp;用户可以根据自己的需求，组建自定义的模型，具体方法如下所示：
 
-&ensp;&ensp;&ensp;&ensp;i、自定义数据
+&ensp;&ensp;&ensp;&ensp;i、自定义数据 
+
 &ensp;&ensp;&ensp;&ensp;&ensp;&ensp;如用户目前有数据集为**task_name**, 则在**data**下定义**task_name**文件夹，将数据集存放进去；在**reader/data_reader.py**中，新增自定义的数据处理的类，如**udc**数据集对应**UDCProcessor**;  在**train.py**内设置**task_name**和**processor**的对应关系(如**processors = {'udc': reader.UDCProcessor}**)，以及当前的数据集训练时是否是否使用**in_tokens**的方式计算batch大小(如：**in_tokens = {'udc': True}**)
 
 &ensp;&ensp;&ensp;&ensp;ii、 自定义上层网络范式
+
 &ensp;&ensp;&ensp;&ensp;&ensp;&ensp;如果用户自定义模型属于分类、多分类和序列标注这3种类型其中一个，则只需要在**paddle-nlp/models/dialogue_model_toolkit/define_paradigm.py** 内指明**task_name**和相应上层范式函数的对应关系即可，如用户自定义模型属于其他模型，则需要自定义上层范式函数并指明其与**task_name**之间的关系；
 
 &ensp;&ensp;&ensp;&ensp;iii、自定义预测封装接口
+
 &ensp;&ensp;&ensp;&ensp;&ensp;&ensp;用户可在define_predict_pack.py内定义task_name和自定义封装预测接口的对应关系；
-###6、如何训练
-&ensp;&ensp;&ensp;&ensp;i、按照上文所述的数据组织形式，组织自己的训练、评估、预测数据；
+
+### 6、如何训练
+
+&ensp;&ensp;&ensp;&ensp;i、按照上文所述的数据组织形式，组织自己的训练、评估、预测数据
+
 &ensp;&ensp;&ensp;&ensp;ii、运行训练脚本
+
 ```
 sh run_train.sh task_name
 parameters：
 task_name: 用户自定义名称
 ```
-##四、其他
-###如何贡献代码
+
+## 四、其他
+
+### 如何贡献代码
+
 &ensp;&ensp;&ensp;&ensp;如果你可以修复某个issue或者增加一个新功能，欢迎给我们提交PR。如果对应的PR被接受了，我们将根据贡献的质量和难度进行打分（0-5分，越高越好）。如果你累计获得了10分，可以联系我们获得面试机会或者为你写推荐信。
diff --git a/PaddleNLP/paddle-nlp/dialogue_model_toolkit/download_data.sh b/PaddleNLP/paddle-nlp/dialogue_model_toolkit/download_data.sh
@@ -1,3 +1,3 @@
-wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/dgu_1.0.0.tar.gz
-tar -xvf dgu_1.0.0.tar.gz
-rm dgu_1.0.0.tar.gz
+wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/dmtk_data_1.0.0.tar.gz
+tar -xvf dmtk_data_1.0.0.tar.gz
+rm dmtk_data_1.0.0.tar.gz
diff --git a/PaddleNLP/paddle-nlp/dialogue_model_toolkit/download_models.sh b/PaddleNLP/paddle-nlp/dialogue_model_toolkit/download_models.sh
@@ -1,3 +1,3 @@
-wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/dgu_models_1.0.0.tar.gz 
-tar -xvf dgu_models_1.0.0.tar.gz
-rm dgu_models_1.0.0.tar.gz
+wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/dmtk_models_1.0.0.tar.gz
+tar -xvf dmtk_models_1.0.0.tar.gz
+rm dmtk_models_1.0.0.tar.gz