Releases: HIT-SCIR/ltp
Releases · HIT-SCIR/ltp
LTP4 v4.2.0
- [结构性变化] 将 LTP 拆分成 2 个部分,维护和训练更方便,结构更清晰
- [Legacy 模型] 针对广大用户对于推理速度的需求,使用 Rust 重写了基于感知机的算法,准确率与 LTP3 版本相当,速度则是 LTP v3 的 2.53 倍,开启多线程更可获得 15.76 倍的速度提升,但目前仅支持分词、词性、命名实体三大任务
- [深度学习模型] 即基于 PyTorch 实现的深度学习模型,支持全部的6大任务(分词/词性/命名实体/语义角色/依存句法/语义依存)
- [其他改进] 改进了模型训练方法
- [共同] 提供了训练脚本和训练样例,使得用户能够更方便地使用私有的数据,自行训练个性化的模型
- [深度学习模型] 采用 hydra 对训练过程进行配置,方便广大用户修改模型训练参数以及对 LTP 进行扩展(比如使用其他包中的 Module)
- [其他变化] 分词、依存句法分析 (Eisner) 和 语义依存分析 (Eisner) 任务的解码算法使用 Rust 实现,速度更快
- [新特性] 模型上传至 Huggingface Hub,支持自动下载,下载速度更快,并且支持用户自行上传自己训练的模型供LTP进行推理使用
- [破坏性变更] 改用 Pipeline API 进行推理,方便后续进行更深入的性能优化(如SDP和SDPG很大一部分是重叠的,重用可以加快推理速度),使用说明参见Github快速使用部分
LTP4 v4.1.5.post2
- limit transformers version
- dep fast default false
- sdp mode default mix
LTP4 v4.1.5.post1
- limit transformers version
LTP4 v4.1.5
LTP4 v4.1.4.post1
LTP4 v4.1.4
- SEG/POS 可加入CRF解码
- 修复了韩文等字符的处理 #478
- 增加了两个新模型
- 自动处理训练语料的词表
- 其他变更
LTP4 v4.1.3.post1
- 修复由于分词词表带来的切分不一致问题 #466
LTP4 v4.1.3
- NER 任务可选 CRF 解码
- SDP增加了混合解码方法
- 增加了在 UD 数据集上训练的简/繁体中文模型
- 修复了最大前向匹配算法在非中文情况下无法退出循环的问题
- 测试了对 transformers 4.0 的支持情况
LTP4 v4.1.2
- 修复了前向最大匹配出错的问题 #457
LTP4 v4.1.1
- 修复了训练过程中 DEP/SDP MASK出错导致指标计算错误的问题
- 修复了代码更新导致某些任务无法训练的问题
- 增加了 lr_scheduler 的配置项