Skip to content

hccngu/Viscacha

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 

Repository files navigation

中文通用信息抽取大模型(Chinchilla)

LICENSE torch

这是Chinachilla项目的存储库,该项目旨在构建一个大型中文通用信息抽取模型。

欢迎您向我们提供任何未收集的信息抽取数据集(或其来源)。我们将统一它们的格式,并通过我们所构建的instructions融入统一的数据集中,我们会通过该统一数据集训练我们的模型,进行广泛的实证研究,并开源模型检查点。我们希望我们的项目能够为信息抽取模型的开源进程做出微薄的贡献,降低信息抽取任务的难度。

数据集合 (Data Collection)

语言:

  • EN: English (英文)
  • CN: Chinese (中文)
  • ML: Multiple languages (多语言)

任务:

  • NER: Named Entity Recognition (命名实体识别)
  • RE: Relation Extraction (关系抽取)
  • EE: Event Extraction (事件抽取)
数据集 领域 数目 语言 任务 来源
DuIE2.0 人文 210K CN RE https://www.luge.ai/#/luge/dataDetail?id=5
DuEE1.0 新闻 17K CN EE https://www.luge.ai/#/luge/dataDetail?id=6
DuEE-fin 金融 11.7K CN EE https://www.luge.ai/#/luge/dataDetail?id=7
IREE 金融 50K CN EE https://www.luge.ai/#/luge/dataDetail?id=72

数据格式

参考文献

To do

数据收集阶段

  1. 尽可能收集并整理现有的信息抽取相关的数据集,包括中文及英文。
  2. 将英文数据集通过机器翻译模型翻译成中文。
  3. 构建模型以进行数据的自动化清洗和质量控制。

数据构建阶段

  1. 针对不同的信息抽取任务,构建不同的instructions。
  2. 将数据格式统一,并加入instructions,生成大型中文信息抽取指令微调数据集。

About

Viscacha:通用信息抽取数据集收集

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published