中文通用信息抽取大模型(Chinchilla)

这是Chinachilla项目的存储库，该项目旨在构建一个大型中文通用信息抽取模型。

欢迎您向我们提供任何未收集的信息抽取数据集(或其来源)。我们将统一它们的格式，并通过我们所构建的instructions融入统一的数据集中，我们会通过该统一数据集训练我们的模型，进行广泛的实证研究，并开源模型检查点。我们希望我们的项目能够为信息抽取模型的开源进程做出微薄的贡献，降低信息抽取任务的难度。

数据集合 (Data Collection)

语言:

EN: English (英文)
CN: Chinese (中文)
ML: Multiple languages (多语言)

任务:

NER: Named Entity Recognition (命名实体识别)
RE: Relation Extraction (关系抽取)
EE: Event Extraction (事件抽取)

数据集	领域	数目	语言	任务	来源
DuIE2.0	人文	210K	CN	RE	https://www.luge.ai/#/luge/dataDetail?id=5
DuEE1.0	新闻	17K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=6
DuEE-fin	金融	11.7K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=7
IREE	金融	50K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=72

数据格式

参考文献

To do

数据收集阶段

尽可能收集并整理现有的信息抽取相关的数据集，包括中文及英文。
将英文数据集通过机器翻译模型翻译成中文。
构建模型以进行数据的自动化清洗和质量控制。

数据构建阶段

针对不同的信息抽取任务，构建不同的instructions。
将数据格式统一，并加入instructions，生成大型中文信息抽取指令微调数据集。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
static		static
.DS_Store		.DS_Store
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中文通用信息抽取大模型(Chinchilla)

数据集合 (Data Collection)

数据格式

参考文献

To do

数据收集阶段

数据构建阶段

About

Releases

Packages

Contributors 2

License

hccngu/Viscacha

Folders and files

Latest commit

History

Repository files navigation

中文通用信息抽取大模型(Chinchilla)

数据集合 (Data Collection)

数据格式

参考文献

To do

数据收集阶段

数据构建阶段

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages