这是Chinachilla项目的存储库,该项目旨在构建一个大型中文通用信息抽取模型。
欢迎您向我们提供任何未收集的信息抽取数据集(或其来源)。我们将统一它们的格式,并通过我们所构建的instructions融入统一的数据集中,我们会通过该统一数据集训练我们的模型,进行广泛的实证研究,并开源模型检查点。我们希望我们的项目能够为信息抽取模型的开源进程做出微薄的贡献,降低信息抽取任务的难度。
- 尽可能收集并整理现有的信息抽取相关的数据集,包括中文及英文。
- 将英文数据集通过机器翻译模型翻译成中文。
- 构建模型以进行数据的自动化清洗和质量控制。
- 针对不同的信息抽取任务,构建不同的instructions。
- 将数据格式统一,并加入instructions,生成大型中文信息抽取指令微调数据集。