update readme and upload pics

IDEA-CCNL · Jun 21, 2023 · b35abc2 · b35abc2
1 parent d0dc955
commit b35abc2
Show file tree

Hide file tree

Showing 4 changed files with 99 additions and 52 deletions.
diff --git a/README.md b/README.md
@@ -29,9 +29,14 @@
 
 > [**UniEX**](https://arxiv.org/abs/2305.10306): 统一抽取任务的自然语言理解模型。(```ACL 2023```)
 
+> [**Solving Math Word Problems via Cooperative Reasoning induced Language Models**](https://2023.aclweb.org/program/accepted_main_conference/): 使用语言模型的协同推理框架解决数学问题。(```ACL 2023```)
+
+> [**MVP-Tuning**](https://2023.aclweb.org/program/accepted_main_conference/): 基于多视角知识检索的参数高效常识问答系统。(```ACL 2023```)
+
 
 # 封神榜大事件
 
+- [多模态Ziya上线！姜子牙通用模型垂直能力系列 Vol.1发布](https://mp.weixin.qq.com/s/-gv9tG5-Vqo2iN_ETO84KQ) 2023.06.05
 - [IDEA研究院封神榜团队再次出击， 推出开源通用大模型系列“姜子牙”](https://mp.weixin.qq.com/s/IeXgq8blGoeVbpIlAUCAjA) 2023.05.17
 - [首个中文Stable Diffusion模型开源，IDEA研究院封神榜团队开启中文AI艺术时代](https://mp.weixin.qq.com/s/WrzkiJOxqNcFpdU24BKbMA) 2022.11.2
 - [打破不可能三角、比肩5400亿模型，IDEA封神榜团队仅2亿级模型达到零样本学习SOTA](https://mp.weixin.qq.com/s/m0_W31mP4xKKla8jIwUXkw) 2022.10.25
@@ -52,17 +57,12 @@
 - [模型系列简介](#模型系列简介)
 - [Fengshenbang-LM](#fengshenbang-lm)
 - [封神榜模型](#封神榜模型)
+  - [姜子牙系列](#姜子牙系列)
   - [二郎神系列](#二郎神系列)
-    - [模型下载地址](#模型下载地址)
-    - [模型加载](#模型加载)
-    - [使用示例](#使用示例)
-    - [下游效果](#下游效果)
+  - [太乙系列](#太乙系列)
 - [封神框架](#封神框架)
   - [安装](#安装)
-    - [使用自己的环境安装](#使用自己的环境安装)
-    - [使用Docker](#使用docker)
   - [Pipelines](#pipelines)
-- [封神榜单](#封神榜单)
 - [封神榜系列文章](#封神榜系列文章)
 - [引用](#引用)
 - [联系我们](#联系我们)
@@ -72,10 +72,11 @@
 
 |系列名称|需求|适用任务|参数规模|备注|
 |:---:|:---:|:---:|:---:|---|
+|[姜子牙](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1.1)|通用|通用大模型|>70亿参数|通用大模型“姜子牙”系列，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力|
+|[太乙](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E5%A4%AA%E4%B9%99%E7%B3%BB%E5%88%97/index.html)|特定|多模态|8千万-10亿参数|应用于跨模态场景，包括文本图像生成，蛋白质结构预测, 语音-文本表示等|
 |[二郎神](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E4%BA%8C%E9%83%8E%E7%A5%9E%E7%B3%BB%E5%88%97/index.html)|通用|语言理解|9千万-39亿参数|处理理解任务，拥有开源时最大的中文bert模型，2021登顶FewCLUE和ZeroCLUE|
 |[闻仲](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E9%97%BB%E4%BB%B2%E7%B3%BB%E5%88%97/index.html)|通用|语言生成|1亿-35亿参数|专注于生成任务，提供了多个不同参数量的生成模型，例如GPT2等|
 |[燃灯](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E7%87%83%E7%81%AF%E7%B3%BB%E5%88%97/index.html)|通用|语言转换|7千万-50亿参数|处理各种从源文本转换到目标文本类型的任务，例如机器翻译，文本摘要等|  
-|[太乙](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E5%A4%AA%E4%B9%99%E7%B3%BB%E5%88%97/index.html)|特定|多模态|8千万-10亿参数|应用于跨模态场景，包括文本图像生成，蛋白质结构预测, 语音-文本表示等|
 |[余元](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E4%BD%99%E5%85%83%E7%B3%BB%E5%88%97/index.html)|特定|领域|1亿-35亿参数|应用于领域，如医疗，金融，法律，编程等。拥有目前最大的开源GPT2医疗模型|
 |-待定-|特定|探索|-未知-|我们希望与各技术公司和大学一起开发NLP相关的实验模型。目前已有：[周文王](https://fengshenbang-doc.readthedocs.io/zh/latest/docs/%E5%91%A8%E6%96%87%E7%8E%8B%E7%B3%BB%E5%88%97/index.html)|
 
@@ -94,27 +95,51 @@
 
 这个世界需要一个答案。
 
-为了解决中文领域研究进展滞后和研究资源严重不足的问题，2021年11月22日，IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布，开启 “封神榜”开源体系——一个以中文驱动的基础生态系统，其中包括了预训练大模型，特定任务的微调应用，基准和数据集等。我们的目标是构建一个全面的，标准化的，以用户为中心的生态系统。尽管这一目标可以通过多种方式去实现，但是我们经过对中文社区的重新审视与思考，提出了我们认为最为有效的方案：
-
-![avatar](pics/fengshenbang_process1.png)
-
-尽管这看起来可能有些复杂，但是只需三步，用户就可以根据我们的资源轻松构建所需的应用了。
-- 步骤1: 从我们的封神榜模型库中选择一个预训练好的中文NLP模型.
-- 步骤2: 通过阅读我们的教程示例，使用封神框架调整模型。
-- 步骤3: 在我们的封神榜单或者自定义任务中评估模型在下游任务上的表现。
+为了解决中文领域研究进展滞后和研究资源严重不足的问题，2021年11月22日，IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布，开启 “封神榜”开源体系——一个以中文驱动的基础生态系统，其中包括了预训练大模型，特定任务的微调应用，基准和数据集等。我们的目标是构建一个全面的，标准化的，以用户为中心的生态系统。
+![avatar](pics/start_opensource.png)
 
 # 封神榜模型
 
 “封神榜模型”将全方面的开源一系列NLP相关的预训练大模型。NLP社区中有着广泛的研究任务，这些任务可以被分为两类：通用任务和特殊任务。前者包括了自然语言理解(NLU)，自然语言生成(NLG)和自然语言转换(NLT)任务。后者涵盖了多模态，特定领域等任务。我们考虑了所有的这些任务，并且提供了在下游任务上微调好的相关模型，这使得计算资源有限的用户也可以轻松使用我们的基础模型。而且我们承诺，将对这些模型做持续的升级，不断融合最新的数据和最新的训练算法。通过IDEA研究院的努力，打造中文认知智能的通用基础设施，避免重复建设，为全社会节省算力。
 
-![avatar](pics/model_pic1.png)
+![avatar](pics/all_models.png)
 
 同时，“封神榜”也希望各个公司、高校、机构加入到这个开源计划中，一起共建大模型开源体系。未来，当我们需要一个新的预训练模型，都应该是首先从这些开源大模型中选取一个最接近的，做继续训练，然后再把新的模型开源回这个体系。这样，每个人用最少的算力，就能得到自己的模型，同时这个开源大模型体系也能越来越大。
 
 ![avatar](pics/model_pic2.png)
 
 为了更好的体验，拥抱开源社区，封神榜的所有模型都转化并同步到了Huggingface社区，你可以通过几行代码就能轻松使用封神榜的所有模型，欢迎来[IDEA-CCNL的huggingface社区](https://huggingface.co/IDEA-CCNL)下载。
 
+## 姜子牙系列
+
+通用大模型“姜子牙”系列，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。目前姜子牙通用大模型(v1/v1.1)已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。姜子牙系列模型包含以下模型：
+- [Ziya-LLaMA-13B-v1.1](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1.1)
+- [Ziya-LLaMA-13B-v1](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1)
+- [Ziya-LLaMA-7B-Reward](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-7B-Reward)
+- [Ziya-LLaMA-13B-Pretrain-v1](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1)
+- [Ziya-BLIP2-14B-Visual-v1](https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1)
+
+### 模型使用
+
+参考 [Ziya-LLaMA-13B-v1](https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1)
+
+### 线上体验
+
+- [Huggingface Ziya Space](https://huggingface.co/spaces/IDEA-CCNL/Ziya-v1)
+- [Huggingface Ziya-visual Space](https://huggingface.co/spaces/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1-Demo)
+- [ModelScope Ziya Space](https://modelscope.cn/studios/Fengshenbang/Ziya_LLaMA_13B_v1_online/summary)
+
+
+### 微调示例
+
+参考 [ziya_finetune](https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/ziya_llama)
+
+### 推理量化示例
+
+参考 [ziya_inference](https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/ziya_inference)
+
+
+
 ## 二郎神系列
 
 Encoder结构为主的双向语言模型，专注于解决各种自然语言理解任务。
@@ -263,16 +288,6 @@ fengshen-pipeline text_classification train --model='IDEA-CCNL/Erlangshen-Robert
 
 [三分钟上手封神](fengshen/README.md)
 
-# 封神榜单
-
-我们提出的生态系统中还包括了一个基准模块——“封神榜单“，它允许用户在我们的平台上进行公平的比较，并且可以让整个中文社区追踪NLP模型最新进展。
-
-为了构建高质量和健壮的基准，我们需要考虑到如何测试模型的方方面面。因此，我们在构建封神榜单时确定了以下要求：
-- **广泛认可**：虽然一些现有的数据集不是用中文设计的，但它们多年来在NLP领域中被广泛使用，例如[SuperGLUE](https://super.gluebenchmark.com/)。所以，我们将召集一些专业的中英文的语言专家，精心翻译并校对这些热门的数据集。
-- **面向未来**：一些NLP模型已经在多个基准测试中超越了人类的表现。我们认为更重要和紧迫的工作是构建一些具有挑战性的数据集，而不是将现有数据集拟合到100%的准确度。未来的基准需要考虑更广泛的道德, 技术和社会上的挑战。我们的数据集将会尽快发布，以更好地支持中文社区的进一步研究。
-- **合作共创**：基准需要反映真实世界的场景。我们希望能够与行业活跃的公司合作收集真实世界的数据并发布。
-
-我们在未来会发布榜单管理系统，希望可以推动更多定制的排行榜系统的发展，敬请期待。
 
 # 封神榜系列文章