Skip to content

Commit

Permalink
修复原来删除 nlp的内容,迁移到 docs/nlp_old 下面
Browse files Browse the repository at this point in the history
  • Loading branch information
jiangzhonglian committed Dec 30, 2022
1 parent 5d89832 commit 71899ca
Show file tree
Hide file tree
Showing 53 changed files with 1,653 additions and 73 deletions.
2 changes: 1 addition & 1 deletion .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -3,7 +3,7 @@ __pycache__/
*.py[cod]
*$py.class
.vscode
data/*
data

# C extensions
*.so
Expand Down
102 changes: 102 additions & 0 deletions docs/nlp_old/1.入门介绍.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,102 @@
# 自然语言处理 - 1.入门介绍

* 语言是知识和思维的载体
* 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

## NLP相关的技术

| 中文 | 英文 | 描述 |
| --- | --- | --- |
| 分词 | Word Segmentation | 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 |
| 命名实体识别 | Named Entity Recognition | 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) |
| 词性标注 | Part-Speech Tagging | 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) |
| 依存句法分析 | Dependency Parsing | 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) |
| 词向量与语义相似度 | Word Embedding & Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现了对词汇的向量化表示,并据此实现了词汇的语义相似度计算 |
| 文本语义相似度 | Text Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 |
| 篇章分析 | Document Analysis | 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要 |
| 机器翻译技术 | Machine Translating | 基于互联网大数据,融合深度神经网络、统计、规则多种翻译方法,帮助用户跨越语言鸿沟,与世界自由沟通 |

## 场景案例

### 案例1(解决交叉歧义)

**分词(Word Segmentation)** : 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列

例句: 致毕业和尚未毕业的同学。

1. `` `毕业` `` `尚未` `毕业` `` `同学`
2. `` `毕业` `和尚` `` `毕业` `` `同学`

其他案例:

1. 校友 和 老师 给 尚未 毕业 同学 的 一 封 信
2. 本科 未 毕业 可以 当 和尚 吗

### 案例2(从粒度整合未登录体词)

**命名实体识别(Named Entity Recognition)**: 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)

例句: 天使爱美丽在线观看

* 分词: `天使` `` `美丽` `在线` `观看`
* 实体: 天使爱美丽 -> 电影

其他案例:

1. 网页: 天使爱美丽 土豆 高清视频
2. 网页: 在线直播 爱 美丽 的 天使

### 案例3(结构歧义问题)

* **词性标注(Part-Speech Tagging)**: 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等)
* **依存句法分析(Dependency Parsing)**: 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)

评论: 房间里还可以欣赏日出

* 房间里: 主语
* 还可以: 情态动词
* 欣赏: 动词
* 日出: 宾语

歧义:

1. 房间还可以
2. 可以欣赏日出

### 案例4(词汇语言相似度)

**词向量与语义相似度(Word Embedding & Semantic Similarity)**: 对词汇进行向量化表示,并据此实现词汇的语义相似度计算。

例如: 西瓜 与 (呆瓜/草莓),哪个更接近?

* 向量化表示: 西瓜(0.1222, 0.22333, .. )
* 相似度计算: 呆瓜(0.115) 草莓(0.325)
* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. )

### 案例5(文本语义相似度)

**文本语义相似度(Text Semantic Similarity)**: 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力

例如: 车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近?

* 向量化表示: 车头如何防止车牌(0.1222, 0.22333, .. )
* 相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486)
* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. )

### 案例6(篇章分析)

**篇章分析(Document Analysis)**: 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要

例如:

![](img/1.自然语言处理入门介绍/篇章分析.jpg)

### 案例7(机器翻译)

**机器翻译技术(Machine Translating)**: 基于互联网大数据,融合深度神经网络、统计、规则多种翻译方法,帮助用户跨越语言鸿沟,与世界自由沟通

![](img/1.自然语言处理入门介绍/机器翻译.png)

---

* 参考百度科普课程: <http://bit.baidu.com/product>
Loading

0 comments on commit 71899ca

Please sign in to comment.