forked from apachecn/ailearning
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
5d89832
commit 71899ca
Showing
53 changed files
with
1,653 additions
and
73 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
|
@@ -3,7 +3,7 @@ __pycache__/ | |
*.py[cod] | ||
*$py.class | ||
.vscode | ||
data/* | ||
data | ||
|
||
# C extensions | ||
*.so | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,102 @@ | ||
# 自然语言处理 - 1.入门介绍 | ||
|
||
* 语言是知识和思维的载体 | ||
* 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。 | ||
|
||
## NLP相关的技术 | ||
|
||
| 中文 | 英文 | 描述 | | ||
| --- | --- | --- | | ||
| 分词 | Word Segmentation | 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 | | ||
| 命名实体识别 | Named Entity Recognition | 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) | | ||
| 词性标注 | Part-Speech Tagging | 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) | | ||
| 依存句法分析 | Dependency Parsing | 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) | | ||
| 词向量与语义相似度 | Word Embedding & Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现了对词汇的向量化表示,并据此实现了词汇的语义相似度计算 | | ||
| 文本语义相似度 | Text Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 | | ||
| 篇章分析 | Document Analysis | 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要 | | ||
| 机器翻译技术 | Machine Translating | 基于互联网大数据,融合深度神经网络、统计、规则多种翻译方法,帮助用户跨越语言鸿沟,与世界自由沟通 | | ||
|
||
## 场景案例 | ||
|
||
### 案例1(解决交叉歧义) | ||
|
||
**分词(Word Segmentation)** : 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 | ||
|
||
例句: 致毕业和尚未毕业的同学。 | ||
|
||
1. `致` `毕业` `和` `尚未` `毕业` `的` `同学` | ||
2. `致` `毕业` `和尚` `未` `毕业` `的` `同学` | ||
|
||
其他案例: | ||
|
||
1. 校友 和 老师 给 尚未 毕业 同学 的 一 封 信 | ||
2. 本科 未 毕业 可以 当 和尚 吗 | ||
|
||
### 案例2(从粒度整合未登录体词) | ||
|
||
**命名实体识别(Named Entity Recognition)**: 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) | ||
|
||
例句: 天使爱美丽在线观看 | ||
|
||
* 分词: `天使` `爱` `美丽` `在线` `观看` | ||
* 实体: 天使爱美丽 -> 电影 | ||
|
||
其他案例: | ||
|
||
1. 网页: 天使爱美丽 土豆 高清视频 | ||
2. 网页: 在线直播 爱 美丽 的 天使 | ||
|
||
### 案例3(结构歧义问题) | ||
|
||
* **词性标注(Part-Speech Tagging)**: 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) | ||
* **依存句法分析(Dependency Parsing)**: 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) | ||
|
||
评论: 房间里还可以欣赏日出 | ||
|
||
* 房间里: 主语 | ||
* 还可以: 情态动词 | ||
* 欣赏: 动词 | ||
* 日出: 宾语 | ||
|
||
歧义: | ||
|
||
1. 房间还可以 | ||
2. 可以欣赏日出 | ||
|
||
### 案例4(词汇语言相似度) | ||
|
||
**词向量与语义相似度(Word Embedding & Semantic Similarity)**: 对词汇进行向量化表示,并据此实现词汇的语义相似度计算。 | ||
|
||
例如: 西瓜 与 (呆瓜/草莓),哪个更接近? | ||
|
||
* 向量化表示: 西瓜(0.1222, 0.22333, .. ) | ||
* 相似度计算: 呆瓜(0.115) 草莓(0.325) | ||
* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) | ||
|
||
### 案例5(文本语义相似度) | ||
|
||
**文本语义相似度(Text Semantic Similarity)**: 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 | ||
|
||
例如: 车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近? | ||
|
||
* 向量化表示: 车头如何防止车牌(0.1222, 0.22333, .. ) | ||
* 相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486) | ||
* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) | ||
|
||
### 案例6(篇章分析) | ||
|
||
**篇章分析(Document Analysis)**: 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要 | ||
|
||
例如: | ||
|
||
![](img/1.自然语言处理入门介绍/篇章分析.jpg) | ||
|
||
### 案例7(机器翻译) | ||
|
||
**机器翻译技术(Machine Translating)**: 基于互联网大数据,融合深度神经网络、统计、规则多种翻译方法,帮助用户跨越语言鸿沟,与世界自由沟通 | ||
|
||
![](img/1.自然语言处理入门介绍/机器翻译.png) | ||
|
||
--- | ||
|
||
* 参考百度科普课程: <http://bit.baidu.com/product> |
Oops, something went wrong.