forked from shibing624/pycorrector
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdetector_test.py
87 lines (77 loc) · 5.02 KB
/
detector_test.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
# -*- coding: utf-8 -*-
"""
@author:XuMing(xuming624@qq.com)
@description:
"""
import sys
sys.path.append("../")
from pycorrector.utils.tokenizer import segment
from pycorrector.corrector import Corrector
error_sentences = [
'少先队员因该为老人让坐,1234567890,123a-bc,bcsd123入狱dfs,方式,监控。水电费?及。"是文法的上午"下午说:"也是"好的',
'桥为什么修的想过山车一样', # 修', '秀
'我认识一个人张宁,他喜欢张玲,说了张林很多好话,张林为老人作了很多好事', # [['玲', '令', 13, 14], ['张林为', '长林为', 24, 27]]
'橄榄的和这款哪个比较好用?味道都是一样的么?',
'这个跟 原木纯品 那个啥区别?不是原木纸浆做的?',
'能充几次呢?',
'这是酸奶还是像饮料一样的奶?', # [['像', '想', 6, 7]])
'现在银色的K2P是MTK还是博通啊?', # [['博通', '拨通', 14, 16]])
'是浓稠的还是稀薄的?',
'这个到底有多辣?', # [['有多辣', '有多拉', 4, 7]])
'U盘有送挂绳吗', # '盘有', '盘又'
'果子酸吗?有烂的吗?', # 有烂', '有蓝
'刚下单买了一箱,需要明天到货,先问下味道如何', # [['先问', '现问', 15, 17]])
'2周岁22斤宝宝用多大的啊?',
'请问这茶是一条装的吗', # [['这茶', '这差', 2, 4]])
'有坏的果吗',
'生产日期怎么样 新嘛', # [['新嘛', '新马', 8, 10]])
'插上去的时候是驱蚊液放下面的吗?', # [['驱', '去', 7, 8], ['蚊', '温', 8, 9], ['液', '也', 9, 10]])
'服装店里的衣服各试各样', # [['试', '市', 8, 9]])
'这纸厚度如何?质量怎么样', # [['这纸', '这只', 0, 2]])
'一但工作效率提升,需要时间在工作上也减少',
"第一章图表示全球产龄妇女人口同计每五年增加的产龄妇女人口一值往上升。",
"一但工作效率提升,需要时间在工作上也减少,足以照顾老人。",
"早婚,有可能行成了「少子化」现象",
"这样一个家庭的费用会因为工作有限而减少,所以婴而生育的数量才会减少。",
"相反的,生太多孩子的社会要有政府多鼓励少生孩子。",
"一年又一年的过去,产龄妇女跟着变多,但婴儿的个数却是在慢慢的下降。", # [['产', '单', 9, 10], ['变多', '便多', 15, 17], ['慢慢的', '慢慢地', 27, 30]])
"由图可见到产龄妇女的人数是慢慢的加倍,而婴儿的数字已然是逐渐减少。", # [['由', '有', 0, 1], ['产', '单', 5, 6], ['慢慢的', '慢慢地', 13, 16]])
'双十一下单到现在还没发货的,', # [['单到', '山到', 4, 6]])
'汽车新式在这条路上', # [['新', '信', 2, 3], ['式', '是', 3, 4]])
'中国人工只能布局很不错',
'想不想在来一次比赛', # [['在', '再', 3, 4]]), right
'你不觉的高兴吗',
'权利的游戏第八季', # [['季', '级', 7, 8]])
'美食美事皆不可辜负,这场盛会你一定期待已久',
'点击咨询痣疮是什么原因?咨询医师痣疮原因', # [['痣', '之', 4, 5], ['疮', '窗', 5, 6], ['痣', '指', 16, 17], ['疮', '撞', 17, 18]])
'附睾焱的症状?要引起注意!',
'外阴尖锐涅疣怎样治疗?-济群解析', # [['涅', '捏', 4, 5], ['疣', '又', 5, 6], ['济群', '集群', 12, 14]])
'洛阳大华雅思 30天突破雅思7分',
'男人不育少靖子症如何治疗?专业男科,烟台京城医院',
'疝気医院那好 疝気专科百科问答',
'成都医院治扁平苔鲜贵吗_国家2甲医院', # [['苔鲜贵', '苔癣贵', 7, 10], right
'少先队员因该为老人让坐', # [['因该', '应该', 4, 6], ['坐', '座', 10, 11]]) right
'一只小鱼船浮在平净的河面上', # [['船浮', '船夫', 4, 6],error; ['平净', '平静', 7, 9]])right
'我的家乡是有明的渔米之乡', # [['有明', '有名', 5, 7], ['渔米', '鱼米', 8, 10]])right; [['渔米', '玉米', 8, 10]])error
' _ ,',
'我对于宠物出租得事非常认同,因为其实很多人喜欢宠物', # 出租的事
'有了宠物出租地方另一方面还可以题高人类对动物的了解,因为那些专业人氏可以指导我们对于动物的习惯。',
# 题高 => 提高 专业人氏 => 专业人士right; [['宠', '重', 2, 3], ['方面', '方便', 10, 12],error
'三个凑皮匠胜过一个诸葛亮也有道理。', # [['三个凑皮匠', '三个臭皮匠', 0, 5]])
'还有广告业是只要桌子前面坐者工作未必产生出来好的成果。',
]
d = Corrector()
for i in error_sentences:
print(i, d.detect(i))
sent1 = '少先队员应该为老人让座'
sent_seg = segment(sent1)
ppl = d.ppl_score(sent_seg)
print(sent1, 'ppl_score:', ppl)
sent2 = '少先队员因该为老人让坐'
sent_seg = segment(sent2)
ppl = d.ppl_score(sent_seg)
print(sent2, 'ppl_score:', ppl)
print(sent1, d.detect(sent1))
print(sent2, d.detect(sent2))
freq = d.word_frequency('龟龙麟凤')
print('freq:', freq)