-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathnoun_filter.py
67 lines (61 loc) · 2.49 KB
/
noun_filter.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
#coding:utf-8
import codecs
import re
import os
#на вход - файл и частотный словарь Ляшевской и Шарова
#(электронная версия доступна по ссылке http://dict.ruslang.ru/freq.php). На выходе - файл формата
#"лемма ipm вхождение_из_текста". Поиск слов, который НЕТ в словаре (с вычетом имен собственных и глаголов)
my_d = {}
g = codecs.open(u'fr2011.csv', 'r', 'utf-8')
for line in g:
line = line.strip()
line = line.split(u'\t')
my_d[line[0]] = line[1]
check = set()
def rare_words(nfile):
new = codecs.open(u'filter0423.csv', 'a', 'utf-8')
excl = set([u'чь', u'ие', u'ец', u'ье', u'ок', u'ек', u'ий', u'ый', u'ой', u'ач'])
excl1 = set([u'очка', u'ство', u'ость', u'ечка', u'ушка', u'тель'])
global check
global my_d
s = codecs.open(nfile, 'r', 'utf-8-sig')
for line in s:
res = line.strip()
line = line.split(u'\t')
search = line[0]
token = line[2]
if search not in check and my_d[search] == u's' and search[-2:] not in excl and search[-3:] != u'ица' and search[-4:] not in excl1 and token[0] not in u'ЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ' and len(search) > 3:
check.add(search)
#return m.group(1)
new.write(res + u'\r\n')
s.close()
new.close()
ss = rare_words(u'haha0423.csv')
f = codecs.open(u'filter0423.csv', 'r', 'utf-8')
l = codecs.open(u'filter0423_def.csv', 'a', 'utf-8')
z = codecs.open(u'haha_def.csv', 'r', 'utf-8')
words = set()
for line1 in z:
line1 = line1.split(u'\t')[0]
words.add(line1)
for line in f:
for_final = line.strip()
n = 0
line = line.split(u'\t')
print line[0]
reg = u'<p><b>' + line[0].upper() + u'</b>'
if line[0] not in words:
for root, dirs, files in os.walk(u'.'):
if n == 1:
break
else:
for fname in files:
if root.endswith(line[0][0]):
s = codecs.open(os.path.join(root,fname), 'r', 'utf-8').read()
if s.startswith(reg):
n += 1
print line[0] + u'---' + s
l.write(for_final + u'\t' + s + u'\r\n')
break
f.close()
z.close()