First steps towards the Hungarian tokenizer code.

explosion · honnibal · Jan 2, 2017 · Dec 7, 2016 · Dec 8, 2016 · Dec 8, 2016
commit 5b00039955a5dc259ce9e63cfe8bebc588f17585
diff --git a/spacy/__init__.py b/spacy/__init__.py
@@ -1,5 +1,6 @@
 import pathlib
 
+from spacy import hu
 from .util import set_lang_class, get_lang_class
 from .about import __version__
 
@@ -24,6 +25,7 @@
 set_lang_class(pt.Portuguese.lang, pt.Portuguese)
 set_lang_class(fr.French.lang, fr.French)
 set_lang_class(it.Italian.lang, it.Italian)
+set_lang_class(hu.Hungarian.lang, hu.Hungarian)
 set_lang_class(zh.Chinese.lang, zh.Chinese)
 
 

diff --git a/spacy/hu/__init__.py b/spacy/hu/__init__.py
@@ -0,0 +1,24 @@
+from __future__ import unicode_literals, print_function
+
+from . import language_data
+from ..attrs import LANG
+from ..language import Language
+
+
+class Hungarian(Language):
+    lang = 'hu'
+
+    class Defaults(Language.Defaults):
+        tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
+        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+        lex_attr_getters[LANG] = lambda text: 'hu'
+
+        prefixes = tuple(language_data.TOKENIZER_PREFIXES)
+
+        suffixes = tuple(language_data.TOKENIZER_SUFFIXES)
+
+        infixes = tuple(language_data.TOKENIZER_INFIXES)
+
+        tag_map = dict(language_data.TAG_MAP)
+
+        stop_words = set(language_data.STOP_WORDS)
diff --git a/spacy/hu/data/stopwords.txt b/spacy/hu/data/stopwords.txt
@@ -0,0 +1,219 @@
+a
+abban
+ahhoz
+ahogy
+ahol
+aki
+akik
+akkor
+akár
+alatt
+amely
+amelyek
+amelyekben
+amelyeket
+amelyet
+amelynek
+ami
+amikor
+amit
+amolyan
+amíg
+annak
+arra
+arról
+az
+azok
+azon
+azonban
+azt
+aztán
+azután
+azzal
+azért
+be
+belül
+benne
+bár
+cikk
+cikkek
+cikkeket
+csak
+de
+e
+ebben
+eddig
+egy
+egyes
+egyetlen
+egyik
+egyre
+egyéb
+egész
+ehhez
+ekkor
+el
+ellen
+elo
+eloször
+elott
+elso
+elég
+előtt
+emilyen
+ennek
+erre
+ez
+ezek
+ezen
+ezt
+ezzel
+ezért
+fel
+felé
+ha
+hanem
+hiszen
+hogy
+hogyan
+hát
+ide
+igen
+ill
+ill.
+illetve
+ilyen
+ilyenkor
+inkább
+is
+ismét
+ison
+itt
+jobban
+jó
+jól
+kell
+kellett
+keressünk
+keresztül
+ki
+kívül
+között
+közül
+le
+legalább
+legyen
+lehet
+lehetett
+lenne
+lenni
+lesz
+lett
+ma
+maga
+magát
+majd
+meg
+mellett
+mely
+melyek
+mert
+mi
+miatt
+mikor
+milyen
+minden
+mindenki
+mindent
+mindig
+mint
+mintha
+mit
+mivel
+miért
+mondta
+most
+már
+más
+másik
+még
+míg
+nagy
+nagyobb
+nagyon
+ne
+nekem
+neki
+nem
+nincs
+néha
+néhány
+nélkül
+o
+oda
+ok
+oket
+olyan
+ott
+pedig
+persze
+például
+rá
+s
+saját
+sem
+semmi
+sok
+sokat
+sokkal
+stb.
+szemben
+szerint
+szinte
+számára
+szét
+talán
+te
+tehát
+teljes
+ti
+tovább
+továbbá
+több
+túl
+ugyanis
+utolsó
+után
+utána
+vagy
+vagyis
+vagyok
+valaki
+valami
+valamint
+való
+van
+vannak
+vele
+vissza
+viszont
+volna
+volt
+voltak
+voltam
+voltunk
+által
+általában
+át
+én
+éppen
+és
+így
+ön
+össze
+úgy
+új
+újabb
+újra
+ő
+őket