-
Notifications
You must be signed in to change notification settings - Fork 49
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Added persian language files and test
- Loading branch information
1 parent
5522006
commit b9f3cd9
Showing
3 changed files
with
368 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,23 @@ | ||
<?php | ||
|
||
// برای اجرای این مثال از طریق کامند لاین : | ||
// $ cd examples | ||
// $ php fa_IR_example.php "یک جمله نمونه برای استخراج کلمات از آن\" | ||
|
||
require '../vendor/autoload.php'; | ||
|
||
use DonatelloZa\RakePlus\RakePlus; | ||
|
||
if ($argc < 2) { | ||
echo "Please specify the text you would like to be parsed, e.g.:\n"; | ||
echo "php fa_IR_example.php \"یک جمله نمونه برای استخراج کلمات از آن\"\n"; | ||
exit(1); | ||
} | ||
|
||
$keywords = RakePlus::create($argv[1])->keywords(); | ||
print "The keywords for \"{$argv[1]}\" is:\n"; | ||
print_r($keywords); | ||
|
||
$phrases = RakePlus::create($argv[1])->get(); | ||
print "The phrases for \"{$argv[1]}\" is:\n"; | ||
print_r($phrases); |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1 @@ | ||
/\bيكي\b|\bيكديگر\b|\bيك\b|\bیک\b|\bيابد\b|\bيا\b|\bیا\b|\bهيچ\b|\bهیچ\b|\bهنوز\b|\bهنگامی\b|\bهنگامِ\b|\bهنگام\b|\bهمين\b|\bهمین\b|\bهمه\b|\bهمواره\b|\bهمچون\b|\bهمچنين\b|\bهمچنان\b|\bهمان\b|\bهم\b|\bهفت\b|\bهستيم\b|\bهستند\b|\bهست\b|\bهزار\b|\bهرگز\b|\bهر\b|\bهايي\b|\bهاي\b|\bها\b|\bّه\b|\bوي\b|\bولی\b|\bوگو\b|\bوقتیکه\b|\bوقتي\b|\bوسطِ\b|\bو(?!(-|'))\b|\bنيست\b|\bنيز\b|\bنه\b|\bنوعي\b|\bنمي\b|\bنمايد\b|\bنكرده\b|\bنظير\b|\bنشده\b|\bنشان\b|\bنزديك\b|\bنزدیکِ\b|\bنزدِ\b|\bنداشته\b|\bندارند\b|\bندارد\b|\bنخواهد\b|\bنخستين\b|\bنخست\b|\bنبود\b|\bنبايد\b|\bنام\b|\bناشي\b|\bميليون\b|\bميليارد\b|\bمي\b|\bمورد\b|\bمن\b|\bمگر\b|\bمقابل\b|\bمرسی\b|\bمردم\b|\bمدّتی\b|\bمختلف\b|\bمثلِ\b|\bمثل\b|\bمانندِ\b|\bمانند\b|\bمان\b|\bما\b|\bلطفاً\b|\bگيري\b|\bگيرد\b|\bگويند\b|\bگويد\b|\bگفته\b|\bگفت\b|\bگروهي\b|\bگرفته\b|\bگرفت\b|\bگردد\b|\bگذاشته\b|\bگذاري\b|\bکَی\b|\bکی\b|\bكه\b|\bکه\b|\bكنيم\b|\bكنيد\b|\bكنند\b|\bكنم\b|\bكند\b|\bکنارِ\b|\bكمتر\b|\bكل\b|\bكسي\b|\bکسی\b|\bکس\b|\bكرده\b|\bكردند\b|\bكردن\b|\bكردم\b|\bكرد\b|\bکدام\b|\bکجاست\b|\bکجا\b|\bقصدِ\b|\bقبل\b|\bقابل\b|\bفوق\b|\bفكر\b|\bفقط\b|\bغير\b|\bعنوانِ\b|\bعلّتِ\b|\bعقبِ\b|\bطي\b|\bطور\b|\bطريق\b|\bطبقِ\b|\bضمن\b|\bضدِّ\b|\bصورت\b|\bشوند\b|\bشود\b|\bشناسي\b|\bشما\b|\bشش\b|\bشده\b|\bشدند\b|\bشدن\b|\bشد\b|\bشايد\b|\bشان\b|\bسوي\b|\bسویِ\b|\bسوم\b|\bسمتِ\b|\bسعي\b|\bسریِ\b|\bسراسر\b|\bسپس\b|\bسازي\b|\bساخته\b|\bسابق\b|\bزيرا\b|\bزير\b|\bزیرِ\b|\bزياد\b|\bريزي\b|\bروي\b|\bرویِ\b|\bروزهاي\b|\bروب\b|\bرفته\b|\bرفت\b|\bراه\b|\bرا\b|\bديگري\b|\bديگران\b|\bديگر\b|\bدیگر\b|\bديروز\b|\bديده\b|\bدهند\b|\bدهد\b|\bده\b|\bدوم\b|\bدو\b|\bدنبالِ\b|\bدرباره\b|\bدر\b|\bدانند\b|\bدانست\b|\bداشته\b|\bداشتند\b|\bداشتن\b|\bداشت\b|\bداريم\b|\bدارند\b|\bدارد\b|\bداده\b|\bدادند\b|\bدادن\b|\bداد\b|\bخیاه\b|\bخويش\b|\bخود\b|\bخواهيم\b|\bخواهند\b|\bخواهد\b|\bخواست\b|\bخدمات\b|\bخارجِ\b|\bحق\b|\bحدودِ\b|\bحتي\b|\bچیست\b|\bچيزي\b|\bچیزی\b|\bچیز\b|\bچهار\b|\bچه\b|\bچون\b|\bچنين\b|\bچندین\b|\bچند\b|\bچگونه\b|\bچطور\b|\bچرا\b|\bجلویِ\b|\bجلوگيري\b|\bجز\b|\bجريان\b|\bجديد\b|\bجدا\b|\bجايي\b|\bجاي\b|\bجا\b|\bتویِ\b|\bتولِ\b|\bتوسط\b|\bتوانند\b|\bتواند\b|\bتنها\b|\bتمامي\b|\bتمام\b|\bترين\b|\bتر\b|\bتحت\b|\bتان\b|\bتاكنون\b|\bتازه\b|\bتا\b|\bپيش\b|\bپیشِ\b|\bپیش\b|\bپنج\b|\bپس\b|\bپاعینِ\b|\bبين\b|\bبيشتري\b|\bبيشتر\b|\bبيش\b|\bبيست\b|\bبیرونِ\b|\bبي\b|\bبی\b|\bبهترين\b|\bبه\b|\bبوده\b|\bبودند\b|\bبودن\b|\bبود\b|\bبندي\b|\bبنابراين\b|\bبلی\b|\bبله\b|\bبلكه\b|\bبلکه\b|\bبعضي\b|\bبعری\b|\bبعد\b|\bبسياري\b|\bبسيار\b|\bبروز\b|\bبرداري\b|\bبرخي\b|\bبرخوردار\b|\bبراي\b|\bبرایِ\b|\bبراساس\b|\bبرابرِ\b|\bبر\b|\bبدون\b|\bبايد\b|\bبالایِ\b|\bبالا\b|\bباشيم\b|\bباشند\b|\bباشد\b|\bبارة\b|\bباره\b|\bبار\b|\bبا\b|\bاينكه\b|\bاين\b|\bايم\b|\bايشان\b|\bاي\b|\bاول\b|\bاو\b|\bانکه\b|\bاند\b|\bامسال\b|\bامروز\b|\bاما\b|\bام\b|\bالبتّه\b|\bالبته\b|\bاگر\b|\bاكنون\b|\bاش\b|\bاستفاده\b|\bاست\b|\bاز\b|\bاثرِ\b|\bآيد\b|\bآیا\b|\bآورده\b|\bآورد\b|\bآنها\b|\bآنكه\b|\bآنچه\b|\bآنجا\b|\bآنان\b|\bآن\b|\bآمده\b|\bآمد\b|\bآری\b|\bآره\b|\bآباد\b/i |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,344 @@ | ||
<?php | ||
|
||
/** | ||
* Stopwords list for the use in the PHP package rake-php-plus. | ||
* See: https://github.com/Donatello-za/rake-php-plus | ||
* | ||
* Extracted using extractor.php @ 2021-08-23T08:53:51+00:00 | ||
*/ | ||
|
||
return [ | ||
'يكي', | ||
'يكديگر', | ||
'يك', | ||
'یک', | ||
'يابد', | ||
'يا', | ||
'یا', | ||
'هيچ', | ||
'هیچ', | ||
'هنوز', | ||
'هنگامی', | ||
'هنگامِ', | ||
'هنگام', | ||
'همين', | ||
'همین', | ||
'همه', | ||
'همواره', | ||
'همچون', | ||
'همچنين', | ||
'همچنان', | ||
'همان', | ||
'هم', | ||
'هفت', | ||
'هستيم', | ||
'هستند', | ||
'هست', | ||
'هزار', | ||
'هرگز', | ||
'هر', | ||
'هايي', | ||
'هاي', | ||
'ها', | ||
'ّه', | ||
'وي', | ||
'ولی', | ||
'وگو', | ||
'وقتیکه', | ||
'وقتي', | ||
'وسطِ', | ||
'و', | ||
'نيست', | ||
'نيز', | ||
'نه', | ||
'نوعي', | ||
'نمي', | ||
'نمايد', | ||
'نكرده', | ||
'نظير', | ||
'نشده', | ||
'نشان', | ||
'نزديك', | ||
'نزدیکِ', | ||
'نزدِ', | ||
'نداشته', | ||
'ندارند', | ||
'ندارد', | ||
'نخواهد', | ||
'نخستين', | ||
'نخست', | ||
'نبود', | ||
'نبايد', | ||
'نام', | ||
'ناشي', | ||
'ميليون', | ||
'ميليارد', | ||
'مي', | ||
'مورد', | ||
'من', | ||
'مگر', | ||
'مقابل', | ||
'مرسی', | ||
'مردم', | ||
'مدّتی', | ||
'مختلف', | ||
'مثلِ', | ||
'مثل', | ||
'مانندِ', | ||
'مانند', | ||
'مان', | ||
'ما', | ||
'لطفاً', | ||
'گيري', | ||
'گيرد', | ||
'گويند', | ||
'گويد', | ||
'گفته', | ||
'گفت', | ||
'گروهي', | ||
'گرفته', | ||
'گرفت', | ||
'گردد', | ||
'گذاشته', | ||
'گذاري', | ||
'کَی', | ||
'کی', | ||
'كه', | ||
'که', | ||
'كنيم', | ||
'كنيد', | ||
'كنند', | ||
'كنم', | ||
'كند', | ||
'کنارِ', | ||
'كمتر', | ||
'كل', | ||
'كسي', | ||
'کسی', | ||
'کس', | ||
'كرده', | ||
'كردند', | ||
'كردن', | ||
'كردم', | ||
'كرد', | ||
'کدام', | ||
'کجاست', | ||
'کجا', | ||
'قصدِ', | ||
'قبل', | ||
'قابل', | ||
'فوق', | ||
'فكر', | ||
'فقط', | ||
'غير', | ||
'عنوانِ', | ||
'علّتِ', | ||
'عقبِ', | ||
'طي', | ||
'طور', | ||
'طريق', | ||
'طبقِ', | ||
'ضمن', | ||
'ضدِّ', | ||
'صورت', | ||
'شوند', | ||
'شود', | ||
'شناسي', | ||
'شما', | ||
'شش', | ||
'شده', | ||
'شدند', | ||
'شدن', | ||
'شد', | ||
'شايد', | ||
'شان', | ||
'سوي', | ||
'سویِ', | ||
'سوم', | ||
'سمتِ', | ||
'سعي', | ||
'سریِ', | ||
'سراسر', | ||
'سپس', | ||
'سازي', | ||
'ساخته', | ||
'سابق', | ||
'زيرا', | ||
'زير', | ||
'زیرِ', | ||
'زياد', | ||
'ريزي', | ||
'روي', | ||
'رویِ', | ||
'روزهاي', | ||
'روب', | ||
'رفته', | ||
'رفت', | ||
'راه', | ||
'را', | ||
'ديگري', | ||
'ديگران', | ||
'ديگر', | ||
'دیگر', | ||
'ديروز', | ||
'ديده', | ||
'دهند', | ||
'دهد', | ||
'ده', | ||
'دوم', | ||
'دو', | ||
'دنبالِ', | ||
'درباره', | ||
'در', | ||
'دانند', | ||
'دانست', | ||
'داشته', | ||
'داشتند', | ||
'داشتن', | ||
'داشت', | ||
'داريم', | ||
'دارند', | ||
'دارد', | ||
'داده', | ||
'دادند', | ||
'دادن', | ||
'داد', | ||
'خیاه', | ||
'خويش', | ||
'خود', | ||
'خواهيم', | ||
'خواهند', | ||
'خواهد', | ||
'خواست', | ||
'خدمات', | ||
'خارجِ', | ||
'حق', | ||
'حدودِ', | ||
'حتي', | ||
'چیست', | ||
'چيزي', | ||
'چیزی', | ||
'چیز', | ||
'چهار', | ||
'چه', | ||
'چون', | ||
'چنين', | ||
'چندین', | ||
'چند', | ||
'چگونه', | ||
'چطور', | ||
'چرا', | ||
'جلویِ', | ||
'جلوگيري', | ||
'جز', | ||
'جريان', | ||
'جديد', | ||
'جدا', | ||
'جايي', | ||
'جاي', | ||
'جا', | ||
'تویِ', | ||
'تولِ', | ||
'توسط', | ||
'توانند', | ||
'تواند', | ||
'تنها', | ||
'تمامي', | ||
'تمام', | ||
'ترين', | ||
'تر', | ||
'تحت', | ||
'تان', | ||
'تاكنون', | ||
'تازه', | ||
'تا', | ||
'پيش', | ||
'پیشِ', | ||
'پیش', | ||
'پنج', | ||
'پس', | ||
'پاعینِ', | ||
'بين', | ||
'بيشتري', | ||
'بيشتر', | ||
'بيش', | ||
'بيست', | ||
'بیرونِ', | ||
'بي', | ||
'بی', | ||
'بهترين', | ||
'به', | ||
'بوده', | ||
'بودند', | ||
'بودن', | ||
'بود', | ||
'بندي', | ||
'بنابراين', | ||
'بلی', | ||
'بله', | ||
'بلكه', | ||
'بلکه', | ||
'بعضي', | ||
'بعری', | ||
'بعد', | ||
'بسياري', | ||
'بسيار', | ||
'بروز', | ||
'برداري', | ||
'برخي', | ||
'برخوردار', | ||
'براي', | ||
'برایِ', | ||
'براساس', | ||
'برابرِ', | ||
'بر', | ||
'بدون', | ||
'بايد', | ||
'بالایِ', | ||
'بالا', | ||
'باشيم', | ||
'باشند', | ||
'باشد', | ||
'بارة', | ||
'باره', | ||
'بار', | ||
'با', | ||
'اينكه', | ||
'اين', | ||
'ايم', | ||
'ايشان', | ||
'اي', | ||
'اول', | ||
'او', | ||
'انکه', | ||
'اند', | ||
'امسال', | ||
'امروز', | ||
'اما', | ||
'ام', | ||
'البتّه', | ||
'البته', | ||
'اگر', | ||
'اكنون', | ||
'اش', | ||
'استفاده', | ||
'است', | ||
'از', | ||
'اثرِ', | ||
'آيد', | ||
'آیا', | ||
'آورده', | ||
'آورد', | ||
'آنها', | ||
'آنكه', | ||
'آنچه', | ||
'آنجا', | ||
'آنان', | ||
'آن', | ||
'آمده', | ||
'آمد', | ||
'آری', | ||
'آره', | ||
'آباد' | ||
]; | ||
|