JSastrawi is a collection of Natural Language Processing (NLP) tools for Bahasa Indonesia. It is originally a java port of Sastrawi Stemmer.
JSastrawi terdiri dari beberapa komponen yaitu:
Lemmatization ialah proses mengubah kata berimbuhan menjadi kata dasar. Seperti:
- menahan => tahan
- berbalas-balasan => balas
Tersedia demo pada http://sastrawi.github.io
<dependency>
<groupId>com.andylibrian.jsastrawi</groupId>
<artifactId>jsastrawi</artifactId>
<version>0.1</version>
</dependency>
compile 'com.andylibrian.jsastrawi:jsastrawi:0.1'
// Mulai setup JSastrawi, cukup dijalankan 1 kali
// JSastrawi lemmatizer membutuhkan kamus kata dasar
// dalam bentuk Set<String>
Set<String> dictionary = new HashSet<String>();
// Memuat file kata dasar dari distribusi JSastrawi
// Jika perlu, anda dapat mengganti file ini dengan kamus anda sendiri
InputStream in = Lemmatizer.class.getResourceAsStream("/root-words.txt");
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String line;
while ((line = br.readLine()) != null) {
dictionary.add(line);
}
Lemmatizer lemmatizer = new DefaultLemmatizer(dictionary);
// Selesai setup JSastrawi
// lemmatizer bisa digunakan berkali-kali
System.out.println(lemmatizer.lemmatize("memakan"));
System.out.println(lemmatizer.lemmatize("meminum"));
System.out.println(lemmatizer.lemmatize("bernyanyi"));
Lisensi JSastrawi adalah MIT License (MIT).
Produk ini mengandung software yang dibangun oleh Apache Software Foundation (http://www.apache.org).
Produk ini menggunakan pustaka CLI dari Apache Commons project (http://commons.apache.org).
Produk ini mengandung kamus kata dasar yang berasal dari Kateglo dengan lisensi CC-BY-NC-SA 3.0, kemudian dilakukan beberapa perubahan.