ropencc is a project for conversion between Traditional and Simplified Chinese, wrapper in ruby.
繁简转换的程序,看似简单,但一研究起来,却真的不简单。其中一个难点是繁简汉字之间往往不能一一对应
例如:瞭解 -> 了解 瞭望 -> 瞭望;“標準”繁換簡是“标准”,但“标准”簡換繁卻是“標准”
还有若干语言习惯的问题,例如同一个地名的称呼就不一样,就不一一列举了
而 Open Chinese Convert(OpenCC)「开放中文转换」,是一个致力于中 文简繁转换的项目,由清华大学的 BYVoid 提供高质量词库和函数库(libopencc)。更多介紹。
-
先安装 libopencc
Ubuntu
如果你正在使用Ubuntu 10.10 (Maverick) 以上的版本,opencc已經被加入到了官方源中,使用
sudo apt-get install opencc sudo apt-get install libopencc-dev
如果你更願意體驗最新的版本,請使用ppa:
sudo add-apt-repository ppa:byvoid-kcp/ppa sudo apt-get update sudo apt-get install opencc sudo apt-get install libopencc-dev
Mac OS X
使用 brew 安装
brew install opencc
更多 libopencc 安装介绍请查看: https://github.com/BYVoid/OpenCC
-
安装 ropencc
gem install ropencc
s2t.json
Simplified Chinese to Traditional Chinese 簡體到繁體t2s.json
Traditional Chinese to Simplified Chinese 繁體到簡體s2tw.json
Simplified Chinese to Traditional Chinese (Taiwan Standard) 簡體到臺灣正體tw2s.json
Traditional Chinese (Taiwan Standard) to Simplified Chinese 臺灣正體到簡體s2hk.json
Simplified Chinese to Traditional Chinese (Hong Kong Standard) 簡體到香港繁體(香港小學學習字詞表標準)hk2s.json
Traditional Chinese (Hong Kong Standard) to Simplified Chinese 香港繁體(香港小學學習字詞表標準)到簡體s2twp.json
Simplified Chinese to Traditional Chinese (Taiwan Standard) with Taiwanese idiom 簡體到繁體(臺灣正體標準)並轉換爲臺灣常用詞彙tw2sp.json
Traditional Chinese (Taiwan Standard) to Simplified Chinese with Mainland Chinese idiom 繁體(臺灣正體標準)到簡體並轉換爲中國大陸常用詞彙
简转繁 (Simple Interface)
Ropencc.conv('s2t.json', str)
繁转简 (Simple Interface)
Ropencc.conv('t2s.json', str)
简转繁 (File-Class like Interface)
Ropencc.open 's2t.json' do |cc|
rs = cc.convert '新年快乐'
assert_equal '新年快樂', rs
end
繁转简 (File-Class like Interface)
Ropencc.open 't2s.json' do |cc|
rs = cc.convert '新年快樂'
assert_equal '新年快乐', rs
end
BYVoid,清華大學計算機系二零一零級本科生,清華大學學生網絡管理委員會副會長,現於微軟亞洲研究院系統組實習。
出生於1991年末,年十九歲,河南安陽人。熱愛計算機科學、語言學、漢語音韻學。能說有入聲的老派安陽話,會用簡繁體流暢地閱讀書寫,能夠辨析漢字簡繁正異用法。認爲「正體字」不等於「臺灣正體字」,支持傳統正體字回歸主流,主張廢除簡體字, 希望陸、港、澳、臺、日、韓、越早日實現漢字統一。