-
为什么会有pyOpenCC
因为readcola这个项目,要将一些繁体的电子书转换成简体中文书籍,测试的结果发现OpenCC的效果是非常好的,而且是开源的,便于和现在的工具整合。 在pip发现这个opencc-python,测试后发现只是调用OpenCC的命令行,对转换的内容长度也有限制。 抱着试试目的,在网上查了下Python的C扩展的写法,调用OpenCC的接口,讲过多次调试,于是就有了这个项目。第一次写作Python的C扩展。
-
OpenCC
Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成进程、在线转换服务及图形用户界面。
-
What is pyOpenCC?
pyOpenCC is a Python wrapper for Open Chinese Converter
-
Installation
You need to install opencc-dev first, To install OpenCC:
Debian:
apt-get install libopencc-dev -y
FreeBSD:
cd /usr/ports/chinese/opencc make install clean
To install pyopencc:
git clone https://github.com/cute/pyopencc.git cd pyopencc python setup.py build_ext -I /usr/local/include/opencc/ python setup.py install
-
How to use it?
Following is a simple example:
# -*- coding: utf8 -*- import opencc cc = opencc.OpenCC('zht2zhs.ini') print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')
And the output should be:
Open Chinese Convert(OpenCC)「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库(libopencc)。
There are four convertion in opencc:
- zht2zhs.ini - Traditional Chinese to Simplified Chinese
- zhs2zht.ini - Simplified Chinese to Traditional Chinese
- mix2zht.ini - Mixed to Traditional Chinese
- mix2zhs.ini - Mixed to Simplified Chinese