计算所汉语词法分析系统ICTCLAS   English  

作者介绍

    词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。

   ICTCLAS所有的源代码、论文和技术文档都可以在www.nlp.org.cn 或者 www.ict.ac.cn/freeware/上免费得到。ICTCLAS和计算所其他14项免费发布的成果被中外媒体广泛地报道,截止到9月,ICTCLAS被来自于中国、日本、新加坡、韩国、美国以及其他国家和地区的2000多位研究人员和商业机构下载使用。我们为免费发布ICTCLAS并能帮助用户解决中文词法问题而深感荣幸!

另外,我们还提供一套完整的动态连接库ICTCLAS.dll供开发者直接在自己的系统中调用ICTCLAS来实现汉语词法分析。最后我们欢迎各位提出的任何问题,评述或者建议。

   在该系统的学习训练阶段采用了人民日报一个月的切分标注好的语料库,在此对人民日报、北大计算语言所、北京富士通公司表示感谢!欢迎相关领域的工程技术人员、研究人员使用,并提供宝贵意见。

Author:   Kevin Zhang (张华平); Qun Liu(刘群)

Inst. of Computing Tech., Chinese Academy of Sciences

Email:    zhanghp@software.ict.ac.cn

Tel:      +86-10-88455001/5/7 to 714

ICTCLAS
源代码
使用许可
相关文档
最新进展

        

[跟我们联系|参与开放项目|返回主页]

Copyright©2002 软件室mtgroup版权所有