jieba4ahk——一个基于字典的中文分词系统

其他函数
23年1月14日
编辑

陌诺Mono陌思科技-技术顾问

作者：MonoEven

参考：jieba-analysis

效果

jieba4ahk目前仅实现了基于字典的中文分词，对于未登录字典的词也会基于字典结构分析，目前来看效果不错。但由于技术和效率限制，词性标注以及关键词提取暂未实现，待后期更新。

代码示例

#Include <jieba\jieba>

segmenter := JiebaSegmenter()
s := a_tickcount
sentences :=["浙江传媒，职业技术，学校"]
for sentence in sentences
    ret := segmenter.process(sentence, SegMode.SEARCH, onlyResults := true, punctuationFlag := false)
msgbox a_tickcount - s

在使用前需要新建JiebaSegmenter类实例，使用process进行分词，其中第一个参数为分词对象，为字符串；第二参数为分词选项，有INDEX和SEARCH两种；第三个参数为true表示仅返回结果，不包含结果的起始和终止位置，默认为false；第四个为是否包含中文标点，默认为true即包含中文标点，注意该选项会影响分词结果。

结果返回分为两种：

; ArrayList<SegToken>
[[浙江, 0, 2],[传媒, 2, 4],[，, 4, 5],[职业, 5, 7],[技术, 7, 9],[，, 9, 10],[学校, 10, 12]]

; ArrayList<String>
[浙江,传媒,职业,技术学校]

具体效果

加载默认字典（约5m）大约耗时15秒；加载后进行分词，低于一百字均可以在200ms内完成，若如实例的短单句则基本耗时在20ms左右。

下载地址

jieba4ahk

提取码：mono复制

解压码：无

下载

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证