jieba4ahk——一个基于字典的中文分词系统

作者:MonoEven

参考:jieba-analysis

效果

jieba4ahk目前仅实现了基于字典的中文分词,对于未登录字典的词也会基于字典结构分析,目前来看效果不错。但由于技术和效率限制,词性标注以及关键词提取暂未实现,待后期更新。

代码示例

#Include <jieba\jieba>

segmenter := JiebaSegmenter()
s := a_tickcount
sentences :=["浙江传媒,职业技术,学校"]
for sentence in sentences
    ret := segmenter.process(sentence, SegMode.SEARCH, onlyResults := true, punctuationFlag := false)
msgbox a_tickcount - s

在使用前需要新建JiebaSegmenter类实例,使用process进行分词,其中第一个参数为分词对象,为字符串;第二参数为分词选项,有INDEX和SEARCH两种;第三个参数为true表示仅返回结果,不包含结果的起始和终止位置,默认为false;第四个为是否包含中文标点,默认为true即包含中文标点,注意该选项会影响分词结果

结果返回分为两种:

; ArrayList<SegToken>
[[浙江, 0, 2],[传媒, 2, 4],[,, 4, 5],[职业, 5, 7],[技术, 7, 9],[,, 9, 10],[学校, 10, 12]]

; ArrayList<String>
[浙江,传媒,职业,技术学校]

具体效果

加载默认字典(约5m)大约耗时15秒;加载后进行分词,低于一百字均可以在200ms内完成,若如实例的短单句则基本耗时在20ms左右。

下载地址

jieba4ahk

提取码:mono复制
解压码:无

给TA捐赠
共{{data.count}}人
人已捐赠
AHKV2

toml4ahk——纯ahk实现toml解析

2023-1-13 19:18:32

AHKV2

cppJieba——中文分词的另一个选项

2023-1-18 17:16:10

3 条回复 A文章作者 M管理员
  1. 11010010

    我这里用时19秒,这个距离实际应用到输入法的输入拆分可能还不行

  2. 11010010
    11010010给您捐赠了¥5
  3. 11010010

    👍

个人中心
今日签到
有新私信 私信列表
搜索