Software Open Access
Qin Wenfeng; Check your git settings!; Yanyi Wu
o Add: tobin() to transform simhash to binary format. o Add: vector_simhash() vector_distance() to extract simhash or compute Hamming distance from the result of segmentation. o Add: get_tuple() to get tuple from segmentation result. o Add: get_idf() to generate IDF dict. o Fix: C API now work with Clang on Mac 10.11. o Enhencement: Update tests for C API. o Warning: Next version will update internal CppJieba version and tag(), EditDict(), ShowDictPath() will be remove.
一、增加:get_tuple() 返回分词结果中 n 个连续的字符串组合的频率情况,可以作为自定义词典的参考。
二、增加:get_idf() 根据多文档词条结果计算 IDF 值。输入一个包含多个文本向量的 list,每一个文本向量代表一个文档,可自定义停止词列表。
三、增加:可以使用 vector_simhash vector_distance 直接对文本向量计算 simhash 和 海明距离。
四、增加:可以使用 tobin 进行 simhash 数值的二进制转换。
Name | Size | |
---|---|---|
jiebaR-0.7.zip
md5:51c92a5aef988951553b0e9e6ac00fd9 |
124.1 kB | Download |
All versions | This version | |
---|---|---|
Views | 819 | 172 |
Downloads | 142 | 37 |
Data volume | 15.5 MB | 4.6 MB |
Unique views | 782 | 172 |
Unique downloads | 140 | 37 |