jiebaR: Changes in Version 0.7
Creators
Description
o Add: tobin() to transform simhash to binary format. o Add: vector_simhash() vector_distance() to extract simhash or compute Hamming distance from the result of segmentation. o Add: get_tuple() to get tuple from segmentation result. o Add: get_idf() to generate IDF dict. o Fix: C API now work with Clang on Mac 10.11. o Enhencement: Update tests for C API. o Warning: Next version will update internal CppJieba version and tag(), EditDict(), ShowDictPath() will be remove.
一、增加:get_tuple() 返回分词结果中 n 个连续的字符串组合的频率情况,可以作为自定义词典的参考。
二、增加:get_idf() 根据多文档词条结果计算 IDF 值。输入一个包含多个文本向量的 list,每一个文本向量代表一个文档,可自定义停止词列表。
三、增加:可以使用 vector_simhash vector_distance 直接对文本向量计算 simhash 和 海明距离。
四、增加:可以使用 tobin 进行 simhash 数值的二进制转换。
Files
jiebaR-0.7.zip
Files
(124.1 kB)
Name | Size | Download all |
---|---|---|
md5:51c92a5aef988951553b0e9e6ac00fd9
|
124.1 kB | Preview Download |
Additional details
Related works
- Is supplement to
- https://github.com/qinwf/jiebaR/tree/0.7 (URL)