作者 |
【磐創(chuàng)AI導讀】:本文為中文分詞工具整理分享。
一.中文分詞
分詞服務接口列表
二.準確率評測:
:與代表性分詞軟件的性能對比
我們選擇LTP-3.2.0 、(2015版) 、jieba(C++版)等國內具代表性的分詞軟件與做性能比較。我們選擇作為測試環(huán)境,根據(jù)第二屆國際漢語分詞測評(The Word )發(fā)布的國際中文分詞測評標準,對不同軟件進行了速度和準確率測試。
在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料( 、 City 、 、), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集()、測試集(), 以及根據(jù)各自分詞標準而提供的相應測試集的標準答案(icwb2-data//gold).在icwb2-data/目錄下含有對分詞進行自動評分的perl腳本score。
我們在統(tǒng)一測試環(huán)境下,對上述流行分詞軟件和進行了測試,使用的模型為各分詞軟件自帶模型。使用的是隨軟件提供的簡單模型。評測環(huán)境為 Intel Core i5 2.4 GHz 評測結果如下:
評測結果1
除了以上在標準測試集上的評測,我們也對各個分詞工具在大數(shù)據(jù)上的速度進行了評測,結果如下:
.txt(51 MB)
評測結果2
分詞數(shù)據(jù)準備及評測由完成:11 款開放中文分詞引擎大比拼(2015年發(fā)布)
分詞的客觀量化測試離不開標注數(shù)據(jù),即人工所準備的分詞“標準答案”。在數(shù)據(jù)源方面,我們將測試分為: 1.新聞數(shù)據(jù):140篇分詞工具分好以后關鍵詞價格,共30517詞語; 2.微博數(shù)據(jù):200篇,共12962詞語; 3.汽車論壇數(shù)據(jù)(汽車之家)100篇:共27452詞語; 4.餐飲點評數(shù)據(jù)(大眾點評):100條,共8295詞語。
準確度計算規(guī)則:
將所有標點符號去除,不做比較
參與測試的部分系統(tǒng)進行了實體識別,可能造成詞語認定的不統(tǒng)一。我們將對應位置替換成了人工標注的結果分詞工具分好以后關鍵詞價格,得到準確率估算的上界。
經(jīng)過以上處理,用 分詞評分腳本比較得到最終的準確率,召回率和F1值。
以上所有數(shù)據(jù)采用北大現(xiàn)代漢語基本加工規(guī)范對所有數(shù)據(jù)進行分詞作為標準。具體數(shù)據(jù)下載地址請參見附錄。通過這四類數(shù)據(jù)綜合對比不同分詞系統(tǒng)的分詞準確度。
不同分詞系統(tǒng)的分詞準確度對比
三.付費價格:
阿里云:
阿里云付費價格
騰訊云:
騰訊云付費價格
玻森中文
免費額度:
玻森中文免費額度
付費價格:
玻森中文付費價格
四.官網(wǎng)
開源工具
HanLP:
//HanLP
結巴分詞:
/fxsjy/jieba
盤古分詞:
/
庖丁解牛:
/p//
SCWS中文分詞:
/scws/docs.php
高校工具
:
//fnlp
LTP:
/
:
/
NLPIR:
/docs
商業(yè)服務
:
/dev/
百度NLP:
/doc/NLP/NLP-API.html
搜狗分詞:
/labs//
騰訊文智:
///271/2071
騰訊價格單:
///271/1140
阿里云NLP:
//nlp
新浪云:
/doc/sae//.html
測試數(shù)據(jù)集
1、 2005 MSR, 560KB
//
2、 2005 PKU, 510KB
//
3、人民日報 2014,65MB
/s/
前兩個數(shù)據(jù)集是于2005年組織的中文分詞比賽所用的數(shù)據(jù)集,也是學術界測試分詞工具的標準數(shù)據(jù)集,本文用于測試各大分詞工具的準確性,而最后一個數(shù)據(jù)集規(guī)模較大,用于測試分詞速度。