[語料庫模型] 04-斷詞工具比較 Jieba vs CKIP

我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴)和 CKIP 了。今天主要介紹我選擇 CKIP 而非 Jieba 的原因。

Jieba 來自中國,而 CKIP 來自中研院,我們發現同樣的句子,將「長」、「照」判斷為兩個詞,而 CKIP 則是將「長照」視為一個詞,可能原因是台灣與中國用語不同。考慮問答集中可能會有較多台灣用語,所以本研究最終選擇使用中研院製作的 CKIP。

長照斷詞

接著分別以TF-IDF搭配Jieba和CKIP,比較以「長照」為關鍵字搜尋最接近的問句,使用Jieba斷詞的結果,系統找到的是「什麼是定點乾燥?」;使用CKIP斷詞的結果,系統找到的是「長照服務專線」。很明顯使用CKIP斷詞,系統能找到更貼切的問句。

斷詞與TFIDF