[語料庫模型] 02-問答組合分類方式
還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦!
名詞定義:
問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、編號、分類)。
問答集: 多個「問答組合」組成問答集。
Why 為什麼要分類?
我們為什麼要把問答組合分類呢?
因為他可以幫助我們更精準地找到期望的問答組合。
例如,同樣輸入「我要申請長照」,如果沒有選擇分類,那就會找到「我家人急著要使用輔具,我可以先買再提出申請補助嗎?」,可能的原因是,「長照」這個詞已經在整個問答集裡面出現太多次了,所以就變得不那麼重要。如果是選擇「長照服務介紹與申請」分類,就會找到「如何申請長照服務及流程為何?」,比較符合我們想問的問題。可見將問答組合分類可以提高找到更相符問答組合的機會。
What 分成那些類?
經過整理問答組合可分為五類,分別是長照據點與機構、長照服務介紹與申請、輔具服務、外籍看護相關規範、長照人員培訓與相關規範。使用者可事先選擇要找哪一類的問題,系統會針對該類別的問答組合做搜尋,可找到與使用者輸入的句子更相符的問題。經過分類後,各類別問答組合的數量,請參考表格。
類別的分法,是有個資料來源是「臺中市輔具資源整合網」,所以有很多輔具相關的問題,因此把他們分作一類。外籍看護相關規範的分類是因為生活經驗中,常聽到長輩在討論相關問題,所以特別分出來。其他的分類則參考衛福部常見問題的分類。
編號 | 名稱 | 說明 | 數量 |
---|---|---|---|
1 | 長照據點與機構 | 關於各類長照據點與機構的說明、評鑑、相關法令 | 139 |
2 | 長照服務介紹與申請 | 不同長照服務介紹、申請資格、服務費用、規範 | 84 |
3 | 輔具服務 | 輔具租借或購買的資格、補助條件 | 48 |
4 | 外籍看護相關規範 | 外籍看護的申請資格、申請方式 | 8 |
5 | 長照人員培訓與相關規範 | 長照人員培訓規範、個案使用服務的認定 | 177 |
總計 | 456 |
How 如何分類?
目前都是採人工分類
單一類別與多個類別比較
分類過程中會發現有些題目可能同時屬於兩個甚至多個類別。為了比較兩種分類方式,本研究將資料集複製了兩份,一份只有單一類別,並盡量以問題的主要意圖分類;另一份則是列出與問題相關的所有類別。
問答集:
- 單一分類: https://gitlab.com/graduate_lab415/nlp/-/blob/dev/docs/fixed_file_1622789141_remove_duplicate_labeled_renumber.csv
- 多個分類: https://gitlab.com/graduate_lab415/nlp/-/blob/Feature/multi-categories/docs/fixed_file_1622789141_remove_duplicate_labeled_renumber.csv
分別以兩個問句在單一類別與多個類別時,搜尋到的結果做比較。本研究選擇兩個不同場景可能會出現的問句,比對結果請參考下表。
「我想借輔具」,比較可能是由長者或其家屬提出,且依常理可預期使用者詢問時,會選擇第 3 類別(輔具服務),而此類別在單一類別和多個類別搜尋結果是一樣的。
問句: 我想借輔具
類別 單一分類 多個類別 0 全部(所有分類) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 1 長照據點與機構 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 2 長照服務介紹與申請 長照服務四包錢是什麼?我可以領到多少錢?(2) 長照服務四包錢是什麼?我可以領到多少錢?(2) 3 輔具服務 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 4 外籍看護相關規範 請問何謂可聘僱外籍家庭看護工之特定身障項目重度(或極重度)或鑑定向度?(4) 總則(給付五)_聘僱外籍看護工之長照需要者,特別是身心障礙者不應排除輔具及居家無障礙服務、交通接送等服務。(2;4) 5 長照人員培訓與相關規範 EA01_為何多項輔具載明「本項輔具選配服務得由輔具銷售人員逕行提供」?部分輔具為何不能短期租賃?如何運用二手輔具?(5) EA01_為何多項輔具載明「本項輔具選配服務得由輔具銷售人員逕行提供」?部分輔具為何不能短期租賃?如何運用二手輔具?(3;5) 說明: 比對結果的問句後方括號內是該問句的類別,若有多個類別則以分號(;)區隔。
「已死亡,還可以申請輔具請款嗎」,這問題有兩種情況,一是家屬不確定長者死亡後,原預計申請的輔具是否還能請領補助款;二是長照相關人員不確定,當長者死亡是否還能核定申請。此時不同身分者選擇的類別可能不相同,家屬可能會選擇第 3 類別(輔具服務),而長照相關人員則可能選擇第 5 類別(長照人員培訓與相關規範)。在這種狀況下,多個類別的分類方式確實可讓使用者在第 5 類別找到答案。
問句: 已死亡,還可以申請輔具請款嗎
類別 單一分類 多個類別 0 全部(所有分類) 如果請款時,身障者已死亡,如何處理?(3) 如果請款時,身障者已死亡,如何處理?(3;5) 1 長照據點與機構 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 2 長照服務介紹與申請 使用長照居家服務需要付錢嗎?(2) 家裡有長輩行動不便,但不符合身障輔具補助資格,有其他的申請管道嗎?(2;3) 3 輔具服務 如果請款時,身障者已死亡,如何處理?(3) 如果請款時,身障者已死亡,如何處理?(3;5) 4 外籍看護相關規範 雇主申請補發許可函,是否需要繳交審查費?(4) 雇主申請補發許可函,是否需要繳交審查費?(4) 5 長照人員培訓與相關規範 點選評估總結確認後,量表內容還可以更改嗎?(5) 如果請款時,身障者已死亡,如何處理?(3;5) 說明: 比對結果的問句後方括號內是該問句的類別,若有多個類別則以分號(;)區隔。
補充: 民眾若需要申請輔具補助,應先提出申請,取得核定公文後,購買輔具才可補助。若有急需可先找輔具資源中心租借。(臺中市輔具資源整合網, 2015)
有兩個原因,使本研究最後選擇「單一類別」的分類方式。
- 選擇「所有類別」的時候可以發現,其實有蠻大的機率可以找到預期的問題,所以我們較推薦不知道如何選擇分類時,可以選擇「全部」(所有分類)。
- 分類過程中發現,雖然一個問題可能同時屬於多個類別,但還是會比較偏向某個類別。以上述例子為例,「已死亡,還可以申請輔具請款嗎」與輔具補助款相關,依舊比較偏向第 3 類別。
Why Not 為什麼不自動分類?
先說結論,我們試用過 K-means 自動分類問答組合,但機器的分類方式不一定適合人類。
K-means 又叫「K-平均演算法」,是一種常見的非監督式分類演算法。可以將點(資料)分為幾個聚類,而每個點都屬於離它最近的均值點的聚類(k-平均演算法, 2021)。
嘗試使用微軟的 Machine Learning Studio 將全部的問答組合分成 2、3、5 類,發現大概分成 2~3 類應該是比較剛好的,但因為人工分類時是分成五類,所以也把 K-means 分五類的效果拿來比較。
下圖中可以看到,最左邊這欄(全部)是人工分類的結果。
- 分兩類,可以發現 K-means 的 Cluster 0,差不多是人工分類的第5 類、一半的第 2 類、第 3 類;cluster 1 大概是人工的第 1 類、一半的第 2 和第 4 類。
- 分三類,K-means 把人工分類的第 5 類,拆分到 Cluster 0、Cluster 1;人工分類的第 2 類則分散在三個 Cluster 裡。
- 分五類的狀況就更分散了,幾乎每個人工分類的類別都被打散到各個 Cluster 中。
雖然 K-means 也能分類,但是程式是依據句子中詞語的相似性分類的,這種分類方式不一定適合人類。我們也發現我們只能稱呼 K-means 的類別做 Cluster 0、Cluster 1,而很難以文字給一個 Cluster 訂下名稱。
當然 AI 技術如此發達,要做這種分類應該也是有方法,但本研究中,就只以 K-means 做測試。
參考資料
- 臺中市輔具資源整合網(2015)。常見問題。檢自:https://www.tatrc-taichung.com.tw/QuestionAnswer?SearchForm.QuestionAnswerType=%e5%b8%b8%e8%a6%8b%e5%95%8f%e9%a1%8c。
- 維基百科(2021)。K-平均演算法。檢自:https://zh.wikipedia.org/wiki/K-%E5%B9%B3%E5%9D%87%E7%AE%97%E6%B3%95。