[語料庫模型] 02-問答組合分類方式

還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦!

名詞定義:
問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、編號、分類)。
問答集: 多個「問答組合」組成問答集。

Why 為什麼要分類?

我們為什麼要把問答組合分類呢?
因為他可以幫助我們更精準地找到期望的問答組合。

例如,同樣輸入「我要申請長照」,如果沒有選擇分類,那就會找到「我家人急著要使用輔具,我可以先買再提出申請補助嗎?」,可能的原因是,「長照」這個詞已經在整個問答集裡面出現太多次了,所以就變得不那麼重要。如果是選擇「長照服務介紹與申請」分類,就會找到「如何申請長照服務及流程為何?」,比較符合我們想問的問題。可見將問答組合分類可以提高找到更相符問答組合的機會。

why

What 分成那些類?

經過整理問答組合可分為五類,分別是長照據點與機構、長照服務介紹與申請、輔具服務、外籍看護相關規範、長照人員培訓與相關規範。使用者可事先選擇要找哪一類的問題,系統會針對該類別的問答組合做搜尋,可找到與使用者輸入的句子更相符的問題。經過分類後,各類別問答組合的數量,請參考表格。

chart

類別的分法,是有個資料來源是「臺中市輔具資源整合網」,所以有很多輔具相關的問題,因此把他們分作一類。外籍看護相關規範的分類是因為生活經驗中,常聽到長輩在討論相關問題,所以特別分出來。其他的分類則參考衛福部常見問題的分類。

編號 名稱 說明 數量
1 長照據點與機構 關於各類長照據點與機構的說明、評鑑、相關法令 139
2 長照服務介紹與申請 不同長照服務介紹、申請資格、服務費用、規範 84
3 輔具服務 輔具租借或購買的資格、補助條件 48
4 外籍看護相關規範 外籍看護的申請資格、申請方式 8
5 長照人員培訓與相關規範 長照人員培訓規範、個案使用服務的認定 177
總計 456

How 如何分類?

目前都是採人工分類

單一類別與多個類別比較

分類過程中會發現有些題目可能同時屬於兩個甚至多個類別。為了比較兩種分類方式,本研究將資料集複製了兩份,一份只有單一類別,並盡量以問題的主要意圖分類;另一份則是列出與問題相關的所有類別。

問答集:

分別以兩個問句在單一類別與多個類別時,搜尋到的結果做比較。本研究選擇兩個不同場景可能會出現的問句,比對結果請參考下表。

  1. 「我想借輔具」,比較可能是由長者或其家屬提出,且依常理可預期使用者詢問時,會選擇第 3 類別(輔具服務),而此類別在單一類別和多個類別搜尋結果是一樣的。

    問句: 我想借輔具

    類別 單一分類 多個類別
    0 全部(所有分類) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3)
    1 長照據點與機構 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1)
    2 長照服務介紹與申請 長照服務四包錢是什麼?我可以領到多少錢?(2) 長照服務四包錢是什麼?我可以領到多少錢?(2)
    3 輔具服務 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3) 我家人急著要使用輔具,我可以先買再提出申請補助嗎?(3)
    4 外籍看護相關規範 請問何謂可聘僱外籍家庭看護工之特定身障項目重度(或極重度)或鑑定向度?(4) 總則(給付五)_聘僱外籍看護工之長照需要者,特別是身心障礙者不應排除輔具及居家無障礙服務、交通接送等服務。(2;4)
    5 長照人員培訓與相關規範 EA01_為何多項輔具載明「本項輔具選配服務得由輔具銷售人員逕行提供」?部分輔具為何不能短期租賃?如何運用二手輔具?(5) EA01_為何多項輔具載明「本項輔具選配服務得由輔具銷售人員逕行提供」?部分輔具為何不能短期租賃?如何運用二手輔具?(3;5)

    說明: 比對結果的問句後方括號內是該問句的類別,若有多個類別則以分號(;)區隔。

  2. 「已死亡,還可以申請輔具請款嗎」,這問題有兩種情況,一是家屬不確定長者死亡後,原預計申請的輔具是否還能請領補助款;二是長照相關人員不確定,當長者死亡是否還能核定申請。此時不同身分者選擇的類別可能不相同,家屬可能會選擇第 3 類別(輔具服務),而長照相關人員則可能選擇第 5 類別(長照人員培訓與相關規範)。在這種狀況下,多個類別的分類方式確實可讓使用者在第 5 類別找到答案。

    問句: 已死亡,還可以申請輔具請款嗎

    類別 單一分類 多個類別
    0 全部(所有分類) 如果請款時,身障者已死亡,如何處理?(3) 如果請款時,身障者已死亡,如何處理?(3;5)
    1 長照據點與機構 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1) 提供輔具、交通接送或緊急救援之服務單位是否需設立長照機構?(1)
    2 長照服務介紹與申請 使用長照居家服務需要付錢嗎?(2) 家裡有長輩行動不便,但不符合身障輔具補助資格,有其他的申請管道嗎?(2;3)
    3 輔具服務 如果請款時,身障者已死亡,如何處理?(3) 如果請款時,身障者已死亡,如何處理?(3;5)
    4 外籍看護相關規範 雇主申請補發許可函,是否需要繳交審查費?(4) 雇主申請補發許可函,是否需要繳交審查費?(4)
    5 長照人員培訓與相關規範 點選評估總結確認後,量表內容還可以更改嗎?(5) 如果請款時,身障者已死亡,如何處理?(3;5)

    說明: 比對結果的問句後方括號內是該問句的類別,若有多個類別則以分號(;)區隔。
    補充: 民眾若需要申請輔具補助,應先提出申請,取得核定公文後,購買輔具才可補助。若有急需可先找輔具資源中心租借。(臺中市輔具資源整合網, 2015)

有兩個原因,使本研究最後選擇「單一類別」的分類方式。

  1. 選擇「所有類別」的時候可以發現,其實有蠻大的機率可以找到預期的問題,所以我們較推薦不知道如何選擇分類時,可以選擇「全部」(所有分類)。
  2. 分類過程中發現,雖然一個問題可能同時屬於多個類別,但還是會比較偏向某個類別。以上述例子為例,「已死亡,還可以申請輔具請款嗎」與輔具補助款相關,依舊比較偏向第 3 類別。

Why Not 為什麼不自動分類?

先說結論,我們試用過 K-means 自動分類問答組合,但機器的分類方式不一定適合人類。

K-means 又叫「K-平均演算法」,是一種常見的非監督式分類演算法。可以將點(資料)分為幾個聚類,而每個點都屬於離它最近的均值點的聚類(k-平均演算法, 2021)。

嘗試使用微軟的 Machine Learning Studio 將全部的問答組合分成 2、3、5 類,發現大概分成 2~3 類應該是比較剛好的,但因為人工分類時是分成五類,所以也把 K-means 分五類的效果拿來比較。

AzureKmeans_統整

下圖中可以看到,最左邊這欄(全部)是人工分類的結果。

  • 分兩類,可以發現 K-means 的 Cluster 0,差不多是人工分類的第5 類、一半的第 2 類、第 3 類;cluster 1 大概是人工的第 1 類、一半的第 2 和第 4 類。
  • 分三類,K-means 把人工分類的第 5 類,拆分到 Cluster 0、Cluster 1;人工分類的第 2 類則分散在三個 Cluster 裡。
  • 分五類的狀況就更分散了,幾乎每個人工分類的類別都被打散到各個 Cluster 中。

AzureKmeans與人工分類比較

雖然 K-means 也能分類,但是程式是依據句子中詞語的相似性分類的,這種分類方式不一定適合人類。我們也發現我們只能稱呼 K-means 的類別做 Cluster 0、Cluster 1,而很難以文字給一個 Cluster 訂下名稱。

當然 AI 技術如此發達,要做這種分類應該也是有方法,但本研究中,就只以 K-means 做測試。

參考資料