擷取整理自: Smalheiser, N. R., Torvik, V. I. (2009). Author Name Disambiguation. Chapter in Annual Review of Information Science and Technology, v.43. |
四之一、著作屬性與風格學(stylometry)
所謂著作屬性(authorship attribute)就是能夠利用作者所寫作之文件幫助作者辨識的作品本身特性。這自然會牽扯到所謂的風格學(Stylometry or computational stylistics),一般來說風格學是在捕捉作者寫作上的特徵(signatures),這些特徵包括:常用詞、文法、文章結構、寫作情境、正負面情緒、描述性或意見發表性文章等。
因此這類型的作者辨識內容與一般作者辨識所使用的metadata性質的紀錄不同(需要作者產生的全文),用途也相當不同:
- 通常用於文史學家的辨識(匿名或值得爭議的文稿)
- 研究個別作者的寫作風格更迭(隨時間)
- 犯罪紀錄的偵測(抄襲作品、恐嚇信與病毒碼)
- 預測作者人口統計資料(性別、年齡、母語、意識型態等)
由於風格學的研究是相當深入的研究,因此這類型的作者辨識也較不適用於大量文件與大量作者間的比對辨識(資訊檢索用途)
四之二、實體分辨與詞義辨識(Entity resolution and word-sense disambiguation)
四之三、行政資料庫的紀錄連結(Record linkage)
四之四、Giles等人的研究
- 前期研究(2004~2006)
強調擴展性與計算性、使用有限的特徵、較低的正確率。非監督式法的部份,包括光譜分群法(韓Han的K-way-需要事先給予作者群的數量)與DBSCAN法(有效地解決transitivity violations)。發展出active learning法產生training set降低錯誤率。非監督式法部份,貝氏與SVM的比較(韓, 2004) - 近期研究(2007~)
利用兩種不同的非監督式latent model(PLSA, LDA)改進之前的非監督式法且運用較多廣泛的資料,如利用全文的第一頁內容產生作者之主題
四之五、Getoor等人的研究
四之六、McCallum等人的研究
- Kanani, McCallum, and Pal (2007):利用主動學習(active learning)的網頁資訊蒐集,作為author/paper詮釋資料的補充
- Culotta et al. (2007):利用aggregate constraints(總計型的限制)方式幫助判別,如任一作者在某特定的一年中不可能發表超過30篇文章、只會有2個以下email與服務機構
四之七、其他相關研究
-
Malin, Airoldi, and Carley (2005)使用類似Getoor (2007)用的網絡式的模型(network model):處理線上的電影資料庫(IMDB),將一起合作individuals聚集在一起
-
Hill and Provost (2003)僅使用paper的citation就可以達到25~45%的辨識力(使用3萬篇高能物理學的文獻)
-
Tan, Kan, and Lee (2006)利用Google Search查詢title/author name辨識DBLP中容易混淆的人名,倚靠前10筆搜尋結果則可以達到近80%的正確率
-
Yin, Han, and Yu (2007)結合兩種相似性測量法(計算幾何平均數):Jaccard similarity coefficient + collective random walk probability。特徵包括,共同作者、出版地點(如會議刊名)
-
DiLauro et al. (2001)對散頁音樂進行權威記錄過程的自動化,依據常見名、出版日期與生卒年比對、作者服務機構
-
Thomson Scientific and Elsevier資料庫:皆擁有大量書目紀錄,利用人名與個人的關係將paper分群,並整合在其查詢介面,但預測模型仍未公開
五、現存方法的優缺點與未來挑戰
而在許多不同研究結果描述中,讀者必須相當小心檢視非監督式學習的高效能表現,因為其可能採取低複雜度的資料集或可能只回報採取 相對應的參數的結果(事先理想規劃)。故在接收各式研究時,除了注目其結果外,更要仔細觀察其方法與資料集等設計與蒐集。
- 高效能的辨識:quick-and-dirty algorithm應做到可測量、有效率、快速且容易事先運算(非即時計算)
- 線上環境運作:面對新資訊(網站、出版品)增長快速,分群與辨識應朝線上環境邁進
- 各辨識資料集應連結:同一個人與其著作在不同資料庫(不同學科、不同資料類型、不同網站等)中的辨識
- 公開原則:有些涉及敏感的作者辨識議題(健康、財經與犯罪等)往往被設定為機密,但理論上辨識方法應設法盡量公開與透明
沒有留言:
張貼留言