2010年2月21日 星期日

同名作者辨識概述(下)


圖片來自:Telegraph.co.uk

承襲「上篇」,下篇由第四章「同名作者辨識研究」部份開始...
以下分別介紹各種人名辨識的研究主題或團隊,通常他們會沿用相同的資料集或方法喔!

擷取整理自:

Smalheiser, N. R., Torvik, V. I. (2009). Author Name Disambiguation. Chapter in Annual Review of Information Science and Technology, v.43.



四之一、著作屬性與風格學(stylometry)


所謂著作屬性(authorship attribute)就是能夠利用作者所寫作之文件幫助作者辨識的作品本身特性。這自然會牽扯到所謂的風格學Stylometry or computational stylistics),一般來說風格學是在捕捉作者寫作上的特徵(signatures),這些特徵包括:常用詞、文法、文章結構、寫作情境、正負面情緒、描述性或意見發表性文章等。


因此這類型的作者辨識內容與一般作者辨識所使用的
metadata性質的紀錄不同(需要作者產生的全文),用途也相當不同:
  1. 通常用於文史學家的辨識(匿名或值得爭議的文稿)
  2. 研究個別作者的寫作風格更迭(隨時間)
  3. 犯罪紀錄的偵測(抄襲作品、恐嚇信與病毒碼)
  4. 預測作者人口統計資料(性別、年齡、母語、意識型態等)

由於風格學的研究是相當深入的研究,因此這類型的作者辨識也較不適用於大量文件與大量作者間的比對辨識(資訊檢索用途)



四之二、實體分辨與詞義辨識(Entity resolution and word-sense disambiguation)


實體分辨是指利用多種資料(通常為網頁)對於類似物件(如同名作者)進行判別如一個名字可能出現在不同的網站中,但各自代表不同的人);而詞義辨識則是透過文章脈絡進行詞義的辨識如辨識基因名稱、常見縮寫字的意義),這兩類的辨識資料集都為自然語言文本。



四之三、行政資料庫的紀錄連結(Record linkage)


記錄連結是指辨識資料庫中多筆記錄或跨不同資料庫的紀錄,辨識這些紀錄是否指相同的人,通常用於一些較早期之研究(公共健康資料庫、人口普查記錄等)。紀錄連結的研究提供了近年來作者人名辨識一些重要的計算模式(如相似性測量方法、條件獨立的假設等)。其主要處理姓名的變異與地址的標準化,擷取的特徵如郵寄地址、電話號碼、生日與性別等。範圍與人名作者辨識不盡相同(作者們可能擁有大量文章,不同的主題、共同作者、年份與服務機構)。


四之四、Giles等人的研究


CiteSeer Project」是這個團隊的計畫平台,它是一個透過網路爬行器蒐集文件的全文資料庫,幾乎等於是一個自動化的數位圖書館,因此需要許多演算法與自動分類技術進行研發與支援。在作者辨識的部份可以拆為兩階段:
  1. 前期研究(2004~2006
    強調擴展性與計算性、使用有限的特徵、較低的正確率。非監督式法的部份,包括光譜分群法(韓Han的K-way-需要事先給予作者群的數量)與DBSCAN法(有效地解決transitivity violations)。發展出active learning法產生training set降低錯誤率。非監督式法部份,貝氏與SVM的比較(韓, 2004
  2. 近期研究(2007~)
    利用兩種不同的非監督式latent model(PLSA, LDA)改進之前的非監督式法且運用較多廣泛的資料,如利用全文的第一頁內容產生作者之主題



四之五、Getoor等人的研究


在此團隊的前期研究中(Bhattacharya and Getoor, 2006)採用latent Dirichlet allocation (LDA),將作者劃入由一個或多個人組成的Group(由共同作者的paper),將作者分群、將paper也分群。以非監督式法配合最大期望演算法(EM),但執行時間太長(是後期研究的100倍)。

後期研究中Bhattacharya and Getoor (2007)提出collective entity resolution:一組paper的辨識結果會幫助另一組辨識,如:A名與B名同時出現在兩篇文章,若決定兩個A不是同一個人,則會類推兩個B是同個人的機率也不高;Bilgic et al. (2006)則發展互動式的辨識系統「D-Dupe」:利用書目記錄產生co-authorship network,協助人工辨別(亦可由人工調整權重與特徵)-free software。



四之六、McCallum等人的研究


該團隊發表一系列的作者人名辨識研究與相關方法的比較,皆採用Rexa資料庫之書目紀錄7百萬篇的computer science文獻的數位圖書館)。該團隊強調3-wayDocument比較(非配對的)、high order的特徵取用,主要使用之特徵包括,題名相似、email、服務單位、出版地點等。
  1. Kanani, McCallum, and Pal (2007)利用主動學習(active learning)的網頁資訊蒐集,作為author/paper詮釋資料的補充
  2. Culotta et al. (2007):利用aggregate constraints(總計型的限制)方式幫助判別,如任一作者在某特定的一年中不可能發表超過30篇文章、只會有2個以下email與服務機構



四之七、其他相關研究


  • Malin, Airoldi, and Carley (2005)使用類似Getoor (2007)用的網絡式的模型(network model):處理線上的電影資料庫(IMDB),將一起合作individuals聚集在一起

  • Hill and Provost (2003)僅使用papercitation就可以達到25~45%的辨識力(使用3萬篇高能物理學的文獻)

  • Tan, Kan, and Lee (2006)利用Google Search查詢title/author name辨識DBLP中容易混淆的人名,倚靠前10筆搜尋結果則可以達到近80%的正確率

  • Yin, Han, and Yu (2007)結合兩種相似性測量法(計算幾何平均數):Jaccard similarity coefficient + collective random walk probability。特徵包括,共同作者、出版地點(如會議刊名)

  • DiLauro et al. (2001)對散頁音樂進行權威記錄過程的自動化,依據常見名、出版日期與生卒年比對、作者服務機構

  • Thomson Scientific and Elsevier資料庫:皆擁有大量書目紀錄,利用人名與個人的關係將paper分群,並整合在其查詢介面,但預測模型仍未公開



五、現存方法的優缺點與未來挑戰


承襲以上的介紹與說明,可以看出各種作者辨識研究會隨資料集的規模、作者複雜度、詮釋資料形式、資料的文化背景、資料成長度等要素而影響其辨識力,因此目前尚未有一以貫之的典型辨識方法。不斷增加額外特徵輔助辨識、結合不同model的方法,也許是現階段的進步與突破的關鍵。

而在許多不同研究結果描述中,讀者必須相當小心檢視非監督式學習的高效能表現,因為其可能採取低複雜度的資料集或可能只回報採取 相對應的參數的結果(事先理想規劃)。故在接收各式研究時,除了注目其結果外,更要仔細觀察其方法與資料集等設計與蒐集。

總得來說,該文提出了一個概括性的論述,提供研究者一個明確的大地圖。最後文末作者提出作者辨識這塊領域的未來挑戰
  1. 高效能的辨識:quick-and-dirty algorithm應做到可測量、有效率、快速且容易事先運算(非即時計算)
  2. 線上環境運作:面對新資訊(網站、出版品)增長快速,分群與辨識應朝線上環境邁進
  3. 各辨識資料集應連結:同一個人與其著作在不同資料庫(不同學科、不同資料類型、不同網站等)中的辨識
  4. 公開原則:有些涉及敏感的作者辨識議題(健康、財經與犯罪等)往往被設定為機密,但理論上辨識方法應設法盡量公開與透明




沒有留言: