2010年2月21日 星期日

同名作者辨識概述(上)


圖片來自:istockphoto

這篇文章算是同名作者辨識研究的入門知識,我將他整理一下依照篇幅分成上、下兩篇!

擷取整理自:

Smalheiser, N. R., Torvik, V. I. (2009). Author Name Disambiguation. Chapter in Annual Review of Information Science and Technology, v.43.


一、緒論


在面對大量文獻時,作者的人名是我們找資料的一個重要辨識物!但要將每件作品清楚地分辨是出於哪位作者之手卻不容易。目前作者人名辨識的工作包括了以下四項挑戰

  1. 一人多名:拼字上的變異、拼字錯誤、改名或筆名別稱

  2. 一名多人:通俗、常見的人名

  3. 詮釋資料不足:許多出版者、資料庫無法提供充足的資訊(first name、服務機構或學位資訊等)

  4. 學術文獻多元化:多人著作、跨領域、跨機構合作的學術研究日益增加


十年前,這原本仍是不受重視議題,但目前則是各方關注的焦點。我們能隨處看見作者辨識或人名辨識的影子,如學術界的國際研討會或研究平台(CrossRef Author ID meeting, Workshop on Scholarly Databases & Data Integration, WikiAuthor)出版社或資料庫廠商的功能研發(Thomson Scientic[Web of Science], Elsevier[Scopus]),以及資訊科學的研究者們提出的許多利用書目紀錄或網頁資訊所進行作者人名辨識的Model(後面篇幅將一一描述)。


傳統上,處理這類問題都交給圖書館進行人工的權威控制,但在網路普及、數位圖書館充斥的今日,這套方法是行不通的!日益人性化的搜尋引擎也不只單純處理主題層面的關鍵字(Keywords)、也開始處理作者層面的人名(Individuals)


有效的作者辨識可以在學術上廣泛應用,如研究者意欲找尋某領域的學者資訊(不僅是其發表著作,未公開研究、想法與個人札記等);經費贊助者找尋擔任評定提案書的審議人選;期刊主編找尋審閱文章的學者;研討會主持找尋受邀對象時的依據。


這類型的辨識工作在資料庫或數位圖書館與線上資源進行連結時會產生很大影響(全文取得、作者個人網站)。因此這也跳脫了僅處理「文章」層面的知識,更要處理個人與人名之間的連結。許多大型書目資料庫都引進了資料探勘的技術,透過資料特徵的擷取、重組與結合,學習並建立新的知識基礎來進行自動化之辨識工作。Shiffrin & Borner(2004)認為作者人名辨識的工作是知識領域的對應(mapping)、書目計量學與科學計量學的分析工作的基礎,甚至能有效幫助市場行銷者去瞄準其特定的族群。除了辨識工作,人名辨識結果還能建立的書目網絡(catation network)、合作網絡(collaboration)與作者個人名片檔(author profiles)等加值服務


二、為什麼不建立一套獨特ID碼提供登記就好?


理論上要解決人名混淆的問題,採用網頁式的登記服務並給予作者辨識碼的方式的確十分單純,技術上也沒有太多困難。Dervos等人(2006)所建立的UAI_Sys則是將此理念付諸實行的先導計畫,作者們可以登錄與編輯自己資料的Metadata、選擇公開與否並獲得一組 16碼的ID,作者必須使用這組號碼發表著作且定期更新個人資訊。


但是這種機制卻隱含許多問題。首先就是「不符合人性」!我們無法期待作者們是自願、主動、正確無誤、週期性地去輸入其資訊。而且許多「一篇作者」,如在MEDLINE中有46%的作者只發表一篇著作(Torvik & Smalheiser, 2008),要這些人參與這類型計畫是不容易的,因為他們通常不覺得參與其中會得到任何實質的回饋。而且像是在生物醫學領域中,學者們也很少會希望在自己網站以外的地方在重新發佈自己的著作(Harnad, 2001),即使是在機構典藏的環境也(Roberts, 2001)是如此(雖然說可以增加讀者、提昇可見度等)。同時也很難說服每位作者發表時提供完整的名稱,如middle initialsuffixes(Garfield,

1969)。 另外這種機制也存在一些潛在的不受歡迎與抵抗因素,像在美國,還是有人會對於這個能夠掌握自己終身服務單位、地址與出版資訊的超大型資料庫保持存疑。


另外這種機制本身也存在著網頁資訊與經費支持上的「不穩定性」。哪一個組織願意永久提供經費支持這個人名資料庫?除了資料庫的維護費用外,與作者接洽的支出勢必比單純分派ID更多,另外還有除錯的工作(出版商給錯ID)。況且理想上,這種資料庫的服務範圍應該是擴及所有國家、任何語言、各個學科以及不同的資料類型。且很可能會發生的是,一些較小的學術領域或團體會擁有其自身的ID,換言之,不是其中的個別作者沒有ID,就是一個人身上環繞著好幾組ID。最後隨著越來越多的機構或服務單位建立這些ID後,最原先的辨識價值也隨之降低。


三、為什麼不採用人工辨識?


絕大部分由人工所進行的作者辨識工作都可回溯到傳統圖書館對館藏的權威控制,像是美國國會圖書館的權威記錄、虛擬國際權威檔(Virtual International Authority File)OCLCFictionFinder、GettyUnion List od Artist Names(ULAN)。

除了這種官家與官方作法以外,也出現許多透過作者或社群支援的自動辨識平台。
  1. DBLife:擷取特定研究社群之資料庫,將資料進行格式統一與人工比對
  2. FOAF(friend of a friend):以RDF詞彙傳遞作者社群們的興趣、關係與活動等資訊
  3. 網頁式的服務:Community of ScienceRePEc(Research Papers in Economics)

但是人工辨識
工作卻會產生許多的
問題
  1. 人為差異:充滿不確定性,兩位Rater會對1/3以上的辨識結果有出入
  2. 作者本人也可能弄錯:在一個研究中,邀請作者根據300篇同名作者的書目記錄中勾選自己的文章,結果發現連作者本人都會勾錯自己發表的文章(尤其是缺乏共同作者、同儕評閱者)


作者人名辨識之研究(重要)


人名作者辨識與實體辨認(entity recognition)的研究議題很相似,甚至可以說是其子領域也不為過,類似的範疇如:
  1. 透過文本、網頁辨認名稱實體
  2. 辨識詞義(word sense)
  3. 辨識共同參照的論述(co-reference mentions)
  4. 記錄連結(record linkage)

那究竟什麼是人名辨識?
簡單說,它是一種資訊檢索的幕後工作,強調環繞在個體身上的所有特徵(不僅是特定論述或文章的辨別),結合作者作品資訊與外在資源所計算、建立的知識(利用分類/分群法),進一步利用機器學習的方法利用與作者相對應的「內容」進行分群或分類。這類型的研究都有共同的要件,training sets(訓練資料集)features(特徵)decision procedure(自動分類與判斷)evaluation(結果評鑑)。而經常被拿來測試的資料集包括:DBLPCiteSeerarXivMEDLINEGoogle ScholarWeb of ScienceScopusADS(Astrophysics)LibraRePEc

理論上,根據研究的性質可以大略將自動分類的研究分成兩大類,(依據機器學習的方式而定),監督式與非監督式。
  1. 監督式:提供一組標有範例的training set(哪些是同個作者,哪些不是)
  2. 非監督式:不使用上述的具有標籤(label)的範例
一般來說,監督式的表現會較佳,因為其training set會事先經過研究者調整(特徵的權重、相互關連)

Training data是產出預測模型的重要因素(推測能力與資料集的複雜性),他可以是自動產生的(透過個人email、姓名的字尾),也可以是人工編制的。但應著重整個資料庫代表性,避免偏見(bias),以免模型產生後只對某些人特別管用,對某些人完全不行。通常整個模型是會active learning的,會反覆偵測example(樣本)並學習人類的分類依據,不斷更新整個辨識模型(像是人類學新知識一樣)。值得注意的是,這類型的分類工作會將資料集分成一塊一塊的(同名的一塊),稱為blocking(區塊)” mechanism,僅處理同名資料集(last name + first name initial),減少計算與比對的時間。

另外「特徵選擇」也是辨識作業的核心概念,決定了辨識模型的設計、正確率的上限一般來說,特徵越多越好,過少的特徵會造成低的recall。然而在同一個特徵裡頭,也會有各種不同作法ex: affiliation),可以分別強調不同的地方,如計算字串間的距離、對應名稱(先備知識)、計算地理上的距離(如利用Google Map)。此外,計算相同的距離也可以運用不同的權重計算方式Jaccard, TFIDF, Levenstein等)。因此由此可見自動分類的過程是會隨著特徵的擷取與計算方式而顯得五花八門。

不過在絕大多數的研究中,並不會只採單一的特徵,因此「特徵合併」的議題就格外的重要。簡單說就是將所有特徵分數轉為單一權重值(應確保特徵間的獨立性),以便比較與計算兩兩紀錄之間的相似程度。根據轉換「特徵」成「潛在變數(不相互關連)」的方式可分以下兩種:
  1. Probabilistic Latent Semantic Analysis(PLSA):透過一組潛在變數(主題)連結documentnametext words等特徵
  2. latent Dirichlet allocation (LDA):使用階層貝氏模型捕捉實體,包括一群經常共同發表者、個別作者

最後談到transitivity violations(
轉移性的妨害)。此妨害效果是出現在配對的作法時(算兩兩的距離)容易產生的問題,像是面對一些與不同人合作(不重複co-author)的作者時特別需要處理此問題,利用agglomerative clustering可將transitivity violations降低。

各家研究4-1~4-7與結論部份見「下」篇


沒有留言: