擷取整理自:
Smalheiser, N. R., Torvik, V. I. (2009). Author Name Disambiguation. Chapter in Annual Review of Information Science and Technology, v.43.
一、緒論
在面對大量文獻時,作者的人名是我們找資料的一個重要辨識物!但要將每件作品清楚地分辨是出於哪位作者之手卻不容易。目前作者人名辨識的工作包括了以下四項挑戰。
-
一人多名:拼字上的變異、拼字錯誤、改名或筆名別稱
-
一名多人:通俗、常見的人名
-
詮釋資料不足:許多出版者、資料庫無法提供充足的資訊(first name、服務機構或學位資訊等)
-
學術文獻多元化:多人著作、跨領域、跨機構合作的學術研究日益增加
十年前,這原本仍是不受重視議題,但目前則是各方關注的焦點。我們能隨處看見作者辨識或人名辨識的影子,如學術界的國際研討會或研究平台(CrossRef Author ID meeting, Workshop on Scholarly Databases & Data Integration, WikiAuthor)、出版社或資料庫廠商的功能研發(Thomson Scientic[Web of Science], Elsevier[Scopus]),以及資訊科學的研究者們提出的許多利用書目紀錄或網頁資訊所進行作者人名辨識的Model(後面篇幅將一一描述)。
傳統上,處理這類問題都交給圖書館進行人工的權威控制,但在網路普及、數位圖書館充斥的今日,這套方法是行不通的!日益人性化的搜尋引擎也不只單純處理主題層面的關鍵字(Keywords)、也開始處理作者層面的人名(Individuals)。
有效的作者辨識可以在學術上廣泛應用,如研究者意欲找尋某領域的學者資訊(不僅是其發表著作,未公開研究、想法與個人札記等);經費贊助者找尋擔任評定提案書的審議人選;期刊主編找尋審閱文章的學者;研討會主持找尋受邀對象時的依據。
這類型的辨識工作在資料庫或數位圖書館與線上資源進行連結時會產生很大影響(全文取得、作者個人網站)。因此這也跳脫了僅處理「文章」層面的知識,更要處理個人與人名之間的連結。許多大型書目資料庫都引進了資料探勘的技術,透過資料特徵的擷取、重組與結合,學習並建立新的知識基礎來進行自動化之辨識工作。Shiffrin & Borner(2004)認為作者人名辨識的工作是知識領域的對應(mapping)、書目計量學與科學計量學的分析工作的基礎,甚至能有效幫助市場行銷者去瞄準其特定的族群。除了辨識工作,人名辨識結果還能建立的書目網絡(catation network)、合作網絡(collaboration)與作者個人名片檔(author profiles)等加值服務。
二、為什麼不建立一套獨特ID碼提供登記就好?
理論上要解決人名混淆的問題,採用網頁式的登記服務並給予作者辨識碼的方式的確十分單純,技術上也沒有太多困難。Dervos等人(2006)所建立的UAI_Sys則是將此理念付諸實行的先導計畫,作者們可以登錄與編輯自己資料的Metadata、選擇公開與否並獲得一組 16碼的ID,作者必須使用這組號碼發表著作且定期更新個人資訊。
但是這種機制卻隱含許多問題。首先就是「不符合人性」!我們無法期待作者們是自願、主動、正確無誤、週期性地去輸入其資訊。而且許多「一篇作者」,如在MEDLINE中有46%的作者只發表一篇著作(Torvik & Smalheiser, 2008),要這些人參與這類型計畫是不容易的,因為他們通常不覺得參與其中會得到任何實質的回饋。而且像是在生物醫學領域中,學者們也很少會希望在自己網站以外的地方在重新發佈自己的著作(Harnad, 2001),即使是在機構典藏的環境也(Roberts, 2001)是如此(雖然說可以增加讀者、提昇可見度等)。同時也很難說服每位作者發表時提供完整的名稱,如middle initial與suffixes(Garfield,
1969)。 另外這種機制也存在一些潛在的不受歡迎與抵抗因素,像在美國,還是有人會對於這個能夠掌握自己終身服務單位、地址與出版資訊的超大型資料庫保持存疑。
另外這種機制本身也存在著網頁資訊與經費支持上的「不穩定性」。哪一個組織願意永久提供經費支持這個人名資料庫?除了資料庫的維護費用外,與作者接洽的支出勢必比單純分派ID更多,另外還有除錯的工作(出版商給錯ID)。況且理想上,這種資料庫的服務範圍應該是擴及所有國家、任何語言、各個學科以及不同的資料類型。且很可能會發生的是,一些較小的學術領域或團體會擁有其自身的ID,換言之,不是其中的個別作者沒有ID,就是一個人身上環繞著好幾組ID。最後隨著越來越多的機構或服務單位建立這些ID後,最原先的辨識價值也隨之降低。
三、為什麼不採用人工辨識?
- DBLife:擷取特定研究社群之資料庫,將資料進行格式統一與人工比對
- FOAF(friend of a friend):以RDF詞彙傳遞作者社群們的興趣、關係與活動等資訊
- 網頁式的服務:Community of Science、RePEc(Research Papers in Economics)
但是人工辨識工作卻會產生許多的問題
- 人為差異:充滿不確定性,兩位Rater會對1/3以上的辨識結果有出入
- 作者本人也可能弄錯:在一個研究中,邀請作者根據300篇同名作者的書目記錄中勾選自己的文章,結果發現連作者本人都會勾錯自己發表的文章(尤其是缺乏共同作者、同儕評閱者)
四、作者人名辨識之研究(重要)
- 透過文本、網頁辨認名稱實體
- 辨識詞義(word sense)
- 辨識共同參照的論述(co-reference mentions)
- 記錄連結(record linkage)
「那究竟什麼是人名辨識?」
理論上,根據研究的性質可以大略將自動分類的研究分成兩大類,(依據機器學習的方式而定),監督式與非監督式。
- 監督式:提供一組標有範例的training set(哪些是同個作者,哪些不是)
- 非監督式:不使用上述的具有標籤(label)的範例
- Probabilistic Latent Semantic Analysis(PLSA):透過一組潛在變數(主題)連結document、name、text words等特徵
- latent Dirichlet allocation (LDA):使用階層貝氏模型捕捉實體,包括一群經常共同發表者、個別作者
最後談到transitivity violations(轉移性的妨害)。此妨害效果是出現在配對的作法時(算兩兩的距離)容易產生的問題,像是面對一些與不同人合作(不重複co-author)的作者時特別需要處理此問題,利用agglomerative clustering可將transitivity violations降低。
(各家研究4-1~4-7與結論部份見「下」篇)
沒有留言:
張貼留言