2009年7月24日 星期五

[Blog Mining]部落格探勘架構(下)

探勘架構(The Framework)續

l 部落格內容(Blog content analyzer)與網路分析器(Blog network analyzer)

誠如上述,我們可以運用文字探勘(Text Mining)的技術(自動分類與分群)來擷取與部落格中的關鍵詞彙,如可以根據其內容與意見判斷部落客的對某些事物的偏好(正向或負向)。如果以正向的詞彙為例,部落格分析器會聚集這些正面價值的詞彙,如好、棒、開心等。並進一步構成一個文件的向量值(Document vector),其包括每個詞的出現頻率(term frequencies)、各詞彙的權重(entry’s weight)。這樣一來部落格分析器就可以根據這些向量值去將部落格進行「有意義」的分類或分群。

分析器會將部落格對某事物的描述分區成三類:正面、負面與中立。可依循的的標準模式如:支持向量機(Support vector machine)、前饋式/倒傳遞類神經網路(feedforward/backpropagation neural network)等分類方式;但分析部落格還需要額外考量其他特徵,如回應內容、部落客名片、好友連結等都是另外的分類(classification)依據。此外,分群(clustering)上,分析器還會根據部落格的特徵與屬性進行歸類並計算其相似性(similarity score),如cosine product或Jaccard measure(這兩個相似性計算法都沒有譯名..)。

分析器還能夠針對部落客們間的連結關係進行網路分析(network analyzer),像是一些部落格連結架構的網路分析,我們可以都看到許多類似的圖像分析結果,如最小成本樹(Minimum spanning tree)、圖形分割(graph partition)。這樣的分析可以提供我們瞭解部落客之間的社交距離(social distance)並區分出不同部落格社群的特徵所在,進一步分析出網路拓樸圖(network topology)、集中性(centrality)與社群(community)

1. 拓撲分析能夠針對部落格的網路結構特性進行描述,且能發掘這些特性是怎麼在網路間相互影響並有怎麼樣作用(如資訊散佈、傳播理論等)。

2. 集中性的分析是承襲網路拓撲分析而來,如果所擷取的網路是非隨機且結點們(nodes)的變異很巨大的話,集中性分析就會發揮其作用,「找出關鍵的結點」,這將會反映出網路中重要或有影響的部落客喔!

3. 社群分析則可以用來辨識部落格社群中的社交群,例如利用塊體模擬的方法(blockmodeling)去分析部落客們的網路關係。

l 部落格視覺呈現器(Blog visualizer)

部落格視覺呈現器則是用來展示內容與網路分析的結果,例如以地圖、文件折疊等方式來呈現部落格與部落格時間的關連、領域,提供使用者很容易地瀏覽自己關切或感興趣的相關部落格資訊以及找出重要的關鍵部落格。

應用情況

blog mining application

如同上表所示,部落格探勘的潛在價值包括許多領域,像是商業(如消費趨勢)、政策(如選舉民調)、災害修復(如恐怖攻擊的反應機制)、社會工作(如種族分析)、文化研究(如青少年的研究)與語言學(如網路俚語的研究)等。以下就以三個案例來說明部落格探勘實際應用情況!!

案例一(大眾形象分析)

部落格探勘可以有效地應用於評估人們對某公司的觀感,透過分析部落格的內容,顯示消費者對公司印象的瞭解及評估,提供一些決策與改進的資訊,尤其在重視顧客導向的服務。另外部落格探勘也經常用在「特定產品」上,作者根據上述的架構發展出了一個雛形系統,蒐集與分析了有關「iPod」的部落格(下圖)。

ipod blog mining

探勘工作首先係由部落格爬行器連結部落格主機(hosting sites)與部落格鍊(blogrings),並根據其內容與所屬群組下載與iPod相關的部落格;部落格剖析器則從中擷取有用的資訊,如公司名稱、產品名稱與心得等;部落格分析器則判斷每個部落格內容與iPod的關連性,作者指出將近一半的部落格(爬行器蒐集來的)並未談到iPod,即便那些部落客有加入相關的部落格鍊。這也顯示出了傳統的關鍵字檢索技術並不能有效確保資訊內容,因為即便他參與了某特定主題的社群,也不見得會將有關這主題的資訊紀錄下來(bloging)。最後則繪製出這張iPod的視覺呈現圖,其展示了在廣大的部落格社群中夾雜了每位部落客們對iPod的好惡,同時這些部落格也會變成另一種線上行銷!(紅色的結點表示正面看法、黑色表示負面看法、黃色表示中立)

案例二(線上社交活動分析)

廣大的部落客可以形成許多線上社群,像是由興趣、觀點、信仰或人口統計等的相似性,彼此在部落格上分享意見並提供閱讀與討論。不過,許多憎恨與激情的字眼也會充斥在部落格中。使用網路分析可以找出在這樣一個部落格網路裡頭,部落客們所扮演的角色,如領袖(leader)、跟隨者(followers)與守門人(gatekeeper)。

作者應用上述的探勘架構來分析28個種族激進團體(來自Xanga的820個部落客)。首先以部落格爬行器蒐集這些激進部落格,並以內容分析器擷取部落格內文與連結資訊(根據好友、訂閱等資訊)。網路分析則根據這些資訊去進行社交網路分析,且區分為兩個大的社群(由許多小社群組成),最後亦以視覺呈現器表示,不過圖沒有像案例一中iPod如此的巨大。主要能展現在此部落格鍊中參與者們彼此間的環狀、訂閱等結構關係,以便提供執法者或社工人員研究或監視某特定活動。

案例三(民意分析)

另一個部落格探勘的應用就是「新知監測(news monitoring)」!人們已經逐漸習慣去使用部落格來補充新知,原因在於部落格內容可以隨時隨地更新,且不受檢查或過濾等機制影響,如政治力、取悅目標觀眾與主流民意等。加上部落格是互動式的!讀者可以輕易留下回應或自行撰寫部落格。

就拿2005年倫敦爆炸案為例吧,2005年7月7號日早上9:55倫敦爆炸案一發生後,Annie Mole的部落格(http://londanunderground.blogspot.com/)以每小時的速度更新災後的餘波與後續消息,馬上吸引網路上龐大的迴響。

另外以總統大選為例,一個有效的部落格探勘工具可以幫助候選人瞭解選民的喜好。如BlogpPulse的趨勢搜尋(trend search)展示了六個月內的部落格詞彙出現頻率(term frequency),下圖則以台灣的政治人物陳水扁(藍線)馬英九(紅線)兩人為例,時間為2006年9月至2007年2月。可以清楚看出這些詞彙主要起伏的時間點都來自其政治醜聞的爆發。

taiwan election

相信由以上的案例中,許多相關研究者可以採用本文所提出的一般性架構來加以應用,如分析有關電影評論的部落格(作者正在研究)。而許多的組織機構也將開始以自動化的技術去取得這些在部落格中的有用資訊。不過部落格探勘也是有其限制性的!就像部落格的「品質」。有些公司會付費請部落客撰寫正面的產品評語,這樣一來就不是真實的使用觀點了!另外就是垃圾部落格的問題(splogs, spam blogs),這種部落格的目的純粹在於賺錢與推銷產品,且往往自動地複製他人文章或隨意地建立連結與訂閱。因此部落格探勘在應用上必須能夠分辨這些內容的部落格,才可能達到探勘工作的目的與信效度!

沒有留言: