2009年7月16日 星期四

[Blog Mining]部落格探勘架構(上)

blog mining framework

圖的來源同書目資料!
這算是這系列的第一篇!基本上就是詳細的翻譯與摘要XD
因為我也不是專業,只是邊看邊學,所以有錯請多指證!
因為寶煖老師有說過網路上的文章不能太長,所以我會稍微拖稿一下XDD
大概都分兩三集來分吧(上、下或上中下)

書目資料

Chau, M.; Lam, P.; Shiu, B.; Xu, J.; Jinwei Cao. “A Blog Mining Framework” IT Professional. Volume 11, Issue 1, Jan.-Feb. 2009 Page(s):36 - 41

每天都有新的部落個出現,它們的內容跨及不同主題,擁有豐富與實際應用價值的資訊。在這篇文章中將會提出一個探勘部落格的架構,用以自動地聚集這些資訊。

部落格(Weblog or Blog)是指能夠經常修改的網頁內容,並以日期倒序的方式排列(最晚的資訊出現在最前頭)。部落客(Blogger) 就是撰寫部落格的人,他們會根據他們的經驗自由地表達意見、情緒,使部落格的人氣上升。而分析這些個人的訊息能夠提供政府或公司一個機會去瞭解大眾,這方法將比以往更經濟且獳產生意想不到的功效。藉由部落格探勘能夠知道更多部落客們對特定產品、廠牌或政治傾向的觀點與想法。但是一般來說,部落格的文章又多又雜且沒有結構可言,因此要從中挖出有價值的資訊必須仰賴正確的工具,加上部落格的種類眾多,故在監測、分析的工作上是非常耗時且勞力密集的差事。

簡單來說,可以直接把文件探勘(Text Minging)網頁探勘(Web Mining)的技術套用在部落格探勘裡頭。但實際上仍有一些問題要克服

Ÿ 部落格的更新速度很快:幾天或幾個小時就會有新資訊

Ÿ 部落格的主題歧異性大:也許某個特定資訊(如產品資訊)只出現在某篇文章的一個段落中

Ÿ 部落格搜尋技術不純熟:在特定訴求的檢索上,無法與目前的網頁搜尋引擎相比

Ÿ 部落格文章與網頁的屬性不同:單純的網頁結構與超連結並不能有效分析部落格,因為它還包括了訂閱、回應去相互連結到其他部落格

在先前的研究裡,日本學者Tomoyuki(2004)曾提出一套搜尋與監測部落格的架構;Glance等人(2005)則使用文件探勘的技術分析網頁中顧客所留下的意見與想法。不過作者指出這些研究都無法「直接」運作在部落格的探勘工作中,因此在文章中提出了一個部落格探勘的架構並附上實例,用以研究部落格探勘所能應用的範疇(商業效益上、管理上與社會研究上等)。

部落格圈(Blogosphere)

一般來說,部落格可以被區分為三大類

1. 個人型部落格(Personal blogs):包括個人記事、情感札記

2. 議題型部落格(Issues blogs):發表對某議題的評論與觀點

3. 主題型部落格(Topical blogs):包括個人闡述想法、社群討論

在這個環境中,部落客可以輕易地將自己的部落格與其他部落格相互連結,像是透過回應、超連結、訂閱清單、追蹤等功能都能將部落格圈一個個連起來,有點類似傳統的網路論壇。其中部落格的最重要特點在於RSS(Really Simple Syndication)功能,RSS能夠讓使用者訂閱特定部落格的文章或某關鍵字的文章,以便隨時接收自己感興趣的相關資訊(日期、標題或內文),且不用親自例行地連去部落格或網站也能知道其更新狀況。

探勘架構(The Framework)

如同一開始所談到的,大量的部落格中蘊藏了許多有價值的資訊,但部落格終究是屬於「動態」的資訊,不能直接將網頁探勘的技術套用過來。因此文章中提出了一個探勘架構(如下圖),這架構由以下要素組成

blogMing framework fig.

l 部落格爬行器(Blog Spider)

用來持續監視與下載各式部落格的內容,很像原本的網頁爬行器(除了要擷取的頻率更高以外)。由於部落格更新速度太快了,所以部落格爬行器必須在幾個小時或甚至幾分鐘去找尋並下載最新的部落格文章。

通常部落格搜尋引擎的爬行器會倚賴RSS feeds,但實際上要大量儲存與監視部落格文章,對於所設定好的系統是一個很沈重的成本負擔;所以另一種替代方案是連結到一些著名的部落格搜尋引擎,如Technorati、Google Blog Search或BlogPulse等進行一些整合查詢(meta search)。

l 部落格剖析器(Blog Parser)

用來擷取部落格的資訊,像是部落格所出現的名稱、產品與組織,還有日期、發表數、點閱數、URL、電子郵件位址、資金等等。作者認為可以根據傳統網頁斷句的技術來發展自己的擷取工具,像是可以綜合hidden Markov模式、決策樹或類神經網路等方法。但是部落格的文章與網頁資訊是不同的!相同的內容可能會有更種撰寫的模式,這些模式往往是「非結構」且雜亂無章的,因此需要將這些技術特別客制化成自己需要的擷取工具。

除了文章本身(Text)之外,部落格剖析器還需要擷取部落格中的「結構化」資訊,如回應、連結網址或部落格群組(社群經營),這些資訊構成部落格的連結資訊,可以額外用來進行部落格網路分析。

--------------------------------下集繼續說XD----------------------------------

2 則留言:

Unknown 提到...

作者您好!
我是銘傳資訊管理研究所的研究生,
對Blog mining很有興趣,
而且是未來積極研究的方向,
因此搜尋資料到這兒來,
不知道您還有什麼詳細資料或是工具可以提供?
另外,我需要摘錄您寫得文章作報告用,徵求您同意一下!
謝謝了!

Ken Hsieh 提到...

你好,blog ming算是資料探勘中的一個子領域
因為我也沒有資管的背景,理解十分有限
所以不能提供你實作的工具,非常抱歉
(資管的老師應該都可以支援吧)

另外這邊分享文章的目的也是讓一般大眾看懂為主
內容部分也只是將文獻就重點hightlight
有興趣請自行取用~