探勘架構(The Framework)續
l 部落格內容(Blog content analyzer)與網路分析器(Blog network analyzer)
誠如上述,我們可以運用文字探勘(Text Mining)的技術(自動分類與分群)來擷取與部落格中的關鍵詞彙,如可以根據其內容與意見判斷部落客的對某些事物的偏好(正向或負向)。如果以正向的詞彙為例,部落格分析器會聚集這些正面價值的詞彙,如好、棒、開心等。並進一步構成一個文件的向量值(Document vector),其包括每個詞的出現頻率(term frequencies)、各詞彙的權重(entry’s weight)。這樣一來部落格分析器就可以根據這些向量值去將部落格進行「有意義」的分類或分群。