2010年8月12日 星期四

療癒系音樂趴(下)

還記得上回我們介紹的幾首療癒歌曲嗎...什麼?忘了!?不過也沒關係啦,反正這次的歌曲一定不會讓你失望。上一次都是看女生歌手表演,這回我們換男生組來踢館囉~

電影「最遙遠的距離」劇照
03cea5fcdf611f6ad6887df7

到底是什麼歌曲會讓小鎂這麼如此陶醉呢?因為他在最遙遠的距離聽到了最動聽的歌曲!其實呢!每一首歌曲都有屬於它的聽眾,但是先決條件是要我們發現到它的存在才行。所以陽光宅男的任務呢,就是要從這種最多人都聽的流行歌曲中去找尋療癒性質的歌曲並分享出來,讓最多的人可以與這些有深刻意義的流行歌曲產生互動與共鳴,讓我們生活周遭的世界換一層新面貌,也使得我們的心情能抒解過多的紛擾與沈重︿︿

2010年8月11日 星期三

用Python也能輕鬆玩自然語言處理(2.4)

2.4 語彙資源大集合(Lexical Resources)


詞彙或語彙資源(lexicon),指的就是一些字詞或片語的集合體,它們通常會伴隨一些詞性或語意的資訊在裡頭!語彙資源算是次級的文本,因為只是用來輔助文本用的。例如我們定義了一份文本「my_text」,接著定義「vocab = sorted(set(my_text))」用來裝my_text裡面的詞彙,以及「word_freq = FreqDist(my_text)」用來計算每個字詞出現的頻率。這樣一來,「vocab」與「word_freq」就成了最基本的語彙資訊。還有向我們之前在1.1看到的「concordance 」功能也算是一種語彙資源,提供了單詞的用法(就像字典那樣)。下圖列出了標準的語彙術語:一個語彙的款目(lexical entry)由其標題字(headword or lemma)所組成,並且可能提供一些額外資訊,如詞性(part of speech)或詞義說明。如果兩組字有相同的拼法叫做同音異義詞(homonyms)。


最簡單的語彙類型就是照字順排列字詞清單,而較為精密的則會擁有複雜的結構且具有橫跨個別款目的連結功能。在這一節中我們會看到一些NLTK提供的詞彙資源!