Citation - 林頌堅. (2003). 基於詞語抽取的圖書與資訊學刊研究主題分析. 圖書與資訊學刊(47), 15-35.

Keyword - domain_analysis, keyword_extraction, latend_semantic_indexing

Tag - domain analysis, latend semantic indexing, journal article, clustering analysis

基於詞語抽取的圖書與資訊學刊研究主題分析

領域分析

領域分析(domain analysis):以了解某一學科內,普遍的研究主題與知識架構。使研究人員了解學科發展的現況。

文獻主題辨識

概念抽取

  1. 對期刊文獻的中英文摘要進行關鍵字抽詞
  2. 對抽詞結果以隱含語義索引(latend semantic indexing)進行詞語間的相關程度統計
  3. 對抽詞相關結果以Cliques叢集演算法,進行叢集分析(clustering analysis),形成概念集合。一個概念集合可以視為集合中各個語詞特徵的總和
  4. 可以透過隱含語義索引,由概念集合指引至相關文獻

對核心概念的判斷準則

  1. 目的:找出最明顯重要的概念,作為主題。
  2. 核心概念集合:與其他概念集合相關的程度。與越多的概念相關,則此概念集合越可能是重要的研究主題。
  3. 對核心概念集合進行Ward叢集分析,找出研究主題。

由研究主題回溯與主題相關的論文

  1. 因為:研究主題的特徵視為概念集合特徵的總和
  2. 可以透過隱含語義索引,由概念集合總和指引至相關文獻
  3. 對主題內的相關文獻進行作者與發表時間的描述統計

主題關係的視覺化呈現

  1. 以叢集分析與多維量尺法(multi-dimensioanl scaling)呈現主題間的「共文獻關係」,以呈現主題間的相關程度。