The subject indexing process / Mai (2000)

Citation - Mai, J.-E. (2000). The subject indexing process: An investigation of problems in knowledge representation. Unpublished PhD, THE UNIVERSITY OF TEXAS AT AUSTIN.

Keyworks - Mai, Jens-Erik, subject_analysis, indexing_process

Intro / 序言

研究動機

文獻的表徵與由此陳述的知識是圖書資訊學中核心且獨特的研究領域,而這個領域通常指索引編製。因此,我們會對這個主題相關的文獻索引問題真正所知的有限感到驚訝。圖書資訊學普遍需求的是如何索引的規則或規範。當這個需求浮現時,通常是基可能說明主題索引編製程序的知識作用的假定上。

  • Shaw 與 Fouchereaux 報導過一個研究,ASIS的研究委員會著手辨識圖書館資訊科學需要研究領域。其認為需要研究的領域之一就是「索引編製與分類法涉及的認知程序為何?」。(Shaw & Fouchereaux, 1993)
  • Milstead 同樣的也討論了索引編製研究的需要性。她注意到「也許研究最重要的需求是那些還沒有被直接指出的……我們不知道當索引者決定某一資訊是關於什麼的時候,涉及的心智程序。」(Milstead, 1994)
  • Vickery 注意到,在一個資訊科學前提的探究中,如果索引編製程序是由人所進行的–與自動程序相反–即「需要索引者為訊息建立意義(meaning),以使「最有意義/顯著(significant)」部分能被選擇出來。(Vickery, 1997:467)
  • Hutchins (1978, 172) 總結了這種狀況:「索引編製與分類文獻顯然的很少討論其程序。我們發現很多討論是關於索引語言與分類系統的語法結構、關於分類的原則、關於如何正確的表述索引條目……與關於索引與資訊系統的評估。但是我們發現很少研究是關於索引者與分類者如何決定文件的主題為何,是『關於』什麼的。」

類似此類的聲明在許多索引編製的文獻都曾出現。現在的研究接受這樣的研究挑戰與探究表徵文件主題的問題。雖然近年來有許多相關研究,但是問題的進展很少,原因可能是因為這些研究的研究方法本身的問題。之前相關的研究都是以實證研究方法。但是主題索引編製程序的問題不只是在程序本身。實證探究能了解的有限。這個假定由少數實際被執行的索引編製實證研究發現(或是說缺乏研究發現)得到支持。(如,Chu & O'Brien 1993 and Bertrand & Cellier 1995)

本研究試圖說明一些文件知識表徵的主要問題;更明確的說,本研究試圖說明以新的方法說明主題索引編製的本質。

研究假定

本研究是基於以下的假定:不可能作出如何索引的普遍觀點,因此從這只是其中之一種探索主題索引編製程序的詮釋觀點。本論文的目的是依照這種觀點解釋主題索引編製程序的本質,因此得以提供一種主題索引編製程序的了解,以解釋為何從索引編製程序不能預期可預料的結果。 本研究提供一種主題編製程序的理解,這種理解視編製程序為許多的詮釋工作,這些詮釋某些程度上根據索引者其特定文化與社會情境。本研究的目標並非提供一種新的改善的索引編製方法,而是探究主題索引編製程序的本質。這種探究與特定的索引語言及索引編製實作保持了一定程度的獨立關係。

因為文件表徵的主要問題在於語言與意義,研究中的主題索引編製程序會由語言觀點的哲學來探索。 其他研究者也以類似假定開始的研究。如 Fairthorne (1969, 78),提到「特殊的主要論題可以視為獨立的主要論題,但是影含著內容貧乏的風險。因此對普遍語言與意義問題的熟稔是基本的條件」。Blair (1990, vii-viii) 在他關於資訊檢索語言問題的著作序言中,提到:「資訊檢索研究的主要任務是了解有效檢索時文件應該如何被表徵。這首先是一個語言與意義的問題。任何文件表徵的理論…必須根基於明確的語言與意義理論上。」

依此著眼點,本研究認為主題索引編製程序由數個階段所組成,這些階段應被視為是詮釋的階段,而非心智的表徵或是心智的規則。因此,這種情況下需要以一種詮釋的研究方法以了解主題索引編製程序中的不確定與詮釋的本質。

「任何種類的書目描述…都可以被視為是描述的。當詮釋的觀點進入的時候,問題變成:是否應該這種描述要依照一種方法或是標準的正典,以使詮釋得以可能?」

研究問題

本研究將延續Fairthorme, Blair, Benediktsson 與其他人所建議的索引編製與圖書館資訊科學研究方法。為了在研究中能更理解主題索引編製程序,本研究將回答尋求以下研究問題:

  • 主題索引編製程序的特徵為何?
  • 浮現在圖書館與資訊科學文獻中主題索引編製程序主要討論與問題為何?

記號學理論與主題索引編製程序

由根據這些研究問題而得到的發現,顯示在主題索引編製程序中是多重詮釋的。如果主題索引編製程序是一詮釋的串聯,則需要由這個觀點來解釋程序的本質。由於以上目的,Charles Sanders Peirce 著作中討論的記號與記號學研究,提供研究與理解主題索引編製程序詮釋本質的理論性架構或方法。因為 Peirce的記號學(Semiotics) 包含了對記號的意義如何產生、詮釋與表徵的理論解釋,因此對本研究是有用的理論基礎。

Peirce 提供一個意義與表徵的普遍理論。這個普遍理論不限於語言本身,也包含任何由主題到詮釋的現象,且著重於解釋為何某些記號意義對某人指涉一種事物而對其他人指涉另一種事物。一些其他語言哲學家討論過這個問題,但是只有Peirce 發展出不同種類詮釋的完整解釋。他建構出記號種類或類型的類目。這種歸類顯示記號的詮釋是不同種類的,且由於目前研究的目的之一是檢視主題索引編製過程的詮釋性本質,Peirce 的記號學便顯初其理論上的價值。透過對主題索引編製程序詮釋階段的歸類,明白的顯示這些階段的詮釋本質為何。因而產生以下問題:

  • 記號研究的特徵為何?
  • 記號學如何能分析與解釋主題索引編製程序?

應用記號學研究主題索引編製程序的目的是為了顯示此程序的本質是多麼根本詮釋的。本論文中呈現的主題索引編製程序記號學說明,將會透過呈現程序中不同種類的個別詮釋,闡述索引程序的多元詮釋的本質。

研究分析與發現

為了分析非常細節的索引編製程序,程序(在第二章)將分為許多階段與元件,每個階段都是一個詮釋,且每個元件都為其所詮釋。在主題索引編製程序的記號學分析中(在第五章),每一個階段都是一個記號被詮釋的過程,並且詮釋的結果即為下一個程序的元件。此外也顯示了索引編製程序中個別詮釋的獨立情形。

為了獲得索引編製程序中不同詮釋本質更完整的了解,每一個程序中的元件都被視為是一個記號,並以Peirce的記號分類歸類。Peirce 區分十種記號類型,每一種都有一種不同的詮釋且具有不同的類型的不確定性。透過分類中對每一個元件的歸類,顯示了主題索引編製程序是高度視社會與文化情境的偶然性而定的,而非只是一種簡單的將文件表徵的轉換程序。社會與文化情境引發的索引編製偶然性(indexing contingency),建議了索引編製的實證研究更需要注意文字如何被詮釋,而非索引者索引時所呈現的動作。

研究貢獻

本研究的價值有二。第一,目前為止無人從詮釋方法的觀點綜合索引編製研究的文獻。且也無人根據詮釋性理解創出索引編製的方法。本研究將強調主題索引編製程序相關的主要問題,與以詮釋學的出發點點提供主題索引編製程序本質的解釋。第二,也許是最重要的,本論文將揭示索引編製研究需要採取新的研究方向。本論文將呈現主題索引編製程序的問題是埋藏在哲學性問題之中,且在圖書館與資訊科學情境中這些問題需要被提出。

The subject indexing process / 主題索引編製歷程

主題索引程序的意義

文獻主題的形成

Mai(2000) 認為 “very little has been done to clarify the intellectual processes concerned with the first or initial step in the indexing process where the subject of a document is identified.”

四階段論者 Langridge (1989) 索引編製的第一階段是 “the most important and the most difficult part of all classification and indexing” 但是關於第一階段的文獻反而少之又少。

二階段論者 Frohmann (1980)認為大部分的研究都針對第二階段,第一階段的分析很少。

雖然手冊與指引並非在理論上解釋索引編製的程序,但是至少這些指引描繪了索引者應該做的索引工作。 雖然我們期待在這些指引中發現一些如何決定文獻主題的指引,但是實際上只有建議檢查目次、章節標題、前言、序言、等等。並且假定透過這些工序可以將文件的主題顯現出來。 但是實際上這些工序並沒有提供任何關於決定文件主題的細節或幫助,並假定本質上是直覺的過程。

DDC 法

杜威十進分類法建議十四種文獻主題分析的資訊來源, 前十種資訊來源是由文獻本身而來,最後四種是來自文獻之外:

  1. 題名(title)
  2. 目次(table of contents), 章名(chapter headings)
  3. 序言(preface), 引言(introduction), 前言(foreword), 書衣(book jacket)
  4. 略看(scan)內文
  5. 參考書目(bibliographical references), 索引詞目(index entries)
  6. 抄錄編目(cataloging copy)
  7. 相關評論(reviews), 參考工具資料(reference works), 主題專家(subject experts)

Mai(2000)認為這些指引是非常模糊而不充分的。

ISO 1985 法

ISO Documentation Methods for Examining Documents, Determining their Subjects, and Selection Indexing Terms (ISO 1985)

此ISO標準主要用在主題項目的決定,應用的範圍:

  1. 在索引編製公司或是索引編製網路中;
  2. 在不同的索引編製公司間,特別是交換書目資料

此標準主張索引編製的程序分為三個階段:

  1. 審視文獻與建立其主題內容。為了避免花費過多的時間檢視文獻內容,建議審視的範圍包含:標題,摘要,目次,序言、起始的章節與段落、結論,插圖、圖表、表格、與其標題,底線或是其他特殊印刷字體的文字。
  2. 確定主題內呈現的原則性概念;
  3. 以索引語言的詞彙陳述其概念。
小結

Mai(2000)認為研究焦點應該由How to轉向What is indexing about, 因為索引的本質可能就無法被精確的描述與標準化。

note:

主題分析,透過索引詞彙表示文獻主題及其內容,以利於資料的檢索與取用。傳統的人工編目、分類、索引工作,與電腦自動化的索引技術,都是在處理主題分析的工作。

而在主題分析理論的研究中,將主題分析工作分為不同的階段。在此有幾種不同的說法,如二階段(Frohmann 1980; Petersen 1994)、三階段(Farrow 1991; Miksa 1983; Taylor 1994)、四階段(Langridge 1989; Chu and O'Brien 1993)等等不同的主張。同樣主張三階段的學者,其三個階段的定義也不盡然相同。而Mai(2000)指出,大多數的索引研究,都針對主題分析階段的後半部,即如何運用索引詞彙表達文獻主題,而對於前半部-文獻主題的決定卻少有研究。因此Mai也參考了主題分析實務工作中所使用權威性的工作指引與作業標準,即DDC的分類編目指引,與ISO 1984 文獻編目分類工作標準,發現這些實務的工作規範在這個部分仍然只有模糊的說明工作的可以如何進行,而並沒有精準工作標準。

因此Mai 針對這方面研究的缺乏提出了兩種可能的原因:(1)以往的研究沒有想到這方面的問題,因此需要進一步更精確的描述索引編製者在編製索引時的資訊工作;(2)索引編製工作原本就不可能被精確的描述。Mai進一步區分了這兩種分別代表的不同的研究問題問法,前者的研究重點在於如何編製索引,後者的則說明精確的索引編製工作的不可能性。Mai本身採取了第二種的思考進路,因此認為研究應該轉移到另一個思考的重點,即索引編製的本質為何?即發現出索引工作為何困難的地方。

此外,在DDC主題分類工作指引中建議的14種資訊中,前十種資訊來源是在文獻內容之中,而最後四種是來自文獻之外。而這四種文獻之外的參考資訊,即使用了主題分類的社會性資源與技巧,以協助主題的發現與形成:抄錄編目(cataloging copy), 相關評論(reviews), 參考工具資料(reference works), 主題專家(subject experts)。 ISO 並沒有列出這些資源,但是有強調需要參考使用者潛在的需求問題。ISO 的使用者需求一方面建議索引者必須參考文件使用社群,另一方面也提出了可能會與另一個社群的索引產生不一致,與產生交換上的困難。

這讓我想到,是否可以透過對於其他標準與工作指引中的社會性資源與技巧,作為檢視現實索引編製工作中的社會互動現象的一種比較標準?對於在收集資料與研究時間有限的情況下,是否可以作為一種研究的技巧?即,第一階段的前導研究,在於確認是否各種書後索引編製均普遍存在社會性資源的運用現象與技巧。而第二階段透過相關研究文獻與標準,建立基本的資料收集的原則性架構與起始問題。第三階段,則描繪現有索引編製的社會性資源與技巧的現況,確立研究命題的正規架構。

Document adn subject analysis / 文件與主題分析

因為索引程序本質上的不精確性,因此研究索引程序的本質,以獲得更好的了解。

Indexing viewed in terms of steps

各種不同索引的階段理論:

  1. 2階:Frohmann 1992, Petersen 1994。第一階段是形成主題,第二階段是將主題轉為索引語言
  2. 3階:Farrow 1991, Miksa 1983, Taylor 1994. 形成主題,將主題正規化,將正規化主題轉換為索引語言
  3. 4階:Chu and O'Brien 1993, Langridge 1989. 形成主題,將主題正規化,轉換為索引字彙,組合索引字彙

階段(step)是索引編製邏輯上的過程,而非心理上或動作上必須操作的操作。初學者可能如字面上依序完成索引編製工作,但是對有經驗的索引者或編目者,可能不會意識到有這些階段,也就是說對專家而言,索引過程可能只是一整個複雜的程序。但是將程序區分為各別的邏輯階段,能更仔細的審視索引編製程序。

Mai 的三階段索引程序

Miksa 使用 範圍-對照程序圖式 (Scope-Matching Process diagram) 來表示索引編製的程序。這個程序一共有四種元素: 原本文件(document)–>抽象主題(subject)–>主題詞(subject heading)–>標題詞彙(subject headings) Miksa 關注的並非每一個階段的細節,而是過程的最初與最後。這個關注的核心可以用一個問句來表示,即:在現代主題詞實務中,一個主題詞的指涉物(referent)為何? 他的圖式簡明的呈現了這種基本關係。在他呈現這個關係的嘗試中,他說明了索引編製者由文件發展到主題詞的過程的某些含糊性。他明白的否認這個程序無法以一個幾何的圖形精準的呈現,但是圖式仍然能有效的呈現程序中存在「某種程度不可定義的實質或範圍」。

Miksa 的圖式說明他的論點。他認為主題表徵的文獻傾向認為問題的回答是:「主題詞應當以某些基本的方式呈現或符合作品的主題性內容」。但是 Miksa 根據對主題詞指涉物的描繪,認為主題編目者的工作是將文件的內容轉換為文件的表徵。當編目者形成了「名稱」以建議、表徵、符合主題內容應當的實質。

Miksa 對主題表徵過程的方法在解釋主題索引過程時有三重意義:

  1. 他使用指涉物(referent)的概念,每一個分析的結果都是前一個內容物的指涉物,即索引編製的過程呈現一個序列的關係
  2. 提供基本索引編製過程的輪廓
  3. 堅持關於過程的物件或元素只是一「某些未定義的實質」,每個階段是一個詮釋。
未處理
  1. 索引者的階層
  2. 詮釋取徑
    1. 質與量的研究方法
    2. 圖書資訊學中的實證主義
    3. 新焦點
    4. 研究的核心對象
    5. Wittgensteinian (維根斯坦學派)的知識觀點
    6. 小結
  3. 總結

Ch.3 表徵 (Representation)

  • 此研究使用知識表徵(representation of knowledge)與文件表徵(representation of document)的概念來說明主題內容的表徵工作
    • 先(1),文件表徵:描述作品的物理特徵,與作品中明確可辨識的知識內容
    • 後(2),知識表徵:決定(determining)作品知識內容的主題概念
  • 分類、編目、索引工作有些許不同,但基本的心智歷程相同。
  • Lancaster (1998) 認為索引編製歷程(三階段)中的第1(document analysis), 2(subject description) 階段與索引者將在第3階段(subject analysis)使用何種索引語言或系統無關。

主題分析(subject analysis)的定義

主題分析在LIS(圖書資訊學)文獻中,主要有兩種不同的用法,(1)用來分析文件的主旨內容,與(2)建構索引語言與系統。在此研究中的用法是前者。在某些研究中,主題分析可能是指索引編製歷程中的最後階段(Chan, Richmond, and Svenonius 1985),有些是指最初的階段(Langridge 1989)。Hjorland(1997)指出有許多相關研究使用一些類似但不同的詞彙,如 content analysis, conceptual analysis, information analysis, aboutness analysis, text analysis, 等等。在此研究中,將「文件分析(document analysis)」定義為索引編製的第一個分析階段,而「主題分析(subject analysis)」為索引編製的最後一個階段。

決定主題詞 (Determining the subject matter)

(determining 翻成決定好嗎?還是形成好?)

決定文件的主題詞,在傳統上被當作是與特定索引語言相關的問題。 因此在傳統的索引編製教學中,會被認為是主題索引編製程序的最後階段,排在一開始的文件分析與主題分析之後。

  • Arlene Taylor (1999) 在她最近出版的資訊組織教科書中提到,「許多人從控制字彙中使用索引詞彙,只學過從特定清單的選定詞彙,而並沒有學到形成『關於什麼(aboutness)』的過程」(Taylor 1999, 132)
  • 其他研究也有相同的看法:
    • Bates (1986) 「指導索引編製者與編目者如何找出文件的主題是幾乎不可能的。當然,編目教學者通常會用一些模糊不充分的說法教導技巧的基本要素,如『去找出文件的主題』」
    • Cooper (1978) 注意到有些研究指出這個問題,但是很少能洞悉這個過程。在專家之間關於索引編製工作也沒有一致性的答案。
Wilson 的論點

Wilson 認為絕對不可能由文件中找出一個絕對主題。

Patrick Wilson 在 1968年的書《Tow kind of power》的一章〈主題與定位意識(Subjects and the sense of position)〉中討論了文件主題決定。

  • 他注意到許多系統要求將文件組織到一個單一位址;則每個文件必須有一個單一主題,作為歸檔與儲存的依據。因此每份文件都需要有一個主題,而這「關於什麼」也就是文件的主題。這假定對文件的主題有「完美精確描述(perfect precise description)」(Wilson 1968, 71)。並且,Wilson認為,如果有一份文件有兩個不相等的描述,那麼實際上會是兩份文件。
  • Wilson 認為要了解整個文件的主題,讀者等於要了解建構文件的句子的主題,即整個文件的主題是由所有句子的主題清單來決定的。但是如果兩個人分別為同一份文件的句子定出主題,這份主題清單可能有很大的不同,因此單一文件只屬於單一主題的看法便不合理。對此,Wilson 引哲學家 Goodman (1961) 的看法,說明確定句子主題的難度。
  • Goodman (1961) 將「關於主題(about)」區分為絕對關於(absolutely about)與相關關於(relatively about)兩種。絕對關於能直接從句子中取得,而相對關於必須從相關句子間了解。
  • 因此, Wilson 認為不可能準確地找出句子精確完整的主題,從而不可能找出文件內含知識的精確主題。
Wilson 的方法

Wilson 認為一般人在找出整個文件的主題時,使用的方法有四種。Mai 認為這四種方法仍然是編目與索引者在進行主題詞彙決定的時候所使用的方法:

  1. purposive way (目的法)。以作者在文件中的意圖為方向。根據這種方法,索引者的任務是找出作者的意圖與目的。目的法假定作者的書寫是有企圖要動作或是描述、說明、解釋、證實、呈現某事,並聲明其意旨。作者的書寫也可能有多重目的,或是其意圖不明顯,以至於需要猜測作者的意圖。這種方法的問題在於,難以從文件的閱讀中發現作者的意圖。Wilson 認為這種方法看起來客觀中性,但是實際上依賴索引者對作者意圖的詮釋。
  2. figure-ground way (描繪基礎法)。此法假定在文件中對某些面向或事物比其他部分討論更顯著,而這些顯著與核心便是文件的主題。這種方法的認為雖然文件中擁有許多不同的概念,但是將會有幾種概念是最顯著優勢的。Wilson 認為這當然不是一種客觀中性的判斷,因為不同人認為顯著的部分可能不同。
  3. constantly-referred-to method (參照法)。對照於第二種方法來自於主觀的優勢印象,此法正好相反。此法假定,在此一文件中越常被提到的事物、名稱、參照來源,越能代表文件的主題。此假定的問題是常被提及的事物也許只是在作品中為了交代更普遍主題的基本背景資訊,因此最常出現的字不能表現出文件的主題。但是將直接參照與間接參照聚集起來一起計算,將可獲得較佳的結果,但是這也導致將有不一致的結果,因為會有不同聚集組織參照的方法。
  4. appeal to unity (一致法)。這種方法與前兩種不同;前兩種視主題為在許多主題中最具優勢的,而這種方法主要在識別出作者核心論點所包涵的內容。這種方法依賴索引者對文件主題的解讀與詮釋。
不確定的主題 (the subject is indeterminate)
  • Wilson considers all the four methods are reasonable, but different methods would lead to the different result.
  • “The notion of the subject of a writing is indeterminate, in the following respect: there may be cases in which it is impossible in principle to decide which of two different and equally precise descriptions is a description of the subject of a writing, or if the writing has two subejcts rather than one.” (Wilson 1968, 89)
  • [試翻譯上句]「以下的面向來看,作品的主題概念是不確定的:許多例子顯示,原則上不可能決定在兩種不同但是具有同樣精確描述中,那一種才是作品的主題,或者是作品本身擁有兩種主題。」
  • Wilson argues there are no “one absolutely precise description of one things”, “the uniqueness implied in our constant talk of the subject is non-existent.” (Wilson 1968, 90)
  • Wilson criticized most indexing languages used by indexers and catalogers are mostly too coarse, or require the making of find distinctions.
Wilson 的批評 (critique of Wilson)
  • Rothman (1974, 287) states that indexing is a science and also an art. However, according to Wilson's discussion, it is not possible to create rules or adhere to rules which make indexing objective and neutral. The representation of a document's subject will always depends on the methods an indexer chooses to use, and on indexer herself. Therefore, indexing cannot be a sicentific task. / [翻譯]Rothman (1974, 287) 列出索引工作中科學與藝術的部分,但是根據 Wilson 的看法,索引工作不可能根本不可能建立一種客觀中性的規則。表徵文件的主題需要依靠索引者所選擇的方法與索引者自己,因此索引工作不可能是一種科學性的工作。
  • Wilson 檢查兩種假設索引工作的假定:(1)可能在文件中找出其主題;(2)主題是能從文件中找出的。Wilson只拒絕了第一個假定,即他認為「不可能決定一份文件的唯一主題」;但是接受了第二個假定,Wilson 並不認為文件的主題可能在文件內容以外的部分找出。
  • 他幾次提到主題詞的決定重要的是索引者,更甚於作者或是文件,但是他並未討論為何不同索引者對文件有不同的解釋。但是他有討論到索引者應該使用外部或內部的標準來判斷條目的相對重要性。
  • Eco的詮釋概念:
    • 兩種詮釋:(1)作者的意圖;(2)獨立於作者意圖的文本所說。
    • Eco 的第二種詮釋有兩種方法:(1)由其組織一致性與其起源基礎意義系統的效果找出文本所說;(2)由其自身預期系統效果找出名稱(addresses)。但是 Wilson 只討論第一種詮釋,並沒有討論由讀者或索引者角度的詮釋。
    • Eco 解釋近年來的文本分析理論(textual analysis theory)由「從文本自身並為其自身的目進行分析」轉變為「閱讀的實用性面向」(Eco 1994)。後者指,文字的功能與意義只能由實際上文本的讀者決定;即,由讀者的詮釋性選擇決定文字的意義。
  • Wilson 當時所遺漏的方法:User-oriented (使用者導向法)。這種方法與目的法相當不同,目的法的索引者試圖了解文本的意圖,而使用者導向法的索引者需要明白使用者的潛在資訊需求。

索引編製研究(studies on indexing)

perceptual and conceptual indexing/知覺式編製與概念式編製

Farrow

Farrow, 1991, 1994, 1995

  • 依循認知心理學與認知科學傳統。語言學家 Teun Van Dijk 與心理學家 Walter Kintsch 的理論。
  • Farrow 的目標是建立一個人類編製索引的資訊歷程(information process)模式。
  • 區分兩種索引編製歷程:
    • top-down / conceptual indexing 概念式索引編製: 根據索引者自己的知識。並提出三種會影響編製歷程的因素:索引者對其使用的系統的知識、其系統的使用者、索引者所處的一般世界知識。
    • bottom-up / perceptual indexing 知覺式索引編製: 從覽視(scan)文字中獲得線索,如長的詞彙、斜體、底線、標題等等強調的線索。覽視的焦點也可能是在序言、結論、或每段最初的句子中。如,“in this paper we….”。索引者從文字中挑選出主題資訊。
  • Farrow 論點的價值:
    • 將索引編製歷程分類為知覺的與概念的兩種
  • Mai 對Farrow 論點的批評
    • Farrow的索引編製認知模型並未為編製歷程增加未來的知識或指引。其論點只是提出了索引編製是一心智歷程,而可以用認知心理學的人類資訊歷程理論來解釋。但並未能針對索引編製中的認知歷程中進行更多解釋。
    • 其認知式索引編製有三項知識因素,但並未討論這些因素的影響。
Beghtol

Beghtol, 1986

  • 也基於Teun Van Dijk 與 Walter Kintsch 的理論,將索引編製的認知歷程區分為由上而下與由下而上兩種。她也描繪了索引編製的認知模式。
  • 假定文件具有相對固定的aboutness與多數的meanings。即,文件可能對不同的人有各種不同的意義,但是文件在相同時間會給相同的人相對相同的aboutness。Beghtol 因此創出一種 aboutness analysis 的模式。
  • Beghtol 認為索引者同時運用 top-down and bottom-up approaches
  • Beghtol 認為索引者的索引編製任務包含了:
    • transform the documents surface structure into its deep structure \ 將文件的表層結構轉換為深層結構
    • transform the indexing languages surface structure into its deep structure \ 將索引語言的表層結構轉換為深層結構
    • join together the two deep structure \ 結合這兩種結構
    • transform the resulting deep structure back into the surface structure of the indexing language \ 將結果的深層結構轉換回索引語言的表成結構
  • Beghtol 認為 Chomsky 與 Van Dijk 解釋了前兩階段的歷程,而第三與四階段的歷程仍有待瞭解。
對Farrow 與 Beghtol 的批評
  • 兩人的理論都基於語言的理性主義。假定語言是某種加在一個知識與觀念的既定世界(already-there-world)上的東西。因此文字只是去指出其指涉的概念。因此兩人的理論都認為索引是去指出文件的主題(subject)。
  • 此種對語言的定義,會遭受批評,如 Wittgenstein, Heidegger, Gadamer

conceptions of indexing/索引編製的構思

Albrechtsen (1992, 1993):領域的主題分析。文件被使用的領域(domain)決定文件的主題。

Albrechtsen argues that there are three general conceptions or viewpoints of subject analysis and indexing. She argues that these conceptions relate to the type of information which constitutes the subject and to which method of indexing is used. The relations among these factors can be expressed in the table found in figure 3-1 that combines her 1992 and 1993 tables (Albrechtsen 1992, 141; 1993, 220)8.

Albrechtsen 認為有三種普遍的主題分析與索引編製的概念(構思)或觀點。這些不同的概念與其構成主體的資訊類型,以及其所使用的索引編製的方法有關。

Conceptions of subject analysis and indexing Type of subject information Indexing method
Simplistic conception Explicit information Extraction
Content-oriented conception Implicit information Assignment
Requirement-oriented conception Pragmatic information, contextual potentials Assignment
  • simplistic conception / 簡單式構思: 視主題為客觀實體。可以由顯性文字中抽取取出主題資訊。因此可以透過自動的統計方法產生索引。
  • content-oriented conception / 內容導向構思: 需透過詮釋才能決定文件的主題。因此主題被視超越字詞與文法等表面結構的東西。因此索引編製是發現文件隱含的主題,而這些主題只能透過人類索引者以其更高層次的主題知識才能察覺。
  • requirement-oriented conception / 需求導向構思: 內容導向的進一步發展。需求導向關注系統使用者的需要,而這個身為系統一部分的索引者,其主題分析任務在於決定在文件中的實用(pragmatic)資訊或知識。需求導向只會需要找出使用者需要或會用到的隱含資訊。

Albrechtsen 認為requirement-oriented 需要結合領域分析。

informaiton need, and indexing

  • Weinberg (1988) 研究學者與研究者的資訊需求,並說明為何傳統的索引無法滿足這些需求。
  • Vickery (1968) discusses analysis of information, by which he means “deriving from a document a set of words that serves as a condensed

representation of it” (Vickery 1968,355)

  • Cooper (1978) has developed an indexing method, Gedanken Indexing thought experiment indexing-which is based on users' probable utility of one index term versus another.
  • Ward (1996): good indexer's skill: 好索引者必備的技巧:
    • Prior knowledge of the field. The indexer needs knowledge of the subject field, the company the indexers are working for, and knowledge of the users' general and specific information needs.
      領域內的先備知識。如主題領域、索引者所服務的公司、使用者的一般與特定資訊需求。
    • A sense of judging what to index as well as at what level.
      判斷索引層次的感覺。
    • The ability to read the implicit meaning of a text. This includes being able to read the documents as if the indexers were the users, as Ward says, “We read the text as if we were the end-users” (Ward 1996,218). When Wards and his coworkers index they try to reflect the “corporate mind” (Ward 1996,218). They can only do this by being a part of the company and through effective commitment to the company.
      讀出文字隱含意義的能力。包含化身為讀者來閱讀。
    • Good knowledge of languages, both native and common foreign languages.
      對語言具有足夠的知識。
    • The ability to omit redundant information.
      避免贅餘資訊的能力。
    • Being able to evaluate the document that is determining how valuable the document would be for the particular users.
      檢驗文件對特定使用者的價值的能力。

Empirical Investigations

  • Most of these studies fall in the category of inter-indexer consistency studies, however.
  • Very few empirical studies have been concerned with the indexing process itself and none have been concerned with determining the subject matter ofa document based on the users' need for information.
  • Chu and O'Brien (1993)
    • to answer two basic questions 1) how is a text analyzed to determine its subject and 2) with what ease is this done. They expect that their findings will provide a better understanding of the subject indexing process, and especially of the first step.
    • The authors asked a total of 104 students from UCLA's and Loughborough University of Technology's departments of library and information studies to read three short popular articles and analyze the documents to determine the subject matter. The participants were asked to state the subject of each article in the form of a sentence, and then to evaluate the ease or difficulty experienced in doing so. The authors determined the subjects of the three articles. The participants' answers were later compared to these definitive statements and a participant's answer was considered right or wrong based on the participant's ability to determine the same subject as the authors.
  • Bertrand and Cellier (1995).
    • four groups
      • 5 professional indexers, experts in RAMEAU, and experts in economics.
      • 5 professional indexers, experts in RAMEAU, and experts in psychology.
      • 5 professional indexers, novices in RAMEAU, and experts in psychology.
      • 10 beginner indexers, novices in RAMEAU, and no subject knowledge.
    • findings
      • The performance of the participants indexing was measured by calculating the average number of indexing terms each participant gave each document. However, no difference between the four groups was found. but experts RAMEAU users (groups I and U) were more consistent than novice users of RAMEAU (groups III and IV).
      • indexing process: The expert users of RAMEAU (groups I and II) frequently checked the availability of a term in the indexing language before they decided a concept.
      • indexing strategies:
        • “Indexing orientated by the knowledge of potential indexing terms”
        • “Indexing orientated to the users' needs”
        • “Indexing helped by the documentary language”

Criticism of Mentalism in Indexing

Frohmann (1990):

  • 心智主義的研究者假定可以發現索引編製的心智運作規則。
  • Wittgenstein 認為並沒有一個能脫離特定實踐的抽象規則
  • 心智主義的研究可能改善索引檢索系統的效率,但是無法有助於瞭解索引工作的本質。

Blair (1990):

  • 以往的索引研究並未深入語言與意義的本質
  • 探索了兩種語言學理論:semiotics 與 Wittgenstein 的實用主義語言哲學
  • 討論語言結構(structure of language)與實體(reality)的關係。
    • Question: “whether signification is taken to be prior to communication or not?”
      • If yes, the language is only used to label some ideas which are present before communication. In other words, the words merely denote some ideas and physical entities that exist objectively and independently of the speaker.
      • If not, “the signification takes place through communication”, then the words do not necessarily correlate with reality. Words and Reality are seen as independent of each other. The words therefore get their meaning through their use, and the decision of whether a word is used correctly is decided jointly in the particular social context or practice in which it is used.
  • meaning:
    • Strawson (1970) the meaning of a word is determined by how the word is used.
    • Rules for the use of words are established in the social context in which the words are used.
    • Wittgenstein: to use a word correctly is not to know its inherent meaning or what the word refers to. To use a word correctly is to understand the practice in which the word is used.
    • Wittgenstein: the language using like the tool using:
  • Conclusion: To understand what the subject matter of a document is we need to understand how the document will be used. 先瞭解文件如何被使用,才可能瞭解文件的主題意義。

相關性研究 / Relevance Studies

  • Relevance: to measure the performance of a given IR system or IR technique
  • “The purpose of this small review is to show how closely related the concept of relevance is to the concept of subject, and to indicate that these two concepts are studied in isolation.”
  • Saracevic (1970)
  • Cooper (1971) distinguished between two uses of relevance, namely relevance as usefulness for the user, and relevance as a logical relationship between the topic and the document.
  • Swanson (1977) has defined two frameworks for understanding relevance: 1) as something which the requester or user creates or constructs from whatever new knowledge the user derives from the document; 2) as 'being on the same topic.'
  • Buckland (1983) has distinguished three uses of the term relevance: 1) responsiveness [回應性], which is the measurement of the system's ability to retrieve correct data on the basis of the attributes used as the basis for retrieval; 2) pertinence [適切性], which is a narrower use of responsiveness, namely when the attribute used for retrieval is the subject matter; 3) beneficiality [效益性], which is the degree to which the user of the system can utilize the retrieved data.
  • Green (1995) takes a position directly opposite than Cooper, Swanson, Buckland, and others: strong and weak relevance. 1) Strong relevance is the relationship between the users' need for information and the documents [強相關: 使用者對資訊的需求與文件的關係] ; 2) weak relevance is the relationship between the topic of the users' request and the topic of the documents [弱相關: 使用者對主題的要求與文件主題的關係].
  • Barry (1994) , Park (1994)

總結

Five Conceptions or Indexing

  • Dual indexing process approach:
    • Soergel (1985) discussed the difference between entity and request oriented indexing,
    • Fidel (1994) the difference between a document-oriented approach and a user-oriented approach,
    • Albrechtsen (1992; 1993) the difference between content and requirement oriented indexing,
  • Hjorland (1997): four basic epistemological positions, which are of interest to knowledge representation.
    • Empiricism or positivism [實徵主義或實證主義的認識論: 知識乃先在給定的、知識是模組化可被獲得的], the view that knowledge is given a priori, that knowledge is modular, that individual sensations are the basis for obtaining knowledge, and that knowledge only can be obtained empirically (Hjorland 1997, 59-61).
    • Rationalism [理性主義: 可以建立獲得知識的基本原則:理性(reason),且經過良好的分析可以獲致真理], the view that it is possible to formulate basic principles for obtaining knowledge, that the primary source of knowledge is reason, and that a good analysis will lead to the truth (Hjorland 1997, 69-72).
    • Historicism [歷史主義: 知識並非透過個人感知或理性能力,而是被文化與歷史情境定義的,因而知識不是模組化的,也不可能定義出詳盡且根本的原則], the view that the principles for obtaining knowledge develop historically, that it is not possible to define exhaustive and fundamental principles for obtaining knowledge, that knowledge is defined by cultural and historical contexts and not by individual sensations or rationalizing, and that knowledge is not modular (Hjorland 1997, 73-75).
    • Pragmatism [實用主義: 知識由例行而來,故,未來的使用決定知識的脈絡,知識是情境依賴的。], the view that knowledge primary develops from praxis, that the future use determines the context for knowledge, and that knowledge is context dependent (Hjorland 1997~ 75-76).

Mai 提出五個索引編製基本構思:

  • Simplistic conception [簡式]:
    • similar with Wilson's constantly-referred-to method and Albrechtsen's “simplistic conception”.
    • focuses solely on automatic extraction and statistical manipulation of words.
    • linked to empiricism,
    • [此取向的假定是,文件的主題內涵可以由在文件中出現文字所導出。也就是,文件的主題內涵是由其中的文字所構成的。]
  • Document oriented conception [文件導向]:
    • Farrow's definition of perceptual indexing and to Wilson's figure-ground method and purposive method
    • focuses on the information that is present in the document.
    • related to the rationalistic position.
    • [從文件的名稱、標題、摘要、每段落的開始、等等部份選出文件主題相關的文字,作為索引詞彙使用。文字是由文件中選出,索引者只是決定其重要性。]
    • [與理性主義的立場相關。文件導向背後的概念是,透過理性的推論可以客觀的決定文件的主題內涵。(其實我是看不出來這裡有哪些理性推論,因為並沒有指出其推論需要參照某普遍性的主題知識系統(ontology)。)]
  • Content oriented conception [內容導向]:
    • historicist epistemological position
    • [盡可能由文件所有的內容來決定其主題內涵]
    • [同時也是歷史認識論立場的,因此此法需要探究所有對此文獻的詮釋,與文獻的起源,以決定主題。(我很好奇這怎麼可能作得到。感覺Mai為了將Historial epistemological 帶進去才加上此段說明。)]
  • User oriented conception [使用者導向]:
    • focus on the users' general knowledge or the users' work or research domain.
    • pragmatic position
    • [根據使用者的一般知識與其工作或研究領域。基於實用主義的立場,因此索引編製關注的是文獻未來的使用,也必須對潛在的使用者需求進行分析。此分析不能一次客觀的決定,會因為使用者族群及其興趣與任務的改變而改變。]
  • Requirement oriented conception [需求導向]:
    • difference with user-oriented: [使用者導向是針對使用者群體,需求導向是針對特定個別使用者的資訊需求] In the user-oriented conception the indexer had some general knowledge of the group of users who use the library, in the requirement-oriented conception the indexers have knowledge about individual users' information needs.
    • pragmatic position

Fig. 3-4. Aspects of the Five Conceptions of Indexing