Exploiting lcsh lcc and ddc to retrieve networked resources / Chan, L. M. (2000)

Title: 開發LCSH、LCC和DDC至網路資源檢索的爭議與挑戰

Citation - Chan, L. M. (2000). Exploiting LCSH, LCC, and DDC To Retrieve Networked Resources: Issues and Challenges.

Keyword -

簡介

網路資源不斷激增、無限地變化,這樣快速的成長不但提供圖書館與資訊專家巨大的機會,同時也帶來了空前的挑戰。以傳統圖書館物料型式來整合網路資源的需求,需要再次檢視那些已建立、公認的書目控制工具。從徵集、組織圖書館館藏的訓練,擴展到一個動態、多變的網路資源,在這裡,圖書館員面臨新的挑戰。在這樣的環境中,品質和數量之間的警張關係從不曾消彌,對大量的資源提供有品質的存取形成了一種特別的挑戰。

這篇文章調查網路生態和網路資源的特徵是如影響主題存取(subject acess),並且分析對俱有效度的索引和檢索工具之需求。對現有工具的使用、潛在性的使用、和未來可能發展的方針都將在接下來的內容中探究。

一個新的環境和樣貌

幾個世紀以來圖書館員就在做資訊保存和檢索,並已發展出有效管理傳統物料的工具,然而任何對於傳統工具未來的研究都應該注意網路資源的特徵和在網路中的自然檢索;這樣龐大的資源需要很有效率的工具…這單純是經濟上的考量。本篇文章會簡短地回顧OPAC的本質以及傳統圖書館的資源特徵。OPACs是一群內部介面同質性的設計,若無,至少也在內容組織和外觀格式上一致,他們結構的標準化歸因於使用相同的工具(AACR2R/MARC, LCSH, LCC, DDC, etc.),且彼此之間有相當的協調。代表OPACs的主要資源即為傳統的圖書館資料,多有下列幾項特徵:

  • 實體的(表現自然界的物體)
  • 易辨別(可以以特定的型式被定義和分類,例如書、期刊、地圖、錄音資料…等。)
  • 自我控管(是由可識別的單位所控管的)
  • 相當穩定(從主流到自然的衰退,他們不易改變)

在另一方面,全球網際網路(World Wide Web)是浩瀚的、分散的、繁雜的、機器導向的、動態易變的和正在快速發展中的。電子資源相對於傳統圖書館資料,通常是:

  • 無組織的/無形的
  • 沒有明確定義的
  • 自身沒有被控管
  • 易變的

許多年來,各種用於組織圖書館館藏的標準及程序不斷地發展測試,這其中有一約定成俗的傳統,即是受過專業訓練的編目者和索引者基於其專業能力,必須負起提供metadata的全部責任。相對地,網路環境仍在發展中,適當有效的資源描述組織方法也不斷地在進展,由於電子資源的大量產生,許多未受過書目控制專業訓練的人—包括主題學科專家、公務員及非專業人士—現在都可能要投身網路資源metadata的準備工作。此外在資訊加工組織的過程中,需要大量運用電腦,結果通常是很神奇的,也有可能很令人失望,如此便引出當我們想要有效率地取用資訊時,如何保持其一致性和品質的問題。其答案可能在於完全的人力導向和科技導向之間。

檢索模組

網路挑戰帶來的新展望空間建立了資訊檢索模式,它能有力地操作網路資源,同時在對傳統媒體資源的回溯上,也提供同樣的效率和準確度。Marica J. Bates陳述她對線上資源主題編目的想法,指出關乎搜尋性能的思考是很重要的。「線上搜尋本身延續了索引的形式,故由主題檢索線上目錄,是一種原始索引和所謂『搜尋性索引』兩者間的結合。」(Bates 1989)在思考最有效的網路資源主題分類法時,也需要考慮其他各種現行之資訊檢索模組。例如以精確比對為基礎的布林模組,在幾乎所有的線上公用目錄和商業資料庫中廣受使用;另一方面,向量模組和機率(或然)模組則在網路全文分析索引和檢索方面較為通行。這些模組利用統計排名和電腦語言,可以計算詞彙發生度、詞彙頻率、語詞接近度還有詞彙加權,對傳統主題分析工具有所欠乏之處已帶來相當程度的補足。這些模組不一定每次都能帶出最佳檢索結果,但是藉由和自動化文字處理、自動索引功能的結合,便能夠有效地處理大量資料,也提供了未來趨勢發展方向的指示。

網路上的主題檢索

線上環境需要什麼樣的主題檢索工具?我們可由定義功能需求開始著手,主題檢索用於:

  • 幫助檢索者辨識探索和檢索資源的最有效途徑
  • 幫助使用者集中搜尋
  • 提供最佳回溯
  • 提供最佳準確度
  • 協助檢索者開發他種搜尋策略
  • 用最經濟有效的方式提供以上所有功能

為了在網路的環境中完成這些功能,有某些操作上的需要,其中最重要和有效的處理大量資源的能力是互通性。資訊空間模糊不清的範圍要求不同的系統能夠為了使用者的利益一起運作。互通性允許使用者在根據不同標準、方法產生和組織的資源中檢索。龐大的網路需要注意同時呈現了一個關鍵的挑戰。多年來,圖書館面臨的迫切議題已經不斷的累積,如果欠款的定義是大量的書在不公開中等著被編目,則網路資源就像是在前院中的一個巨大欠款。如何將書目控制用最有效和經濟的方法加在有價值的資源上–在本質上達到可伸縮性–是圖書館和資訊專業的重要任務。為了提供使用者一個方法能夠妥善的利用這些廣大的資源,操作上的要求概述如下:

  • 在不同的系統、metadata 標準、和語言之間的共通性
  • 對不同資訊社群的彈性和適應性,不只是不同類型的圖書館系統,還包括其他的社群,如博物館、檔案館、企業的資訊系統等等
  • 可伸展性和可伸縮性,能容納不同深度和不同學科領域的需求
  • 簡單的應用,換言之就是容易使用和理解
  • 多功能性,即為執行不同功能的能力
  • 符合電腦的應用

1997年, 為了研究網路環境中的主題存取這個議題,ALCTS (Association of Library Collections and Technical Services) 成立了二個委員會:Metadata與主題分析委員會以及Metadata與分類委員會。這些報告現在是可得到的 ( ALCTS 1999, 1999a )。之後在本文中將論述一些他們的介紹。

詞語主題存取

雖然主題存取對於網路資源是可用的,但還是有許多可以改進的空間,控制詞彙更好的用法也許是答案之一。在過去三十年間,全文檢索或自然語言檢索的引進和普及,與在某些情況下完全依賴這兩種檢索方式,產生了一個關鍵的問題:還需要控制詞彙嗎?對於了解控制詞彙功用的資訊專業者來說,答案是肯定的;對其他人來說,只有當搜尋開始陷入龐大的檢索結果泥沼中時,贊成的答案才會清楚的出現。控制詞彙提供一貫,精確,和控制的好處(Bates 1989),這通常是全文檢索缺少的。甚至在自動索引和關鍵字檢索的時期,控制詞彙大大提供了檢索結果的改進和減輕使用者控制同義詞和同形異義詞的責任。多年來,Elaine Svenonius提出藉由將責任放置在編索引的人身上而不是使用者身上,使用控制詞彙可以得到更相關的資料(Svenonius 1986 ; Svenonius 2000)。最近,David Batty對於在網路環境中控制詞彙的功用進行類似的觀察:“資訊儲存和檢索的責任是可以轉移的,從作者,到索引語言設計者,到檢索者,到使用者,它甚至可以被分配為不同比例,但是它將不會消失” (Batty 1998)。

控制詞彙不可能取代關鍵字檢索,但是可以用來做為關鍵字檢索的補充以提升檢索結果。控制詞彙的基本功能,即透過同義詞控制和詞間關係以獲得更好的回收率,以及透過同形異義字的控制得到更大的精確率,即使系統能夠負擔關鍵字檢索,控制詞彙也不會被完全取代。由於這個結果,ALCTS的Metadata與主題分析委員會建議將關鍵字與控制字彙結合使用於網路資源中的metadata資料(ALCTS 1999a)。

一開始,標題表和索引典是編目者和索引者選擇適當索引詞的輔助工具。後來,他們也被用於幫助檢索,尤其是用在線上的系統。以metadata格式著錄的控制詞彙習慣上被用來作為讀者資訊需求與文獻間的比對。標題表和敘述詞,伴隨著同義詞和相關詞,則促使檢索者能在檢索詞與指定索引詞間得到精確的比對。使用者輸入詞到控制詞彙的人工比對–例如,查詢索引典來辨識適當的檢索詞–是一個乏味的過程,且從未被終端使用者廣泛地接受。隨著線上索引典的出現,允許使用者在檢索過程中瀏覽、選擇控制詞彙,大幅加速了比對成效,控制詞彙也因此成為檢索者語言和作者語言之間的橋樑。

即便是自然語言查詢和全文檢索,關鍵字也可作由控制詞彙“借來”的詞補足,以改進檢索成效。參與TREC (the Text Retrieval Conference) 這個大規模跨系統搜索引擎評鑑計畫的參與研究人員,已經發現“the amount of improvement in recall and precision which we could attribute to NLP [natural language processing] appeared to be related to the type and length of the initial search request. Longer, more detailed topic statements responded well to LMI [linguistically motivated indexing], while terse one-sentence search directives showed little improvement” (Strzalkowski et al. 2000)。因為用控制詞彙來建造詞彙關係,檢索系統能將原先的檢索問題自動擴展到包含相等的條件,後組合(post-up)、找到往下的階層的有關條件,或建議相關詞彙。用戶通常輸入簡單的自然語言詞彙(Drabenstott,2000),這可能或可能無法與作者使用的語言相配。當檢索者的關鍵字對照到控制的詞彙時,可能產生同義詞和同形異義詞控制的能力,也可能改變檢索者的詞彙(Bates,1998)。而且,內建的控制詞彙也會建議其它的檢索詞彙並且幫助用戶更有效地集中他們的檢索。這樣一來,控制詞彙就變成查詢擴展的工具。它?能用來補充未受控制的詞彙和字典、辭典的定義詞,控制詞彙富有同義詞,但是經常缺乏相關詞。在檢索模型的向量和機率中,相較於依靠檢索者輸入的少數「關鍵詞」,合併使用有差異和相關的詞常得到比較好的檢索結果。相等和相關詞在查詢中彼此提供文意,從控制詞彙來的額外檢索詞也能改善檢索項目的排序結果。

分類和主題分類

分類在傳統的知識組織上主要被美國圖書館用作安排與瀏覽書架位置的組織工具,也經常作為館藏管理的工具,例如:用於幫助設立分館,或用於採購或者館藏(holdings lists)專門訓練的年代。在OPAC裡,分類可由下分類號取得MARC紀錄的方式,而變成書目的功能。繼續使用分類號作為存取點, 關於詮釋資料和主題分析的ALCTS小組委員會建議這個功能可以延伸到其他型態的matadata紀錄,從現有的分類架構包含分類號,但是不一定使用其項目號(item numbers)(ALCTS,1999a)。

除了存取功能之外,分類的角色已經被擴大到主題瀏覽和航行於網路檢索的工具。在它的為組織metadata使用分類設備的研究過程中,關於metadata和分類的ALCTS 小組委員會已經確定分類的七個功能︰標出位置,瀏覽,階層移動,檢索,確認,限制/劃分,以及顯示特徵(ALCTS 1999)。

隨著網路資源快速成長,巨量的網路資訊亟需被組織。當主題分類(categorization)變成網路資訊提供者的新寵兒,他們(主題分類)跟分類規則(classification schemes)相似,只是他們缺乏較嚴謹的階層式架構和概念性組織。許多圖書館入口,剛開始從有限的電子資源收藏開始,提供關鍵字搜尋、按字母列表,也因為廣大的電子資源而發展了主題分類(Waldhart et al. 2000)。一些主題分類系統奠定在現存的分類體系之上,例如網路公共圖書館線上文件收藏,是根據杜威十進分類表;CyberStacks (sm)是根據國會圖書分類表(McKienan 2000),其他的則表現一般性變化規則(?)(others represent home-made varieties)。 主題分類在詞類搜尋中定義了更精確的範圍,使得執行起來更有效率、有更多相關的結果。主題目錄與詞類搜尋的結合在資源探索和資料探勘方面,顯現出更有用有效的方法。以此看來,分類或是主題分類功能像是資訊過濾,用來有效排除一個搜尋問題在資料庫中得到的絕大部分資料(Korfhage 1997)。

近來主題存取系統(Subject Access Systems)的研究

在我們探索傳統主題存取工具的未來發展潛在方向之前,讓我們也來檢驗一些近代研究成果,和現在及未來主題索引和存取方法的應用。已經有很多的文獻記載這些研究。在主題存取工具面,我覺得重要的三個實驗/試驗領域是自動索引(automatic indexing)、對照不同來源的詞與文件(mapping terms and data from different sources),以及整合不同主題存取工具(integrating different subject access tools)。

自動索引(automatic indexing)

在幾十年前,資訊儲存與檢索領域中最重要的研究聚焦在自動索引。從1970年代開始努力,多種技術包括詞重(term weighing)、文件的數據分析(statistic analysis of text)、以及計算機語言學(computational linguistics),已經發展並被應用。愈多近來的範例,包括OCLC的Scorpion計劃,它是用自動的方法去執行主題辨識(subject recognition)、與產生電子資源的機器指定DDC號碼(machine-assigned DDC numbers)(Shafer 1997)。另一個OCLC的計劃叫WordSmith (Godby and Reighart 1998),運用計算機語言去執行一系列數據過濾(statistical filters)、並詳細研究從原始文件把主題式專門術語選取出來的可行性。這個計劃的一個延伸叫做Extended WordSmith,它是運用索引典詞彙自動產生的技術。在更實際應用面,最近LEXI/NEXIS SmartIndexing Technology的運用是結合控制詞彙的特性和一索引方程式(indexing algorithm),去達到相關度分數或百分比,這分數或百分比是依據詞出現的頻率、重量和出現在LEXIS/NEXIS新聞文件中之位置的標準來訂定的。

對應不同來源的詞與文件(mapping terms and data from different sources)

對應自然語言的表達是已經被開發並看好(?)(hold great promise)的領域,而這種表達代表的意義是由後端使用者搜尋的問題和自動粹取出的索引詞,轉換到更有結構性的主題式語言(Svenonius 2000)。一個較近期的範例是加州柏克萊大學的「Entry Vocabulary Modules」計劃,他們詳細探究對應「原本語言問題」(ordinary language queries)與索引詞彙的可能性,而那些索引詞彙是基於使用者不熟的詮釋資料主題字彙,像是分類號、主要標目、和從各個主題(subject-)字彙或特定範圍(specific- domain)字彙的描述。 (Buckland et al. 1999).

另一方面(On another front),多數的努力將焦點放在自不同字彙來源來對應主題資料,包括從全文粹取出的自然語言詞(free-text terms)、控制詞彙、分類資料(classification data)和姓名權威資料(name authority data)。因為網路環境是開放與多樣的,用來做資源描述與主題存取的多種工具經常被同時使用。在開放的環境中,在同一個系統裡使用多種控制詞彙是普遍的。不同詞彙間的調和,就類似於不同metadata 架構間的對照(crosswalks)一樣,是個重要的議題。在World Wide Web出現之前,自多種索引典來對應主題詞就是一個極大被感興趣與關注的主題。例子之一是Carol Mandel為了解決在同一個線上系統中使用多種詞彙所產生的問題而做的研究(Mandel 1987)。在生物醫學(biomedical)詞彙上已經有很多的進展。「統一醫學語言系統」(Unified Medical Language System)(UMLS)泛索引典(Metathesaurus)最近從超過50種的生物醫學詞彙來對應生物醫學詞,其中有些是多種語言(Nelson 1999; National Library of Medicine 2000)。目前仍缺乏涵蓋所有主題的一般性泛索引典(Metathesaurus)。在圖書館脈絡之外,也有人致力於從不同來源對應索引詞。例子之一是WILSONLINE's OmniFile,是來自於將六個H.W. Wilson的索引中的索引詞整合成一個索引檔。

從更廣的規模來說,從不同語言來源而來的索引也必須是可以共同使用的。不同語言控制詞彙之對應在國際社群中尤其是被極度感興趣的議題。「多語言存取主題」MACS(Multilingual ACcess to Subject),是一個目前正在進行中的國際計劃,包括瑞士、德國、法國與英國的國家圖書館,他們嘗試用三種不同的語言來連結主題權威檔:Schlagwortnormdatei(SWD,德語)、RAMEAU(法語)以及國會圖書館標題表(英語)(Landry 2000)。

在標題與分類號間做對應不是新的。過去的努力已經主要聚焦於促進主題分類與索引。例子包括有LCC分類號與國會圖書館標題表(LCSH)中標題的連結,以及在席爾斯標題表(Sears)中包含縮減的DDC分類號。最近,已經有人努力將DDC分類號與LCSH做對應(Vizine-Goetz 1998)。OCLC稍早提出的WordSmith計劃證實了主題詞可以被定義並且從原始全文中自動被粹取出來,同時可以與已經存在的分類架構如DDC相對應(Godby and Reighart 1998)。Diane Vizine-Goetz具體說明WordSmith研究計劃的結果與ExTended概念樹(Concept Trees)如何同時被用來增強DDC(Vizine-Goetz 1997)。相同的技巧應該也可以應用在LCC上。隨著CORC(網路資源合作編目)計劃的實施,許多OCLC研究計劃的成果實際上已經被集中。實際上的應用包括在metadata紀錄中自動產生主題資料與DDC分類號。CORC最重要的且能產生最大效益的特色是能夠將由分類者或索引者輸入或從網站自動產生的姓名、主題詞、片語對應到主題權威檔和姓名權威檔中的款目。

整合不同主題存取工具

在人工環境中,標題和分類系統彼此是更加或者更少地被分離使用。科技提供整合不同種類工具的可能性,來提昇檢索結果同時增進主題分類與索引。整合分類與控制詞彙有相當大的潛力。有許多研究計劃正在進行,其中有些設計(designs)已經被測試。例如,Karen Markey的計劃在線上系統中將杜威十進分類法與主題檢索合併作為一檢索工具(Markey 1986)。她的研究建立在AUDACIOUS,AUDACIOUS是一個稍早的計劃,它使用UDC當作核子科學文獻的索引語言(Freeman and Atherton 1968)。

Ray Larson在一個名為Cheshire的系統中,使用了一個名為〝分類叢集(classification clustering)〞的方法,結合了機率檢索技術, 以改進在OPAC中的主題檢索功能。從美國國會(LC)認定索書號和使用機率順序(probabilistic ranking)及衡量機制(weighting mechanisms)開始,Larson指出,分類號(class numbers)與主題詞(subject terms)的結合使得文獻標題以及標題(subject headings)在機讀編目格式(MARC)記錄中,可能提高檢索點(access points)的檢索以及大大增進檢索結果。整合各種不同類型的存取方法是意義非凡的,如同Larson的觀察:〝機讀編目格式(MARC)記錄中的主題檢索點被使用在線上目錄(online catalogs),像是分類號(classification numbers)、標題(subject headings)以及題名關鍵字(title keywords),通常被用來探討在搜尋中是否能夠完全的分辨其中的區隔性。而分類叢集(classification clustering)的方法對資料庫內容(database contents)是其中可以有效結合這些不同線索(clues)的方式之一(Larson 1991)。

在網路環境裡的傳統工具

相近於概念主題檢索(subject access)已經被用來探究關於網路面貌(web landscape)與檢索模型。在這樣的背景之下,可能提出的問題是:如何充分地能夠使現行的主題檢索(subject access)工具能夠達到網路資源(network resources)的需求?更加具體的是,如何適當的在網路環境中將傳統工具,例如國會標題表(LCSH)、國會分類法(LCC)和杜威分類法(DDC),能夠接受在主題檢索上有效率(effective)及效能(efficient)的挑戰?

國會標題表

在注意具體的國會標題表(LCSH)上,一個基本的問題是在於新的控制詞彙(controlled vocabulary)應該要被架構成更能適合電子資源的需求。ALCTS委員會在詮釋資料(mMetadata)及主題分析(Subject Analysis)上商議這個問題及調查選擇連結主題詞彙(subject vocabulary)作為詮釋資料記錄(metadata records)。在考慮選擇開發新詞彙或採用、改寫一個或更多現有的詞彙以後,該委員會建議選擇後者(ALCTS 1999a)。一般的控制詞彙涵蓋所有主題範圍,該委員會建議使用國會標題表(LCSH)或是Sears標題表,修改或不修改皆可。保留國會標題表(LCSH)的原因是:(1) 國會標題表(LCSH)是一個豐富的詞彙表包含了所有的主題範圍,無疑的為英語中最大的一般性索引詞彙(indexing vocabulary); (2) 有同義詞和同形異義詞的控制;(3) 它在字詞(terms)中包含豐富的連結性(交互參照指引關係); (4) 它是前組合系統可以確保檢索中的檢準率(precision); (5) 它促進瀏覽多概念或多層面的主題;並且,(6)藉由世界各國的翻譯或適應以做為發展主題表系統的模型,國會標題表(LCSH)事實上是一個完整的控制詞彙。另外,還有其它重要的優點。在詮釋資料記錄(metadata records)中保留國會標題表(LCSH)作為主題資料,準備根據各種不同的標準,能確保語意(semantic)能夠在儲存龐大的機讀編目格式(MARC)記錄與詮釋資料(metadate)記錄間溝通。

當國會標題表(LCSH)的詞彙或是語意,有不少貢獻在網路資源的管理和檢索時,對於一般應用的方法就有某些限制了:(1) 由於它複雜的語法(syntax)和應用標準,分配國會標題表,並根據目前的國會圖書館(LC)政策要求訓練員工;(2) 標題表列(subject headings strings)在書目或詮釋資料(metadata)記錄的維護是很昂貴的;(3) 國會標題表(LCSH),以它目前的形式與應用,無法在語法上與多數控制詞彙兼容,並且,(4) 它不順應那些不屬於OPAC環境下的搜尋引擎,尤其是現在的網路(Web)搜尋引擎。這些限制意味著應用國會標題表(LCSH)是理所當然的事,以當前的政策與程序需要以下要求:

  • 受過訓練的編目人員與索引人員rs
  • 系統需有瀏覽索引的能
  • 系統要有線上索引典顯示
  • 有經驗的使用者(Drabenstott 1999)

在網路化的環境裡,這樣的情況通常不普遍。對於LCSH應該採取什麼樣的方向和步驟以克服這些限制,並保留傳統角色的優點以及其他方面的運用呢?考慮到LCSH在網路環境的生存能力,ALCTS小組委員會在詮釋資料和主題分析方面建議分別注重語意和相關的應用語法;換句話說,要區別字彙(LCSH的入口語詞)和索引系統(LCSH如何應用在特殊實作上)

這項建議牽涉到許多重要觀念需要複習。語意和語法是控制字彙兩個很重要的觀念。語意注重的是字彙的來源,例如:什麼字彙應該出現在語詞表(ex.索引典或標題表),語詞表涵蓋建置索引詞彙或搜尋敘述句這個區塊。包括語詞表收錄的範圍與深度,收錄字彙的選擇,字彙的呈現格式,同義字和同形異義字的控制,以及連接詞(交互參照)的策略。語意應該利用定義良好的字彙架構原則加以管理。 語法的核心概念在於複雜主題的呈現,透過詞語間的組合或結合來呈現一個主題的不同子題或不同面向(定義為擁有共同特徵的類似概念(Batty 1998))。語法有兩個概念:詞語建置和應用與法。詞語建置,例如,單字在索引典中如何連結以表達概念,這牽涉到語意方面的重要原則;而應用與法,例如,索引典的詞語如何連結以表達詮釋資料記錄文件中的內容,這是個重要的策略,決定於實際因素的考量,例如使用者需求、可利用的資源、搜尋引擎和系統性能。

列表(Enumeration)(例如在索引典中先前建立複合概念的索引詞語之列表)和分析面向(例如在特殊範疇裡有共同特徵的單一概念或單一面向的分別列表)是詞語建置的考量觀點,並加上前組合和後組合的相關應用與法。詞語的結合會出現在資訊儲存與檢索過程中的三階段之ㄧ: (1)字彙建檔時 (2) 編製索引或目錄時;或是 (3)在檢索的階段時. 在索引典建置時,當單字與片語呈現了一個主題的不同子題或多種面向時為前組合時,我們稱這個過程為列表(Enumeration)。當詞語的結合發生在編製索引或目錄的階段時,我們稱此作法為前組合。相對的,後組合是指詞語的結合產生在檢索階段時。一個完全列舉式的字彙被定義為前組合的。換句話說,單一面向的控制字彙–例如,一個系統提供在多種類或多面向裡被清楚定義的獨立詞語– 可用前組合或後組合的方式加以應用。單一面向的設計從此將更有彈性。有一個明確的例子,PRECIS是前組合的系統(之前用在英國國家書目系統). 另一個例子是國際主題環境系統(USE:Univeral Subject Environment),由William E. Studwell所提出,此系統包括多面向的多個詞語,也使用特殊的標點符號識別多面向的指標(Studwell 2000)。換句話說,目前運用索引系統在摘要和索引服務方面來做控制字彙就是典型的後組合。不管是用前組合或後組合方式在特殊的實作上,都是政策或特定代理商的問題。在接下來的章節,我們會將焦點集中在語意和詞語的建置方面。

由於不同的檢索技術適用在不同的搜尋環境和不同的使用者群上,一個足夠彈性的字彙可被用在前組合或後組合的方式是最可行的。一個多面向的設計會考慮到不同的應用語法,從最複雜的(例如,在OPACs裡典型的完全字串(full-string)技術)到最簡單的(descriptor-like terms used in most indexes)也可以允許不同程度的複雜化。一個多面向的控制字彙的好處大致如下:

simple in structure 簡單的結構

flexible in application (i.e., able to accommodate a tiered approach to allow different levels of subject representation) 富有彈性的應用(例如:可以提供一個階層式的步驟來呈現物件不同階層的表徵)

amenable to software applications (Batty 1998) 對應用軟體經得起考驗(Batty 1998)

amenable to computer-assisted indexing and validation 對電腦輔助的索引與法律效力經得起考驗

interoperable with the majority of modern indexing vocabularies 與絕大多數現代索引字彙可互通的

easier and more economical to maintain than an enumerated vocabulary 較列舉的字彙更容易也更經濟地沿用

在最後一點關於有效的thesaurus主張,Batty 評論道:「面相(facet)的程序有許多優點。將專有名詞組織進入更小而相關聯的集合,每個專有名詞的集合可以被更容易有效地依照一貫性,次序,階級排列關係,與其他集合關係,還有使用在此專有名詞的語言接受度來做檢查。面相的步驟也同樣地有用,特別是在與其他新專有名詞及新關係中的彈性表現上。因為每一個片面都是獨立的,在任何時候都可以輕易地在片面中做改變,而不會搞亂其餘部分的thesaurus。」(Batty 1998)。因此,一個片面的LCSH將會更容易來保持。依現有的LCSH,更新專有名詞有時候是個沉悶的工作。例如,當標題”Moving-pictures”在1987年被” Motion pictures”替換時,近400個權威黨都被影響!(El-Hoshy 1998)。

片面化的LCSH一點都不是什麼新玩意兒。早期的擁護者,包括有Pauline A. Cochrane (1986)和Mary Dykstra (1988)。為了能在網路環境發展,像是LCSH這樣的控制詞彙,必須要能容納先前提到的不同檢索模式及不同的應用方針。OPAC之外,大多數的搜尋引擎,包括許多在圖書館網路資源所使用的入口(portals),都缺少包含全線(full-string)瀏覽及檢索的能力。即使在系統間能處理全線(full strings),它們複雜的程度和能力也都不同。透過面向的字彙,再也不用在要之前或要之後做一致化全線應用中做取捨, 而是進一步的問題是,LCSH如何去包含這之中的所有不同點,來確保在應用的專有名詞有最大的彈性及可攀性。LCSH全線執行的機制已經適當了;例如,在OPAC的環境,有高度訓練的人員及有搜尋與瀏覽能力的積體系統,全線的語法已經在MARC紀錄中用來創造標題很久了。在OPAC外不同成分組成的環境中,我們需要一個更有彈性的系統來相容不同的應用。LCSH可以是這樣的ㄧ個工具,它的使用可以被延伸成不同metadata的標準並有不同的編碼設計。對於LCSH可行性的研究及實驗已經開始了。FAST (Faceted Application of Subject Terminology),一個OCLC目前的研究計畫,用LCSH作為源(source)字彙,在探索利用分離時間、空間、及從標題線資料,來做”之後一致性”(postcoordinate)的方法的可能性與可行性。(Chan et al. in press)

現在我們遇到一個問題,在網路環境中做為一個可行的系統,LCSH的定位會在哪裡。在19世紀末,LCSH開始於一個列舉式的結構。它漸漸地呈現出ㄧ些面向系統的特性,特別是在分支的一般使用及增加中的地理學分支的使用的採納方面。在20世紀的後半,LCSH在更嚴格的面向使用方向上前進了一大步。在1974年,美國國會圖書館利用標出大量且經常被使用的論題與“free-floating”的分支,因而允許十分具有彈性的應用,並在擴展分支的ㄧ般應用上往前跳了一大步。在第11版(1988)BT、NT、RT 的採用,促使LCSH與索引典的執行(thesaural practice)更一致。在1991年的Subject Subdivisions Conference 之後(The Future of Subdivisions, 1992),國會圖書館開始從事一個計畫,要使得許多主題式的分支(topical subdivisions)轉換為主題式的標題(topical main headings)。最後,在1999年,從MARC中6xx分支而來的副欄位(subfield) $v 的實行,做出了格式(form)與主題式分支(topical subdivisions)之間的區別,LCSH也更進一步的變為一個面向的系統。

就美國國會圖書館所掌管的這幾年的逐步發展來看,即使是一個對美國國會標題表沿革不熟悉的人,也能邏輯性地推論出它是一個朝向全面向詞彙管理發展中的標題表。它雖尚未達成,但更進一步的成果是美國國會標題表能成為在異質環境中發揮作用的通用系統,並且能夠處理在支援維護語意間互通性的多樣化使用上有一致的基礎。

一個具多面向的美國國會標題表在索引典的發展與管理、索引法以及檢索領域中有許多可能的運用。如之前所述,提高控制詞彙的群組互通性,一個通用的泛索引典(metathesaurus)能包含所有的主題即是最理想的(ALCTS 1999a)。這不是一個平凡的工作,但首要的問題是圖書館與資訊專業必須認同它是值得推行的。美國國會標題表具有豐富的詞彙,在英文語言中也是最具規模的,能提供泛索引典(metathesaurus)的基礎或核心。

從不同的觀點來看,美國國會標題表也能被使用在產生主題或特定學科的控制詞彙,或者專門領域的索引典。AC標題表(之前的兒童文學標題表)樹立先例。其他的例子包括由Bates(1989)所提出的大規模的超索引典(superthesaurus),具有在OPAC友善使用者前端介面中的豐富標目詞彙。當許多如工程、藝術、生物醫學科學等主題領域與學科擁有它們自己的控制詞彙的同時,許多專門領域與非圖書館機構仍然缺乏它們。這包含了營利與非營利組織、政府部門、歷史上的一些團體、專門性質的博物館、顧問公司、時尚設計公司等。這當中有許多是依靠他們自己的管理者或研究者,且大部份都未接受過書目控制訓練,就負責去組織網際網路資源。有一個完整的標題取用詞彙提供制訂與建置,將對他們發展專門索引典有非常大的幫助。

在美國國會標題表進一步朝向一個多面向詞彙的發展上,如果有一個指示可以被遵循,則更能被作用於它的語意上。在個別的關係方面則需要近一步詳查與反覆思考關於選詞規則、提升標目詞彙、精確的詞彙關係,以及個別的詞彙架構。

美國國會圖書分類法與杜威十進分類法

最近幾年,在OCLC研究辦公室的支持下,杜威十進分類法已經向網路環境的整合邁進了一大步,並成為組織電子資源的有效工具。舉例來說,最近發展出來的WebDewey,除了針對杜威十進分類法/美國國會標題表的對映特性率先發展於杜威十進分類法的視窗版,也有一個針對在詮釋資料(metadata)記錄創造出的候選DDC號碼而產生的自動分類工具。這多少使得美國國會圖書分類法能持續下去,因為大部頭的目錄最近已被轉換成機讀格式了。讓我們祈盼美國國會圖書館能將注意力放在不只使LCC成為圖書館書庫的有效工具,而是也能成為網路資源的組織工具。結果與看法是從DDC的網站應用經驗與實際執行中所獲得,而其他分類表應能適用如LCC一樣。

現在的分類表在對網站資源的主題分類方法的使用上,已經被採用或整合到一個限度的範圍。例如包括DDC的Netfirst與CyberDewey的整合,以及LCC的網路資源服務計劃(Cyberstacks)綱要。在個別不同的作用中,現存的分類法需要更大的彈性以及更注意到它們的架構。在分類法的整合上要能從項目排列配置的層級與變化性掌握更深入的彈性。這種深度的多樣化需要從不斷的應用中取得。作為一個排架和書目排列的工具,必需具有深度的分類法,就如DDC與LCC過去成長的痕跡。一個瀏覽工具的特質是藉由在一般網站目錄中運用主題分類方法,含蓋範圍廣泛的分類表才能夠勝任此一工作。 所需要的是將重心放在創造專門主題領域的分類結構,且要有深度的彈性與可順從的權威。深度上的彈性一直是DDC與UDC的特徵,藉由縮版的、媒體以及全文,以符合學校、出版以及研究型圖書館不同的需要。LCC尚未有例子證明這個彈性度。這是個值得探索的區塊(深度上的彈性部份)。

文獻保證原則,以一個在可描述或組織之資源的本質與範圍裡發展的分類表或系統為例,其在網路環境中的運作與紙本環境是一樣。在許多網路資訊服務中所使用的主題分類表發展,像是Yahoo!和Northern Light (Ward 1999)就跟許多的圖書館入口網站是一樣的,我們經常目擊這些發展從簡單的,附著於框架的設計逐漸延伸到精巧的結構-大部分是早期主題分類表發展的鏡像。彈性對主題蒐集上的排列也是有幫助的,即使是同樣的主題排列也可以因為不同的主要使用者而依不同的次序被安排或重新安排。舉例來說,在NetFirst中的主題分類設計使用的是DDC的結構,但是也需將這些主題分類的安排修正為適合NetFirst的主要使用者。(Vizine-Goetz 1997).

觀察近來在網路上的「相似主題分類」(classification-like)結構之使用以及在研究與實務中曲折的主題分類原則之重新發明與重新發現過程中(Soergel 1999a),看見了一個對「廣泛/一般」(broad/general) (covering all subjects) 與「相近/詳細」(close/detailed)(subject- or domain-specific)主題分類表的需求。在一般圖書館的入口網址,從學校與公共圖書館到包含許多主題領域的大型學術圖書館的範圍,需要的是一個「由上而下」(top-down)方式且可改變深度的分類表,由最廣大範圍的層次開始然後移動下來到所需的較為狹窄之主題範圍。另一方面來說,服務專門客戶群的入口網址常常需要更詳細的專門主題分類表。這些分類表經常需要一個「由下而上」(bottom-up)的方式,由蒐集專注於一個特別主題或任務的文件並定義主題開始。如何將這些主題組織成一個有條理的結構通常對那些沒有受過知識組織技巧與原則訓練的人來說是種障礙。圖書館與資訊專業對此將有所貢獻。依著專門學科(美術、教育、人類環境科學、數學、工程),工業(能源、製造、娛樂),消費為導向(汽車、旅遊、運動)以及議題(環境、年齡、青少年犯罪)所建立之主題分類系統(taxonomy)可以服務多元的使用者社群,從專門圖書館到公司或企業資訊中心到個人的資訊收集。

對於組織專門領域與主題的分類表,我建議一個模式。就是我前面所提過的,建立一個專門目地為主的索引典,LCSH可以當作字彙來源,而DDC或LCC可以使用來定義與抽取和專門主題領域相關的字彙且可以提供內部的階層結構。在一個特別目地的分類表裡,需要更細節的東西,字彙可以依需求被增加到基本結構中,這樣一來可以使專門的主題分類表成為主要結構與字彙的擴展與延伸。將字詞彙視為一個節點的觀點來發展模式,甚至在一個非常廣大的範圍,這些節點要適合meta-schemes的所有分類結構,像是DDC與LCC一樣,可以長久使用且保證未來的互通性。

像之前所提過的,為了促使資訊儲存與檢索,以控制主題詞彙為目地的主題分類(classification)之合併與整合有著很大的潛力,因為它們可以互相補充不足。一個主詞標題或敘述語(descriptor)呈現了一個由所有觀點探討而來的特別主題,而主題分類收集了從相同觀點所觀察到的相關聯主題。傳統來說,每個標題或分類均表現了本身主題的特性功能且在個別獨立方面對資訊組織與檢索或多或少有所貢獻。總而言之,它們都有改善效率與效度的潛力。分類表在設計方面要簡單且具邏輯性,可使彼此之間有效地互通。如何結合一個有豐富字彙之特性的控制主題詞彙工具,像是LCSH,以及有主題分類表中的結構式階層的控制詞彙工具,像是LCC與DDC,來改進網路資源的檢索,仍然是一個待研究與探索的肥沃領域。

結論(xxc)

我們需要透過知識管理的效能以管理大量的網路資源。 當然,我們也要兼顧(網路資源的)品質與一致性。 內容表徵結構與系統設計必須互相配合;結合了才智與科技,利用人類心智與機械的能力。科技已經提供了一個創造大量資訊的動力;也提供了能有效與經濟的管理與檢索能力。在人類智能與科學技術中保持適當的均衡,可以同時保持資訊服務的品質與效率,才能讓使用者在網路上取得最佳的資源。

終究,科技已經創造了許多幫助更有效管理的機制,與傳統工具的應用程式,如視窗版杜威(WebDewey),與ClassificationPlus 等等。這些都是進步的發展。在可見的未來,我們也許可以期待新的應用程式能幫助我們,將原本的事情作到更好更有效率,並且發揚光耀那些現在仍被忽視的既有主題編目工具。

翻譯詞彙對照

  • ALCTS (Association of Library Collections and Technical Services)
  • categorization = 主題分類
  • Metadata = 詮釋資料
  • metathesaurus = 泛索引典
  • OPAC =
  • superthesaurus = 超索引典
  • TREC (the Text Retrieval Conference)

file link - Google Schloar, XXC