An analysis of information seeking behaviors in index use / Jorgensen & Liddy (1994)

Citation - Jorgensen, C. & Liddy, E. D. (1994). An analysis of information seeking behaviors in index use, or opening Pandora's box. Proceedings of the 15th National Online Meeting.

Keyword - index, indexing, information behavior, information seeking, back-of-the-book index

Abstract - 本文介紹的研究計畫有兩大目的:(1)實徵的探究書後索引使用者行為,並延伸到對於那種印刷索引功能會影響使用者的搜尋行為;(2)在數位環境中檢驗這些功能的成效。此項研究的目的,在經由控制的使用者測試,找出在電子文本中索引的最佳功能設計方式。我們也提出了書面索引與電子索引的使用行為子集。我們提出一索引使用者行為的初步模型,與提出系統設計的建議。

研究方法

有三種實驗環境,一是只提供紙本索引,一是模擬紙本索引的電子介面,另一是純電子介面,可同時檢視索引與正文,或只檢視索引。

研究設計出一個按照標準的「優良索引」作為對照,另外提供了一些有「缺陷」的變數,用以檢驗的索引功能:

  1. A divided index (Name/Title & Subject) = 非混合索引
  2. No see/see also reference = 無參見索引
  3. An index with few concept words = 只有少數概念詞的索引

受測者需要在兩種環境中各回答三個問題。三個中的兩個是由研究者指定,而另一個由受測者自選。 實驗在自然環境下操作。其行為會以放聲思考(think-aloud protocols)方法被記錄下來,研究者也在旁觀察紀錄,同時有錄音。電子環境會記錄滑鼠點擊與切換頁面的時間長度。實驗結束後會進行測試後問卷。

研究結果

  • 紙本使用的滿意度高,但同時有很多檢索錯誤。
  • 使用者大部份自認為檢索成功。
  • 使用者對能提供能直接答案的索引感到滿意(即對照組索引)。
  • 但是,使用者常常檢索錯誤。主要的錯誤類別,有:過早停止了可以找到答案的檢索,對主標目與次標目、見/參見、索引註解等解讀困難( 佔36%的錯誤比例);無法找到正確標目(20.5%),以及一般的理解錯誤。使用者對標目詞彙使用的困難,包括了以形容詞或動詞查找索引款目。
  • 受測者對電子版索引的評價不如印刷版高。一方面是因為系統回應時間過長,但更重要的是受測者覺得電子版不像印刷板一樣容易進行檢索比較
  • 電子版並未出現更多的錯誤與理解困難。但瀏覽、檢索、與閱讀的時間都比較長。其中一項事實,就是受測者花更多的時間在捲動螢幕。
  • 在檢索策略方面。在各種版本與變數環境中,都使用了比較技巧。
  • 特別是比較索引與目次。在某些時候,受測者們會把索引頁「夾起來」,以同時比對索引與目次,決定最相關的內容會出現在哪一章,或確認內文的哪裡有最該找的資訊。這種「固定索引頁」的行為也在電子環境中出現,並因此產生許多次滑鼠點擊動作。

無參互見索引

對照組(優良索引)有許多參互見,而有一組測試組是使用無參互見的索引版本。 對照組的在受測者的主觀認知中滿意度最高,但是所完成任務的錯誤率也高。因為許多受測者都在找到正確答案的中途過早停止檢索,而產生索引失敗的結果。但是解讀時,也要注意到對照組的檢索速度也是最快的此一事實。

電子版的無參互見索引成功率評比與紙本相似,而檢索時間明顯較長。有趣的是,儘管受測者都很熟悉電腦與關鍵字檢索的知識,只有一個受測者使用「關鍵字檢索」。大部分的受測者選擇瀏覽掃描索引頁,並表示「沒有想到要用關鍵字檢索」。

在電子版與印刷版的無參互見索引中,有一些共同的錯誤種類,如:更難決定正確的款目(determining the correct entry point)、理解困難(problems with general comprehension)。 無參互見索引受測的受測者要花多五倍的時間瀏覽掃描索引頁。 在測試的索引中有許多同義字。

但是,在參互見的使用上,也會產生以下錯誤:

  • 以為 見/參見 是標目的一部份
  • 在不同的索引間翻看(Running separate references together)
  • 把後續的標目或次標目看成是 見/參見 的一部份
  • 因為找到的款目沒有頁碼而火大

許多人不了解見/參見結構,而對不停的翻動頁數覺得火大。

非混合索引 (divided indexes)

索引準則假定非混合的索引有助於並加快檢索工作。然而,非混合索引的危險是,檢索者也許不會發現到還有其他的索引。索引準則中建議使用指引標記、參見等引導使用者能發現其他類型的索引存在。因此問題的核心在於這些指引標記是否有效。 結果顯示:

  • 使用者通常不預期會有一份以上的索引;
  • 即使索引中提供了其他索引的指引標記,但是使用者仍然可能沒發現有其他索引存在;
  • 當受測者因為沒有看到第二份索引而沒有找到款目的時候,他會認為是索引本身沒有收錄此一款目;
  • 受測者不閱讀索引說明;
  • 往另一個索引找去,也不能保證檢索成功。

在紙本索引實驗中高達五成,電子版索引中高達九成的錯誤,是受測者根本沒有發現還有另外一份索引。 在索引滿意度與品質的評價上,這兩種類型的受測者(找到第二份與沒發現有第二份索引的)也有截然不同的差別。

有趣的是,在電子版中索引中,並不是所有的紙本隱喻(模擬紙本形式)都有很好的成效。受測者可以在「前面」找到目次,在「後面」找到索引。但是其他對紙本出版物形式的模仿效果並不成功。例如,有幾位受測者想要透過「參考書目」回答測試中,問及關於內文某個提及的作者的問題。「書目」的頁次並沒有列在目次表中,而雖然受測者都認為書目資訊應該會在書末,但是他們也不會試著去找看看。同樣,受測者也不會多翻翻後面的索引。受測者通常是因為翻索引翻過頭,才會發現還有另一份索引。

概念詞少的索引 (An index with few concept words)

提供概念詞彙索引,被視為是優良索引品質的特徵。編製好的索引需要特別專注於總括所有主要概念與要素。

結果顯示,對照組(概念詞較多的)索引會導致受測者產生較多的錯誤與較少的成功檢索。 在較少詞彙的索引中,受測者也受限於可用的檢索策略,也可能因為可用的詞較少,反而比較少出錯的空間。 相反的,對照組的受測者,在找到第一筆資訊的時候,即便只有部分的相關,他也就會以為找到了答案了,而停止檢索,反而因此被記為檢索錯誤。這類錯誤在所有的對照組形式中都有,也與問題類型無關。

對照組與測試組間的受測者滿意度相近。受測者不論面對的是較多概念詞彙的索引,或是較少概念詞彙的索引,都認為足以探索主題。這也表示受測者會透過索引中的概念來判斷書籍內文涵蓋的主題,同時也表示實際上有可能被索引誤導。 對照組(好索引)對索引的品質評價較高(也許是他們沒有注意到自己檢索的錯誤),在某些案例中,對照組(好索引)也有助於受測者探索主題與發現更多的資訊。

對電子版索引的普遍看法

  • 在瀏覽方面,受測者期望有一個像是紙本索引一樣方便的系統,不需要看到電子檢索功能。
  • 受測者常常希望能夠「折起(flip)」某些頁面。這指出了對書籤(page-marking)系統元件的需求。
  • 受測者希望能閱讀到相關的前段與後段,即前後文。這在紙本中比較容易。
  • 受測者透過索引款目附近的款目與次款目,決定是否要翻查到特定頁數。而關鍵字搜尋無法提供此種「字(word)」或「主題的」情境。

結論:即便電子版擁有其他進階的電子檢索技術,大部分使用者仍然較喜歡使用紙本索引。根據資料分析,這是兩個因素的結果:

  • 使用者較容易在紙本的索引上閱讀。因為受測者主觀的認為在紙本上他們才能「理解(know)」索引款目的意思、才能瀏覽、才能同時看許多列資料。
  • 紙本索引較容易使用,因為可以瀏覽(browse)、掃讀(scan),以進行比較與產生同義詞。而比較與同義詞產生,這兩種程序對於測驗中問題的解決至關重要。

討論

上述呈現的索引使用,並非一單純清楚的行為。索引中設計出有助於檢索的功能,實際上產生更複雜的效果,與使用著有著預期之外的互動。

此外,使用者的檢索策略是不可預期的。例如:

  • 檢索策略不必基於理性邏輯
  • 索引使用者可能是有創意的
  • 檢索者根據其內在知識發展檢索策略,以彌補索引本身的缺陷
  • 學習效應

一些根據索引編製者工作基礎的假定可能是不正確的:

  • 書後索引是大部分讀者能領會的直覺架構。
    研究顯示,許多使用者不熟悉許多索引上的設計功能,甚至有所疑惑。
  • 書後索引的使用者檢所取得資訊的方式類似專業索引編製者組織資訊的方式。
    實際上,索引編製者並不清楚使用者解決資訊檢索問題的方法。例如,索引編製者將頁碼視為一種直接查找工具,而編製規範建議限制每一個標目的頁碼數量;但是在研究中的使用者會將頁碼的數量當作主題出現過的次數。
  • Syndetic(連結的, 交互參照)與分類架構(classificatory structure)是顯示索引中概念關係的最重要的手段;格式是次重要的。
    本研究指出,格式在幫助索引使用上,至關重要。因為索引使用者通常依賴自己的內在知識與檢索策略,格式能幫助使用者更容易掃描與理解索引中的資訊。在這種目的性的考量下,索引編製者應該重新思考索引的編排與字型,以圖像傳播的角度思考其資訊傳播的效果。

建立資訊檢索模型

索引使用者在檢索索引時,會不斷改變其需求,並在檢索程序中根據其所見而修正行動、改變其焦點。使用者在索引檢索過程中的動態的、改變的行動看來與各種普遍資訊尋求(general information-seeking)程序以及問題解決(problem solving)程序有關。這些使用者聚焦的程序,結合成為一種更為抽象、非線性的資訊尋求模型。

此模型說明資訊檢索系統失敗的原因。資訊檢索系統通常只提供使用者有限模式的搜尋功能,而本研究認為使用者在搜尋的時候能夠進行更廣泛範圍的資訊檢索活動。這些限制,在紙本與電子版索引中,都不難發現:

  • 缺乏前次檢索結果的紀錄
  • 無法檢視線上反轉索引(?) The inability to view online inverted index
  • 無法決定主題的深度(?) The inability to determine the depth of subject treatment

所需做的,是回顧特定系統中檢驗使用者需求in a coherent way,並不只評估系統機制鎖提供的功能,也要注意更高層次的使用者概念需求(如比較、詞彙產生、評估),以及在系統機制上有哪些功能可以協助這些需求。

此一模型之前已經有研究者提出(Liddy ,1993)。在資訊尋求行為研究中也有類似的方法(9)。

以下簡要的列出11項在資料中觀察到的「使用者焦點(user focuses)」,希望能幫助系統設計者。

  • 理解(understanding):使用者的內在知識能理解問題。搜尋工作不但能提供特定問題的答案,也能夠促進(對問題)理解工作的進行。因此,使用者應該要有探索(exploration)工具。使用者在對資訊需求的理解改變時,可能會重新搜尋(re-search)。
  • 進入(enter):使用者需要找到一個能吻合知識結構與其對資訊需求理解的結構工具作為進入點(entrance),
  • (rely):使用者需要以內在知識,才能進行檢索,也通常引發使用者以創新或非預期的方式使用系統。
  • (orient):使用者需要了解各種文字物件的關係,或檢驗蒐尋路徑。
  • 產生(generate):產生檢索詞彙。可能透過很多種不同的方法達成,如瀏覽、產生同義詞等等。
  • 搜尋(search):透過比對程序(pattern-matching process),找出字、詞、概念的實體標定位置。
  • 評估(evaluate):進一步仔細檢視資訊。
  • 比較(compare):審視資訊間的相似性與差異性。使用者會應用許多不同的技巧。
  • (recognize/discard):使用者辨識資訊的有用性,並決定那些資訊是無用並可以捨棄的。
  • 檢驗(verify):確認找到的資訊是否滿足資訊需求、並且是否正確。
  • 滿足(satisfy):認為檢索工作成功。

Note

  • 這項研究進行的背景。一方面是受到資訊行為研究的影響,作者發現並沒有針對書後索引的各種功能設計,並沒有實徵的研究依據;另一方面,電子文本的發展正興起。
  • 使用者對數位式檢索環境與模式的熟悉度,可能會影響檢索行為與偏好。
  • 檢索成功的認定,值得進一步討論。因為有許多情況,特別是對照組方面,有許多受測者認為成功,而因為與預設答案不同,而被認定為檢索失敗。我認為,這是由於標準答案是「整份文本中的最佳答案」,而受測者並非在同樣的標準下進行檢索結果的有效性評估。假設受測者沒有完整讀過整個文本,只是利用索引找出相關的文字段落,要受測者評估完所有相關段落與前後文脈絡,進而找出「最」相關的段落,那麼檢索工作可能會變得十分龐大。特別當問題的概念十分模糊不具體的時候,檢索任務的效率可能反而不如直接閱讀本文。

Metadata