research:bob-indexing:cases:使用者導向資訊檢索

卜小蝶. (2006). 使用者導向資訊檢索

索引特徵 index features

詞彙不多。單一層次的混合索引。沒有中英文對照。主要是學術專有詞彙，有少部份的人名與企業產品名稱(多半是英文)。

由作者自己編製索引。事實上，不只有索引是作者自己編，整本書的撰寫與排版都是作者一人作業。出版社只剩下封面設計、申請isbn而已。

參與者 participants

受訪者：作者、排版者、索引編製者、校對者
出版社：編輯
印刷公司
學生：校對

工作流程 indexing process

研究歷程紀錄 research process note

錄音筆搞飛機。全部檔案沒了。訪談紀錄根據印象打出。

訪談紀錄

A: 卜小蝶 C: 訪談者

以往書後索引編製經驗
- 受訪者十年前編製過一本自己著作的書後索引，(圖書資訊檢索技術)。該次索引編製，是使用由當時在中研院的師丈，根據自動抽詞技術所開發的自動選詞程式，從word檔中自動選出關鍵詞組。但是，由於年代久遠，該程式已經找不到、或不堪使用，並沒有使用在今天新書的書後索引編製工作上。該程式除了stop words，並沒有使用任何詞庫，因此只單單靠統計判斷出關鍵詞組，並產生出該詞所在位置的頁碼，輸出成word檔。在輸出的word檔中，是一詞一個頁碼的形式。得到詞組word檔之後，受訪者再使用word，將關鍵詞組排序，以集中相同的款目，整理頁碼，並剃除不要的詞目。該程式只能選出2-4個詞長的詞目。
- 第二次就是這本書。
每一個個案，其索引工作的緣由與期望：
- 受訪者認為，學術的書籍應該都要作索引。而且由於作者自己最了解書裡面的內容，因此最適合作索引。(可再進一步澄清)
書後索引編製工作的學習與經驗：
- 受訪者在大學時念的就是圖資系，但是當時並沒有索引編製的課程。當時的課程，有中文編目、西文編目、中文參考資料、西文參考資料。參考資料的課程中，會接觸到各種索引的形式，但是主要的課程內容與要求，是學生知道有哪些索引資料可以使用，如何使用，以找到參考問題的答案，並非學習如何編製參考資料(索引)。當時並沒有索引摘要的課程。受訪者在編書後索引之前也沒有任何製作書後索引的經驗。
- 受訪者常常使用書後索引。主要是英文專書。因為「英文閱讀的速度比較慢」，大部分英文學術專書也都有索引。使用情境上，受訪者提到主要像是因為研究需要查詢相關概念的說明解釋，與相關文獻等等。受訪者也表示，在這種需求上，他比較少用到中文文獻。
- 受訪者舉一個實例。他需要找到最初提到 user warrant 概念的來源，並記得在何光國教授的「圖書館學理論基礎」中有提到。於是受訪者去找該書的書後索引，但是沒有收這個款目。因此只好一頁一頁瀏覽。
索引編製工作
- 工作地點：在家，在電腦前。
- 溝通：在學校有與出版社編輯作初次的直接面談。之後以電話與email聯絡。也有與印刷公司聯絡，以及與校對的學生聯絡。與印刷公司聯絡的情況，例如受訪者自己作樣書，需要跟印刷公司取得若干彩色印出的封面，然後在學校自己印出內文，請影印店膠裝，再自己用雙面膠黏上印刷公司提供的彩色封面，完全自己手工打造。
- 這一本書的索引編製工作。儘管受訪者表示還是希望能有程式可以幫忙選詞，但是由沒有程式可以用，所以只好自己動手。首先，受訪者自己印出本文的word檔。然後，一邊看紙本，一邊挑選出關鍵字款目與頁碼，打入excel檔中。在Excel檔中，有兩欄，一欄是關鍵詞，另一欄是所在頁碼。全部打完約半天，是一整個完整的時間，中間不間斷，下午，約2-3小時。之後再將這些「關鍵詞-頁碼組」依關鍵詞的筆劃與英文字母順序排序與合併(merge)。此排序與合併階段的工作比較累，也花時間，總共約兩到三天才完成。款目排序是使用Excel的排序功能，排序後，剔除不必要的款目。有以下情況會惕除，如：如果某一關鍵詞只有一個頁碼時，而這個關鍵詞但是又不是很重要的概念時，就會剔除。如果太過模糊不清(fuzzy)的款目，受訪者表示，這通常是受訪者(作者)自己也不太能掌握的概念，通常也不會有詳盡或正確的解釋與說明，受訪者不希望讀者會查詢這個關鍵詞，因此也會選擇剔除。當出現同義異字詞的情況，受訪者會選擇幾種作法：一種類似且相同位置的同義詞，會同時列出兩個關鍵詞，並保留各自的頁碼，也就是不進行任何處理，如clustering 與 cluster analysis；另一種，會將兩邊頁碼合併在同一款目下，指保留一個詞，而刪除另一個詞；第三種情況，如果兩個同義異字詞會出現在不同的地方，在頁面編排上並不鄰近，則會重複著錄兩邊的頁碼。同型異義詞的情況，在這本書中沒有沒有發現這樣的情況。受訪者認為，這是因為本書是比較專門的著作。作者自己希望詞彙要專指性(specific)。同樣的情況，如果有模糊性的詞彙，可能考慮擴張詞彙。模糊詞彙的發現，如在排序合併關鍵詞的時候，發現某詞的頁數很多，或是，一方面頁數很多，卻也有一些以這個詞為基礎的更具專指性的詞彙被選入，如「圖像檢索」、「圖像檢索功能」等等，此時受訪者會重新回頭檢視內文，將一些原本為「圖像檢索」的「關鍵詞-頁碼」組，修改為更具專指性的關鍵詞彙，如「圖像檢索設計」「圖像檢索xx」等等。另有一種情況是，受訪者發現某個關鍵詞的頁碼太少，根據受訪者自己寫作的經驗，認為這個詞不應該只有提到這麼少次，這時受訪者會再用Word的全文檢索的功能，查詢該詞彙出現的頁次，並把相關的頁次再加入索引檔中。
- 選詞的類型。本書的書後索引沒有選書名，人名只有部份而非所有出現過的人名都有選。主要是學術專有名詞與概念詞彙。選詞的規劃是在選詞前就已經先預定好的。
- 選詞的範圍，一開始認為只要選內文。在第一回編製工作時，有猶豫一下是否要選圖表標題內的詞彙，但是後來決定不選。因為在圖表目次中就有出現了，受訪者認為從讀者圖表目次中就可以找到，因此不需要作。在第二回編製工作時，又將標題內的詞彙納入。原因是，一開始受訪者認為在目次已經有出現這些概念詞彙，因此不需要重複作在書後索引裡面，但是修訂校對時，發現在沒有列入目次的標題中，有一些關鍵詞，而且出現在標題通常表示以下的段落都與這個關鍵詞概念相關，因此在第二回中又增選入許多在小標題中的關鍵詞。受訪者也納悶，為什麼第一次選詞的時候，幾乎都沒有看到在次標題中的概念詞，雖然那麼明顯，且數量還不少，但是完全沒有注意到。
- 不採用詞彙間的交叉連結，即，見\參見關係，與作一個層次，不做多層次的書後索引，是在選詞開始前就已經決定好的。受訪者認為書後索引不需要「分類」，作不同詞彙的索引(如，人名、書名)，與作有層次的書後索引，都是作分類。而書後索引是要讓使用者檢索內文中的關鍵詞彙，因此不需要再多作任何分類工作。
- 索引編製的時間與歷程：編製索引歷經三回的修正
  - 第一回：選出詞彙2-3小時。排序與整理2-3天。之後排版，列印，並逐條檢查索引與頁碼是否正確(天數不明)。
  - 第二回：請學生幫忙校對。一方面修改內容後，頁碼有所更動；另一方面，再修改過程中，發現有些詞應該要收錄，因此又在增加一些索引款目。此次增加主要是增加出現在標題部份的關鍵詞。
  - 第三回：將校訂稿送給出版社排版後，又發生頁數變動的情況。因此又再次修改頁碼。
編製工作的思考：
- 認為索引編製應該要具備詳盡性，與具體性。
- 這次的索引編製，受訪者覺得他有一種「希望讀者去查什麼，那些是書中提到的具體概念」的感覺，而不是那麼客觀的呈現書裡面有哪些關鍵詞彙。受訪者對於自己的這種作法並不是很有信心。
- 受訪者認為自己編製索引的方法不是很好。例如，應該先選標題；以及不要那麼早就開始選詞編索引，免得頁碼變動又要修改。
- 受訪者還是覺得，如果能有以前那個關鍵詞自動選詞工具會很好。
- 中文的相關詞彙會集中在一起，如「檢索xxx」、「索引xxx」、「圖像檢索xxx」等等。認為許多關鍵字的字首可以最為發展出更具體的長詞彙的關鍵。也許可以作為改善自動選詞程式的方法。

Note@XXC

User Tools

卜小蝶. (2006). 使用者導向資訊檢索

索引特徵 index features

參與者 participants

工作流程 indexing process

研究歷程紀錄 research process note

訪談紀錄