research:bob-indexing:thesis:motivation

研究動機(Research Motivation)

My Own Reading Experience

我曾經嘗試著在閱讀中，將字句逐句逐句的分析，試圖了解文本的意義。這是因為，我認為有些理論性與思想性的文本，本身擁有細密的邏輯存在；而另一個可能，是我讀到的很多劣譯本：這些譯本，往往用了非中文的語法結構，在語義上又有許多中文無法處理的詞性變化。偏偏對一個年輕的讀者：一個對這些概念，與對這些文本的異國/異時/異地的文化情境皆無所了解的一個讀者，我能作到的只能試圖藉由一字一句的分析了解，來了解文本的意義。心得是，經典文本的邏輯都很清楚，也很精要。幾乎每一句每個用語都有其意義。但是理解的前提是，要了解文本翻譯者每個一字詞的概念。

不過因為這樣子的閱讀，速度實在太緩慢。因此在習慣了某些領域的字詞語義或是翻譯風格以後，改變閱讀的方式。開始以段落為單位，試圖在段落中找出主要論述的命題，或是主要概念的關鍵字彙。這樣的字彙往往不會在我自己閱讀的中立即直接的浮現，而通常是在閱讀完之後，還要經過反覆的思考；自己提出問題，「這個段落在訴說的重點是什麼？」「這個段落與前後段落的邏輯關係是什麼？」透過這樣的反覆對自己提問，其實也加強對於文本的理解。

我也嘗試過各種標記某些看過段落的方法，以方便往後能更快找到特定文句或篇章。折頁，3M的條狀便利貼等等。最誇張的，有一段時間我還企圖用不同顏色的便利貼代表不同標記段落的大小：紅色代表一整章，橘色代表一節，黃色代表一段，等等。不過實在是太麻煩了，而且那個時候，我也不是研究生或是學術研究者，只是一個利用閒暇時間讀書的上班族。這種標記系統很快就被放棄了。

在這些笨方法與嘗試的經驗中，我也試過幾次一邊閱讀，一邊作索引。幫助理解是一個目的，另一個目的是我希望以後可以更方便找資料。最後的詞目會打在電子檔案上，透過網路程式，可以進行檢索。當然，最終我也沒作幾本。

不過，也是這個原因，我對書後索引開始有點興趣起來了。我的閱讀習慣通常不會乖乖的一本書從頭看完，而是會把相關主題書一起找出來。或者是，其實我只看不同書中特定主題的部份。所以，一本書有沒有提供書後索引，會有很大的差別。例如，一本後達6、7百頁的全彩西洋文學地圖之類，介紹西洋文化史的知識性出版物，不付書後索引，編輯是認為讀者買這本書是當小說，只會從第一頁讀到最後一頁嗎？

Indexing, Indexer

因此，我會開始想要瞭解，書後索引是怎麼被編製出來的。我可以單純的憑想像，就可以從成品反推一些書後索引的編製過程。只要不講究品質，經過短暫的指導或流程介紹，生手也可以編製出一份書後索引。這個層次的索引編製過程，可能就如同各個索引編製指引教材所演示的，是很容易瞭解了。但是，如果要瞭解一份「好」書後索引的編製過程，那便會將瞭解的難度推向另一個極端：因為好的索引編製，在索引編製者社群中，被認為是藝術性的。American Society of Indexers 從 1978 年開始，每年都會選出每年的最佳索引：Wilson Award[http://www.asindexing.org/site/WilsonAward.shtml] 。其評選過程，宛如坎城或是威尼斯影展。就像我們很難確切地掌握一個年度文學獎得主的書寫歷程；那是一種原創、靈感與內隱的歷程。即使是創作者自己，也許也難以重複一次自己的成功經驗。因此，生手與大師，這兩種極端的行為經驗不會成為深入瞭解的目標。在這兩者中間，「專業/職業」的索引編製者，是可以獲得豐富素材的瞭解對象。

瞭解索引編製，抑或是描繪此一行為現象，仍然需要某些「前理解」，或是描繪的基礎觀點。這會是一個這樣的問句：「索引編製本質上是一個什麼？」這似乎是一個應該要到研究的最後一章才應該被揭曉的最終結局。事實上，這是一個不怎麼容易回答的問題；甚至，而我也是到了研究的後段之後，才漸漸的越能夠看清且「提出」這樣的問題。但是這個問題的答案，並不適合在研究的最後才交待，因為這是一個本體論/認識論上的問題。亦即，這是一個認識基模上的假定。在方法論上，我很慶幸我能在研究中釐清出此點，以避免研究陷入自我詮釋與套套邏輯的循環。

我視索引編製工作為一個系統。「系統」是一個描述性的隱喻，一如理論可能提出「模式」、「程序」一般，都是研究者試圖描繪出所研究現象的一種替代物。「系統」象徵著研究者關注的是研究現象中所具有的「秩序」。此秩序可能是由部份決定整體，亦可能是由整體決定部份，或欲折衷調和地認為整體與部份兩方存在著互動的關係，目前皆不預設立場。因此，儘管 Dervin 與 Nilan 在 1986 年以提出資訊行為研究應該由系統取向轉向替代性典範，但是此處對「系統」的內涵並不相同，故此一對系統認識上的假定仍然是有效的。

釐清此假定後，有兩個值得一提的系統性理論，可以作為進一步的書後索引認識基模上的探討。即 R.S. Taylor 的「加值處理」，與 J. Searle 的「中文式論證」。此處提出這兩項理論，其用意在闡明研究者自己對「書後索引編製」此一研究對象的基本認識態度。相關研究的文獻探討在第二章中說明。

Taylor's Value-added process

首先，Robert S. Taylor 在1982年提出的「加值程序」，將人類對資訊的處理行為，視為在資訊服務系統中的「加值處理」工作。R.S. Taylor 是歷史學出身(謝焰盛, 1994)，同時，他也從事過寫作、記者、情報員等等工作；因此，他以一方面以歷史學家的眼光來觀察社會中的資訊與人類行為的運作關係，另一方面也重視人對資訊的各種行為類型：「我們有可用的系統。也就是說，這些天然混成專業技能與技術的系統，使各種情境中的人們得以聚集、運作、與提供資訊。(Robert S. Taylor, 1984)」

Taylor 認為這些資訊系統的目的是「增加訊息潛在的利用性」。因此，資訊系統即為一加值程序。系統對訊息經過不同程序處理而加值。此一系列加值程序稱為加值續譜(value-added spectrum)。在 Taylor 的定義下，圖書館即為一整個加值的資訊系統。而，摘要與索引，更被 Taylor 視為是「最密集、專注，與最被定義的清楚的資訊活動」。在美國國家科學基金會的資助下，Taylor 便以摘要索引服務作為其加值程序理論的主要實徵研究環境之一。

Taylor 進一步探討「價值」的所在，認為價值需在使用的脈絡中才得以存在，並不在訊息內容之內，也無法由訊息所承載。價值是由「使用者」根據其「可用性」決定的。這使得儘管 Taylor 宣稱其研究主題是資訊系統，仍然被認為是一個「使用者導向」或「使用者中心」的資訊行為研究者。因此，Taylor 的架構便為「資訊系統為人類做了什麼，以證明其所投入的成本是有效的？」這樣一個管理問題找出解答方向。他一方面描繪在資訊系統中的加值工作，另一方面將使用者對資訊的使用連結到這些加值工作上。

根據以上 Taylor 的見解，書後索引編製也能被視為一種加值的資訊服務與資訊處理程序，而其價值則取決於使用者對此訊息產品的可利用性。我們可能想像出類似經濟學上供需決定價格的「成本(資訊加值程序的投入)-價值(訊息的使用性)」曲線，以決定應該投入此資訊系統多少成本。但是，這是一個非常化簡的解釋性概念，可以用來作存在理想中的基本理解或啟發性概念，而並非實際上可應用此簡化的靜態模式決定管理上或是系統設計上的問題。有些明顯的困難很容易被指出：訊息的使用性是不固定的，動態的；加值的程序也同樣是動態的。這可能只是說明在估算上的複雜度與可行性的問題，更核心的問題可能存在於：加值工作與使用行為間的關係，這兩者在實際社會生活中存在許多互相影響的聯繫；如，加值工作者可能也是潛在使用者之一，或在社會認知方面，加值工作者對使用者潛在行為的想像，影響了訊息內涵，等等。

並且，書後索引編製的許多工作，是在編製者個人腦袋中運作的：一種認知上的心智活動。而 Taylor 此理論一直以來都關注在組織與資訊管理工作上，其實是適用於大規模的協同資訊工作。當然有的書後索引編製工作也是多人參與的，但是怎麼也不能忽略個人心智中的活動。因此，認知科學這方面的線索可以作為另一個認識基模的參考來源。

圖靈測試

認知科學一開始由心理學中發展出來。由於心理學中的行為主義學派的限制，學者發現認知心理學的研究更能有效的解釋心理現象與問題。同時，生物神經科學與腦科學、資訊理論與資訊歷程(information-processing)研究的成果，使得認知心理學的理論模型能與計算機資訊科學的應用檢證得到相乘的效果。這許多不同領域合作的結果，產生了認知科學此一新的研究領域。同時間發展的人工智能(artificial intelligence)研究，正好與認知科學研究形成互補的關係。一方面，人工智能研究能視為為認知科學研究理論提供可操作性的檢驗；另一方面，人工智能研究也將認知科學研究視為他們的「生物工程學逆向工程」來源。

在人工智能領域中，有個著名的「想像實驗」，被稱為圖靈測試(Turing test)。圖靈(Alan Turing)，被視為電腦之父，提出了一種概念：假設我們將人與機器掩蓋在布幕後，由其他人與布幕後的對象進行對話，如果我們無法分辨布幕後哪個是人哪個是機器的話，我們也無從斷定機器無法思考。而這部足以匹敵真人對話行為的機器，則被稱為圖靈機(Turing machine)。後來的研究者將這個判定，用作為判斷人工知能的標準。(Harnad, 1992)

如果只從圖靈機的角度，所有只涉及個人內部資訊行為與認知歷程的研究，都可以被視為是圖靈機中的邏輯或是智能程序或元件。亦即，圖靈機設定了一個「系統」，這個系統代表一個資訊輸入與輸出的功能的機制。對認知取向的資訊行為研究而言，其資訊行為研究所建立的模式，即，此一資訊歷程，如果符合認知科學典範的要求，也要能夠被應用到類似圖靈測試的想像情境中。也就是，假設，有一完全根據一資訊行為理論模式所建構成的機器(或電腦)，與一個真人放置於布幕後，並給定一特定的資訊工作予以測試，則其結果是否真能達到圖靈無法分辨性(Turing-indistinguishability)，藉以檢驗現有理論。

例如，如果研究者提出了一書後索引編製者的資訊行為模型，則此模型是否能達成「索引編製圖靈測試」的要求，讓我們輸入文本資料，而得到編排好的書後索引，並與真人所作的書後索引品質無從分辨。那麼此一索引資訊行為模式即是完全的形式化出索引編製者的資訊歷程與模式；不論是行為上與認知上的。這並非無法達到的工作，許多自動分類、自動主題索引的研究，實際上都在試圖達成此一目標；只是並不用到「圖靈測試」這一個名稱而已。而相關的資訊行為研究，也確實提供許多「人類行為逆向工程」的線索，以期能為自動化技術與演算法設計夠達成更好的結果。

中文室論證

然而，圖靈測試並不是全然無懈可擊。其中對圖靈測試與人工智能提出最有名的反論，就是由John Searle (1980)所提出的中文室論證(Chinese room argument)。Searle 一開始設計中文室實驗，為了反對強人工智能(Strong AI)主張，並進一步推翻圖靈測試的有效性。在 Searle的定義中，強AI主張三個命題：人類的心智是由程式所構成的；心智與腦器官無關；圖靈測試(Turing test)具有鑑別力。

因此，Searle 也模仿 Turing 的想像實驗，設計出中文室實驗：

假設，多年以後，我們有一部電腦而且我們相信它能瞭解中文，即，輸入中文到電腦後，根據某些規則，電腦能將中文轉換為另一個中文並輸出。假設，這一個中文的輸出能通過圖靈測試，即，另一個懂中文的人分不出來這是機器或是真人的回應。
接著，Searle 假設自己就坐在一個房間裡面。有人從門縫塞進一些中文字的紙片，然後他根據某份編碼規則書，將這些紙片上的中文轉寫成另一組中文，再將這些中文從門縫再塞回去。這個房間顯然與前面的智能電腦有一樣的功能與行為。顯然，在這個過程中， Searle 絕對不理解，也不需要懂得任何中文；而這個房間、牆壁、桌子、規則書，也都是沒有思考的物質(根據強AI的第二項命題，物質與心智無關)，自然也不會懂得中文。他們只是無心的操作符號，而並不瞭解這些符號的意義為何。因此，即使有一個裝置能通過圖靈測試，但是也不足以證明該裝置具有智能。

這篇想像實驗被發表在最一流的期刊上，並且成為該期刊中最具影響力的一篇文章(Harnad, 2001)(這篇文章發表在「行為的腦科學(The Behavioral and Brain Sciences)」期刊上。BBS 收錄涵蓋心理學、認知科學、腦神經科學、人工智能等主題的文章，投稿文章除了經過同儕評閱以外，採開放同儕評論模式(Open Peer Commentary)，文章將會同時給更多的評論者傳閱，並於出刊中同時刊載這些評論者的評論；每則評論限定1000字以內，作者也根據這些評論內容作出回應。根據JCR 2005，期刊的Impact factor(9.885)在 SCI 6088種期刊中排名第九十八，在 SSCI 中排名第二，如果將SCI的主題範圍限於人工智能、行為科學、與心理學，則排名第一；這證明此期刊的高度影響力。而這篇文章正是在所有BBS文獻中，被引用次數最多的(Harnad, 2001))。雖然，許多的引用不完全都是同意Searle的看法，而是想盡辦法反駁Searle中文室論證中的種種謬誤的可能，以挽救人工智能研究的基礎。不過，從這些討論從1980年文章發表後至今20多年來仍然討論不墬，可見 Searle 的論證具有一定的有效性。Searle 提出中文室論證的目的，除了反對強AI的命題之外，另外也提出了自己所主張的公理(axiom)(Searle, 1984, 1990)：

(A1) 程式表示形式化的語法。
(A2) 心智具有內容語義。
(A3) 語法並不足以提供語義。

如果一個完整的心智狀態系統，包含了形式化語法邏輯與語義結構的部份，那麼單單只有將資訊歷程邏輯部份形式化，自然是不足以完成真正人類心智判斷的模擬的。假設，根據Searle 的公理，完整心智至少需要涵蓋語法規則與語義結構的部份，那麼，在中文室系統中–不論是Searle 在房間內(Searle-In-the-Room, SIR) 或是Searle 把房間記憶住了 (Room-In-the-Searle, RIS)兩種系統設定的狀況下– 為了滿足中文室實驗的第一個假定，即中文室能通過圖靈測試，那麼在系統中該有的語義元件在哪裡？顯然不在不懂中文的 Searle 身上，也不會在紙、筆、桌子上。唯一可能的解釋，就是規則書中，並不是只有語法規則而已，也必須包含有語義結構。在語言科學的研究中，證明了光只有語法，不足以使人類理解語言(citation?)。而我們前述對於中文室的解讀，認為有效的系統需要包含語法與語義元件，那麼在這個例子中，可能的語義元件會在哪裡？編碼書？當考量編碼書的來源：一本同時處理了語法與語義的編碼書，是不可能由只有對資訊處理歷程進行研究，決不足以產生編碼書內部的語義結構。

社會性的語義認知

以下考慮一個傚仿中文室的想像實驗：

(索引編製的圖靈機)假設，在多年的資訊技術發展下，資訊科學家終於完成了一種自動書後索引處理系統。只要給這個系統所需要索引的文本資料，這個系統程式就可以將編製好書後索引，與專業索引編製者做的並無分別，等於完全取代一個索引專家的能力。
(火星文索引編製室)假設某個人坐在一個索引編製工作室裡面，有人從門縫外塞入所需要編製的火星文文本，這個人完全不懂得火星文，但是他根據一份索引編製編碼書一一處理這些火星文本，得到一份火星文書後索引，之後再把這分索引從門縫再塞出去。

資訊檢索技術的發展，網際網路各種自動檢索程式的成果，似乎是落實了以上的火星文假設？相反地，現今資訊檢索技術的發展，剛好證明了對語義結構的需要：只不過在技術上找到更有效率，更低成本的作法。其中最成功的，也是最佳的例子，便是 Google 的 PageRank 演算。PageRank 透過對網路文件中超連結結構的計算，提供檢索詞彙與網路文件相關性的排序依據，讓使用者可以更有效的找到最相關的訊息項目(citation needed?)。而這些超連結，正是網路上許許多多的網頁作者，在網路文件編寫的書寫工作中，逐一將相關資訊與關鍵字建立連結的語義工作。或者以 Taylor 的語彙，這是一「語義加值工作」。PageRank 的精巧之處，在於有效率的將這些微不足道的瑣碎語義加值成果匯集起來，成為一龐大的「編碼書」。至此，索引室中的語義結構有了依託，群眾智慧成就了Google。

小結

以上，從資訊系統的加值程序出發，經過了對個體認知系統的探討，最後討論了在社會層次上的認知運用。這些作為研究提供主題認識上的基模，同時也演示這些不同學科方面的研究成果：在這個涉及了資訊科學、管理學、認知科學、社會認知等等對研究對象「書後索引編製行為」的觀照之下，也為研究的後設理論取向提出了更周全考量的要求。這是下一章中，理論與相關研究部份的挑戰。

書後索引編製也許只是一個小小的行為過程，也許許多人覺得有點微不足道。「沒落了」、「還有人在作嗎」，這樣的回應在我的研究歷程中不斷的被周遭提醒著。不解與迷惘的眼光也常常看到。也不知道為甚麼，覺得自己還是要做完它。某天我看到 Robert S. Taylor 引用在本章最前頭的那句話，覺得那個想法是我心中覺得最有價值的部份。如果只用一段文字作為動機的話，That's it。

研究問題

一般系統論觀點的索引編製者的行為模型為何？
索引編製者，在理解款目的行為中，其要素為何？
主導索引編製者表徵款目的要素為何？

Note@XXC

User Tools