======2006-09======
==書後索引研究日誌 2006-Sep==

九月日誌

== Sep-5 ==
  * 與老師開會討論
    * 美美老師認為需要作一個隨機15組款目作對照，我認為這種隨機對照組沒有必要。因為即使隨機組與經過同質性設計的分層抽樣組的結果一樣，也不能代表什麼；結果不一樣，也不代表什麼。因為根據或然率，這兩組一定會有一樣的結果，只是出現一樣的機率大小的問題。既然隨機的對照組只能做一組的話，這種對照不可能得出有意義的結果。其次，如果想要對照出同質性分層抽樣與隨機抽樣的研究設計差異，必須在多設計幾次同質性與隨機抽樣的實驗工作；而這些設計會花上許多時間與成本。這當中即使蘊含了有趣的研究方法或是研究工具的問題，但是這些時間成本與主要研究問題無關。第三，從540個款目中抽出10~15個款目，在研究社群的共識上原本就是過低的抽樣比例，這點我承認，並不想反駁此一命題。我仍然必須減少到10~15個款目，是因為在執行reportory grid可行性的限制，過多的元素會花費對象過多的時間，特別是在過程中又要顧及ladding等訪談工作。在此抽樣數量的限制下，我必須設計一些方法，確保最終抽樣出來的元素的同質性與代表性。從已經進行的30%抽樣分析中，我已經發現各種款目編製樣態並非均勻分配，而是呈現相當大的集中現象。在已得知母群有這樣的偏差，更不可能只單純採用隨機抽樣工作。我將堅持原本的立場。
    * 美美老師似乎原則上同意只做先做一個個案。
    * 代表性的演算法，公式發展，詞性分類問題，在並沒有得到大多討論或建議，看來還是要自己搞。新的代表性公式在等討論的時間中已經又設計出來了，好像又更改進了一點。
  * {{:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060905.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060905.xls}}

== Sep-6 ==
  * 根據昨日的excel，STD-all(fix)分析中，可能的幾個元素類型為：(9)
    * a-t: [u.domain].obj
    * a-p: [u].sub
    * b-t: [c.domain].eng, [u].cpx
    * b-p: [u].sub
    * b-s: [c].obj
    * c-t: [u+adj].iso
    * c-p: [u].iso
    * c-s: [u+adj].obj
  * 根據analysis1中數量較多的組合，選出一組STD-all(fix)數值最大的：(10)
    * a-p: [c.domain].cpx
    * b-t: [u.domain].iso, [u].cpx, [c.domain].eng, [c.domain].sub
    * b-p: [u].sub
    * c-t: [u+adj].iso, [u].obj
    * c-p: [u].iso
    * c-s: [u+adj].iso
  * 綜合前兩者，所有不重複的組合有：(15)
    * a-t: [u.domain].obj
    * a-p: [c.domain].cpx, [u].sub
    * b-t: [c.domain].eng, [c.domain].sub, [u.domain].iso, [u].cpx
    * b-p: [u].iso, [u].sub
    * b-s: [c].obj
    * c-t: [u+adj].iso, [u].obj
    * c-p: [u].iso
    * c-s: [u+adj].obj, [u+adj].iso
  * 另一種表達：(15)
    * eng: b-t[c.domain]
    * iso: b-t[u.domain]
    * iso: b-t[u]
    * iso: c-t[u+adj]
    * iso: c-p[u]
    * iso: c-s[u+adj]
    * obj: a-t[u.domain] 
    * obj: b-s[c]
    * obj: c-t[u]
    * obj: c-s[u+adj]
    * sub: a-p[u] 
    * sub: b-t[c.domain]
    * sub: b-p[u]
    * cpx: a-p[c.domain]
    * cpx: b-t[u]
  * 其中比例：
    * a:b:c = 3:7:5
    * t:p:s = 7:5:3
    * eng:iso:sub:obj:cpx = 1:5:3:4:2
    * c:u = 4:11
    * c:c.domain:u:u.domain:u+adj = 1:3:6:2:3
  * 奇怪，最多的眾數還是沒有抽到...... a-t.cpx 這種組合出現次數最多，但是卻因為許多種細目詞類都有，其中的差異不大，造成analysis3的計算上，得分很低。即使在乘上次數與總體比例，結果還是低分。

== Sep-7 ==
  * 修改，作出另一種分析起點，先分「詞性」。因為詞性較少。可以在一個表格中列出最多組合可能。其次，發現各種詞性，在當初設計的時候，本來就不是完全相異相斥的；如eng，可能跟其他類型重疊；混在一起會重複計算。 \\ {{:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls}}
  * 重新設計表格 analysis4，與analysis4.2。
    * analysis4 從詞性作出各種組合的次數與比例分配，並計算個別比例與總體比例上的差異，除以總體比例，得出一詞性各組合的差異性指數。由此詞性各組合差異性指數，可以觀察出詞性的組合傾向。
    * analysis4.2 以 analysis4 為基礎，將各詞性組合的次數乘以其差異指數，得到一強度指數。此強度指數並沒有乘以細目詞類的差異，是因為細目詞類的區分較不均值，並且可能有許多不同的區分判斷，作為分類依據並不是很恰當。求出的強度指數，作為選擇元素項目的依據。
  * 此版本選出元素類型為(14)：(:!: 表示與Sep-6選出相同)
    * iso: b-t[c] 
    * iso: b-t[c.domain] :!:
    * iso: b-t[u] :!:
    * iso: b-t[u.domain]
    * iso: c-s[u]
    * iso: c-s[u+adj] :!:
    * obj: a-t[u](eng)
    * obj: a-t[u.domain] :!:
    * sub: a-p[u+adj](cons)
    * sub: b-p[u] :!:
    * cpx: a-t[c.domain]
    * cpx: a-t[u]
    * cpx: a-t[u.domain]
    * cpx: a-p[c.domain](cons) :!:
  * 其中比例：
    * a:b:c = 7:5:2
    * t:p:s = 9:3:2
    * iso:sub:obj:cpx = 6:2:2:4
    * c:u = 4:10
    * c:c.domain:u:u.domain:u+adj = 1:3:5:3:1
    * 前兩項比例與前次(Sep-6)相反，後三項大致上相同。這顯示了前次較偏重於不同的異例，而此次較依循次數比例。

== Sep-8 ==
  * 抽樣結果：

^ 類別 ^ 樣本數量 ^ 隨機亂數 ^ 抽樣結果(元素) ^
| iso: b-t[c] | 2 | 2 |(421.1) 圖書館自動化系統, p.307 |
| iso: b-t[c.domain] | 5 | 4 |(413.2) 書目資料庫, p.105 |
| iso: b-t[u] | 11 | 8 |(413.2) 效力(Effectiveness), p.75 |
| iso: b-t[u.domain] | 13 | 4 |(400.2) Subject Heading, p.331 |
| iso: c-s[u] | 5 | 1 |(401.2) 人力發展, p.286-287 |
| iso: c-s[u+adj] | 5 | 3 |(420.1) 圖書資訊事業發展方向, p.26-27 |
| obj: a-t[u](eng) | 2 | 2 |(400.2) Standardization, p.77  |
| obj: a-t[u.domain] | 31 | 22 |(418.2) 資訊交換碼(Information interchange code), p.372 |
| sub: a-p[u+adj](cons) | 1 | 1 |(419.1) 資訊師資培育, p.40-41 |
| sub: b-p[u] | 2 | 1 |(411.2) 卡片式, p.331 |
| cpx: a-t[c.domain] | 23 | 17 |(410.1) 東亞圖書館(美國), p.109 |
| cpx: a-t[u] | 31 | 4 |(399.2) protocol, p.63 |
| cpx: a-t[u.domain] | 20 | 8 |(414.2) 參考服務, p.53 |
| cpx: a-p[c.domain](cons) | 1 | 1 |(419.2) 電子圖書館(數位化圖書館)(Electronic Library), p.50-51 |

  * 其結果以Rep IV，自己測試一遍。Rep IV 很強，出乎意料，但抽樣的缺陷也出現，測試中不斷出現三條線。
    * PrinGrid 結果： {{:data:attic:research:bob-indexing:test_rgrid-pringrid_analysis42_20060908.pdf|:data:attic:research:bob-indexing:test_rgrid-pringrid_analysis42_20060908.pdf}}
    * 根據我自己的測驗，檢討：
      * 細目詞類，與詞性的區分力不夠明顯。產生出來的相似性太高，難以區分。
      * 「從其所由-其指涉範疇」這一區分很有幫助。
      * 雖然很多不能區分，但是因為元素接近原本母群比例，因此基本上結果尚稱符合實際狀況。
      * 因為是自作自分，無法找出其他構念。
      * 需要更強調編製過程的情境，包含從取出的內文頁到其後結果的索引頁款目，及其相關款目的關係。但是這方面的問題我在自作自測的時候，無法提供相關構念，以作出進一步區分。

  * 發現.cons 編碼與計算有誤。重新處理後，新的樣本為：

^ 類別 ^ 樣本數量 ^ 隨機亂數 ^ 抽樣結果(元素) ^
| iso: b-t[c] | 2 | 2 |(421.1) 圖書館自動化系統, p.307 |
| iso: b-t[c.domain] | 5 | 4 |(413.2) 書目資料庫, p.105 |
| iso: b-t[u] | 11 | 8 |(413.2) 效力(Effectiveness), p.75 |
| iso: b-t[u.domain] | 13 | 4 |(400.2) Subject Heading, p.331 |
| iso: c-s[u] | 5 | 1 |(401.2) 人力發展, p.286-287 |
| iso: c-s[u+adj] | 5 | 3 |(420.1) 圖書資訊事業發展方向, p.26-27 |
| obj: a-t[u](eng) | 2 | 2 |(400.2) Standardization, p.77  |
| obj: a-t[u.domain] | 31 | 22 |(418.2) 資訊交換碼(Information interchange code), p.372 |
| sub: a-p[u+adj](cons) | 1 | 1 |(419.1) 資訊師資培育, p.40-41 |
| sub: b-p[u] | 2 | 1 |(411.2) 卡片式, p.331 |
| cpx: a-t[c.domain] | 23 | 17 |(410.1) 東亞圖書館(美國), p.109 |
| cpx: a-t[u] | 31 | 4 |(399.2) protocol, p.63 |
| cpx: a-t[u.domain] | 20 | 8 |(414.2) 參考服務, p.53 |

=== 23:00 ===
  * 新製作 analysis5 與 analysis5.2 分析。 這兩個版本的主要根據「從其所由-其指涉範疇」這此一區分建立的。並將 .eng, .cons 這兩類分開統計計算。\\ {{:data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls}}
  * 修正原先 [u][u.domain][c][c.domain]的錯誤。之前就有注意到，怕影響一開始的抽樣所以一直沒有動；但之前最終抽樣一直不理想，顯示細目詞類可能有些問題；並且這種修改不會影響到30%的抽樣水準，所以重新修改一次。 
  * 修改後重新建立元素清單。
  * 研究進行到現在，浮現兩個問題：
    * 因為確認出「專名」與「領域概念詞彙/專有詞彙」是一個有用的策略。專名(人、地、具體事物)的判斷大致上沒有問題，這些在「區分標準」中已經初步驗證過了。但是編製者如何在進一步確認出「領域概念詞彙/專有詞彙」，利用哪些策略，這是一個問題。
    * 在款目分析中發現，除了「照錄」之外，另一種款目是需要從內文中修改、重新組合而產生的。這些建構的款目的編製過程與策略仍然不明。
    * 這讓我想到，是否可以考慮做兩組grid測試這兩個問題？

=== 24:00 ===

^類型^^^^^數量^抽樣^款目^^^
|.cpx|a-t|[c.domain][u.domain]|6.2||26|10|417.2|期刊論文索引資料庫|p.121|
|.obj|b-s|[c]|2.8||1|1|409.1|庋藏書目資料庫|p.105-107|
|.iso|b-t|[u.domain]|36.9||6 |3 |419.2|資訊檢索|p.50|
|.iso|b-t|[u]|31.2||2|1|405.2|正確性|p.331|
|.iso|c-p|[u]|5||1|1|409.2|定義(in 兒童圖書館)|p.128-129|
|.sub|b-p|[u]|16.8||2|1|411.2|卡片式 (in 查檢資料方式)|p.331-332|
|.cpx|a-t|[u]|3.8|.eng|5|4|405.1|付得起(Affordability)|p.27-28|
|.iso|c-s|[u][u+adj]|20||8|6|404.1|分試制度|p.219-221|
|.sub|a-p |[u][u+adj]|1 ||1|1|404.1|目的(in 公共圖書館)|p.22|
|.cpx|a-t|[u_adj][u+adj][u+and]|1.8|.eng|3|1|417.2|棘齒輪形(ratcher-shaped)|p.271|
|.iso|c-t|[u+adj]|3.1||2|2|421.2|圖書館發展方向 (in 圖書館管理)|p.13|
|*|a-t|[c+and]||.cons|5|5|422.1|圖書館學系/研究所|p.151(at.cons)|
|.cpx|a-t|[u.domain]||.cons|9|2|405.1|主題標題(Subject Heading)|p.64|
|*|a-t|[c]|10.8||14|10|421.1|圖書館自動化系統|p.21(at.cpx)|
|.iso|b-t|[c][c.domain]|19.6||5|1|419.2|電子計算機|p.169(bt)|

== Sep-9 ==
  * 小棋測試analysis4.2，對沒編製過索引的人，要作這個測試真是有點折磨人。\\  {{:data:attic:research:bob-indexing:rep-iv_analysis4-2_20060909_connie.rgrid|:data:attic:research:bob-indexing:rep-iv_analysis4-2_20060909_connie.rgrid}}


== Sep-11 ==

  * 製作元素卡片
  * 小棋測試analysis5，這次比較快。比較兩種的結果，analysis4.2可以發現有些元素有集中的趨勢，analysis5元素幾乎都是分散的。這種情況符合當初抽樣指數的特性。
  * 與謝老師討論抽樣問題。謝老師對過多的抽樣動作，所造成的偏差，提出問題。但是由於我抽樣的目的並不是要反映母體的比例，而是要找出各種不同差異的款目類型。
  * 與美美老師討論，美美老師認為用第二個元素樣本(analysis5)

== Sep-13 ==

  * 想了想，還是來看[[study:Mulvany,N.(1994).Indexing Books|Indexing Books]]好了。\\ 
> Mulvany, N. C. (1994). Indexing books. Chicago: The University of Chicago Press.

== Sep-15 ==
  * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 2

== Sep-19 ==
  * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 3

== Sep-20 ==
  * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 4, 5


== Sep-29 ==
  * 陳友民先生訪談及方格法{{:data:attic:research:bob-indexing:20090929_analysis5-2.rgrid|:data:attic:research:bob-indexing:20090929_analysis5-2.rgrid}}