2006-09

書後索引研究日誌 2006-Sep

九月日誌

Sep-5

  • 與老師開會討論
    • 美美老師認為需要作一個隨機15組款目作對照,我認為這種隨機對照組沒有必要。因為即使隨機組與經過同質性設計的分層抽樣組的結果一樣,也不能代表什麼;結果不一樣,也不代表什麼。因為根據或然率,這兩組一定會有一樣的結果,只是出現一樣的機率大小的問題。既然隨機的對照組只能做一組的話,這種對照不可能得出有意義的結果。其次,如果想要對照出同質性分層抽樣與隨機抽樣的研究設計差異,必須在多設計幾次同質性與隨機抽樣的實驗工作;而這些設計會花上許多時間與成本。這當中即使蘊含了有趣的研究方法或是研究工具的問題,但是這些時間成本與主要研究問題無關。第三,從540個款目中抽出10~15個款目,在研究社群的共識上原本就是過低的抽樣比例,這點我承認,並不想反駁此一命題。我仍然必須減少到10~15個款目,是因為在執行reportory grid可行性的限制,過多的元素會花費對象過多的時間,特別是在過程中又要顧及ladding等訪談工作。在此抽樣數量的限制下,我必須設計一些方法,確保最終抽樣出來的元素的同質性與代表性。從已經進行的30%抽樣分析中,我已經發現各種款目編製樣態並非均勻分配,而是呈現相當大的集中現象。在已得知母群有這樣的偏差,更不可能只單純採用隨機抽樣工作。我將堅持原本的立場。
    • 美美老師似乎原則上同意只做先做一個個案。
    • 代表性的演算法,公式發展,詞性分類問題,在並沒有得到大多討論或建議,看來還是要自己搞。新的代表性公式在等討論的時間中已經又設計出來了,好像又更改進了一點。

Sep-6

  • 根據昨日的excel,STD-all(fix)分析中,可能的幾個元素類型為:(9)
    • a-t: [u.domain].obj
    • a-p: [u].sub
    • b-t: [c.domain].eng, [u].cpx
    • b-p: [u].sub
    • b-s: [c].obj
    • c-t: [u+adj].iso
    • c-p: [u].iso
    • c-s: [u+adj].obj
  • 根據analysis1中數量較多的組合,選出一組STD-all(fix)數值最大的:(10)
    • a-p: [c.domain].cpx
    • b-t: [u.domain].iso, [u].cpx, [c.domain].eng, [c.domain].sub
    • b-p: [u].sub
    • c-t: [u+adj].iso, [u].obj
    • c-p: [u].iso
    • c-s: [u+adj].iso
  • 綜合前兩者,所有不重複的組合有:(15)
    • a-t: [u.domain].obj
    • a-p: [c.domain].cpx, [u].sub
    • b-t: [c.domain].eng, [c.domain].sub, [u.domain].iso, [u].cpx
    • b-p: [u].iso, [u].sub
    • b-s: [c].obj
    • c-t: [u+adj].iso, [u].obj
    • c-p: [u].iso
    • c-s: [u+adj].obj, [u+adj].iso
  • 另一種表達:(15)
    • eng: b-t[c.domain]
    • iso: b-t[u.domain]
    • iso: b-t[u]
    • iso: c-t[u+adj]
    • iso: c-p[u]
    • iso: c-s[u+adj]
    • obj: a-t[u.domain]
    • obj: b-s[c]
    • obj: c-t[u]
    • obj: c-s[u+adj]
    • sub: a-p[u]
    • sub: b-t[c.domain]
    • sub: b-p[u]
    • cpx: a-p[c.domain]
    • cpx: b-t[u]
  • 其中比例:
    • a:b:c = 3:7:5
    • t:p:s = 7:5:3
    • eng:iso:sub:obj:cpx = 1:5:3:4:2
    • c:u = 4:11
    • c:c.domain:u:u.domain:u+adj = 1:3:6:2:3
  • 奇怪,最多的眾數還是沒有抽到…… a-t.cpx 這種組合出現次數最多,但是卻因為許多種細目詞類都有,其中的差異不大,造成analysis3的計算上,得分很低。即使在乘上次數與總體比例,結果還是低分。

Sep-7

  • 修改,作出另一種分析起點,先分「詞性」。因為詞性較少。可以在一個表格中列出最多組合可能。其次,發現各種詞性,在當初設計的時候,本來就不是完全相異相斥的;如eng,可能跟其他類型重疊;混在一起會重複計算。
    :data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls
  • 重新設計表格 analysis4,與analysis4.2。
    • analysis4 從詞性作出各種組合的次數與比例分配,並計算個別比例與總體比例上的差異,除以總體比例,得出一詞性各組合的差異性指數。由此詞性各組合差異性指數,可以觀察出詞性的組合傾向。
    • analysis4.2 以 analysis4 為基礎,將各詞性組合的次數乘以其差異指數,得到一強度指數。此強度指數並沒有乘以細目詞類的差異,是因為細目詞類的區分較不均值,並且可能有許多不同的區分判斷,作為分類依據並不是很恰當。求出的強度指數,作為選擇元素項目的依據。
  • 此版本選出元素類型為(14):(:!: 表示與Sep-6選出相同)
    • iso: b-t[c]
    • iso: b-t[c.domain] :!:
    • iso: b-t[u] :!:
    • iso: b-t[u.domain]
    • iso: c-s[u]
    • iso: c-s[u+adj] :!:
    • obj: a-t[u](eng)
    • obj: a-t[u.domain] :!:
    • sub: a-p[u+adj](cons)
    • sub: b-p[u] :!:
    • cpx: a-t[c.domain]
    • cpx: a-t[u]
    • cpx: a-t[u.domain]
    • cpx: a-p[c.domain](cons) :!:
  • 其中比例:
    • a:b:c = 7:5:2
    • t:p:s = 9:3:2
    • iso:sub:obj:cpx = 6:2:2:4
    • c:u = 4:10
    • c:c.domain:u:u.domain:u+adj = 1:3:5:3:1
    • 前兩項比例與前次(Sep-6)相反,後三項大致上相同。這顯示了前次較偏重於不同的異例,而此次較依循次數比例。

Sep-8

  • 抽樣結果:
類別 樣本數量 隨機亂數 抽樣結果(元素)
iso: b-t[c] 2 2 (421.1) 圖書館自動化系統, p.307
iso: b-t[c.domain] 5 4 (413.2) 書目資料庫, p.105
iso: b-t[u] 11 8 (413.2) 效力(Effectiveness), p.75
iso: b-t[u.domain] 13 4 (400.2) Subject Heading, p.331
iso: c-s[u] 5 1 (401.2) 人力發展, p.286-287
iso: c-s[u+adj] 5 3 (420.1) 圖書資訊事業發展方向, p.26-27
obj: a-t[u](eng) 2 2 (400.2) Standardization, p.77
obj: a-t[u.domain] 31 22 (418.2) 資訊交換碼(Information interchange code), p.372
sub: a-p[u+adj](cons) 1 1 (419.1) 資訊師資培育, p.40-41
sub: b-p[u] 2 1 (411.2) 卡片式, p.331
cpx: a-t[c.domain] 23 17 (410.1) 東亞圖書館(美國), p.109
cpx: a-t[u] 31 4 (399.2) protocol, p.63
cpx: a-t[u.domain] 20 8 (414.2) 參考服務, p.53
cpx: a-p[c.domain](cons) 1 1 (419.2) 電子圖書館(數位化圖書館)(Electronic Library), p.50-51
  • 其結果以Rep IV,自己測試一遍。Rep IV 很強,出乎意料,但抽樣的缺陷也出現,測試中不斷出現三條線。
    • 根據我自己的測驗,檢討:
      • 細目詞類,與詞性的區分力不夠明顯。產生出來的相似性太高,難以區分。
      • 「從其所由-其指涉範疇」這一區分很有幫助。
      • 雖然很多不能區分,但是因為元素接近原本母群比例,因此基本上結果尚稱符合實際狀況。
      • 因為是自作自分,無法找出其他構念。
      • 需要更強調編製過程的情境,包含從取出的內文頁到其後結果的索引頁款目,及其相關款目的關係。但是這方面的問題我在自作自測的時候,無法提供相關構念,以作出進一步區分。
  • 發現.cons 編碼與計算有誤。重新處理後,新的樣本為:
類別 樣本數量 隨機亂數 抽樣結果(元素)
iso: b-t[c] 2 2 (421.1) 圖書館自動化系統, p.307
iso: b-t[c.domain] 5 4 (413.2) 書目資料庫, p.105
iso: b-t[u] 11 8 (413.2) 效力(Effectiveness), p.75
iso: b-t[u.domain] 13 4 (400.2) Subject Heading, p.331
iso: c-s[u] 5 1 (401.2) 人力發展, p.286-287
iso: c-s[u+adj] 5 3 (420.1) 圖書資訊事業發展方向, p.26-27
obj: a-t[u](eng) 2 2 (400.2) Standardization, p.77
obj: a-t[u.domain] 31 22 (418.2) 資訊交換碼(Information interchange code), p.372
sub: a-p[u+adj](cons) 1 1 (419.1) 資訊師資培育, p.40-41
sub: b-p[u] 2 1 (411.2) 卡片式, p.331
cpx: a-t[c.domain] 23 17 (410.1) 東亞圖書館(美國), p.109
cpx: a-t[u] 31 4 (399.2) protocol, p.63
cpx: a-t[u.domain] 20 8 (414.2) 參考服務, p.53

23:00

  • 新製作 analysis5 與 analysis5.2 分析。 這兩個版本的主要根據「從其所由-其指涉範疇」這此一區分建立的。並將 .eng, .cons 這兩類分開統計計算。
    :data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls
  • 修正原先 [u][u.domain][c][c.domain]的錯誤。之前就有注意到,怕影響一開始的抽樣所以一直沒有動;但之前最終抽樣一直不理想,顯示細目詞類可能有些問題;並且這種修改不會影響到30%的抽樣水準,所以重新修改一次。
  • 修改後重新建立元素清單。
  • 研究進行到現在,浮現兩個問題:
    • 因為確認出「專名」與「領域概念詞彙/專有詞彙」是一個有用的策略。專名(人、地、具體事物)的判斷大致上沒有問題,這些在「區分標準」中已經初步驗證過了。但是編製者如何在進一步確認出「領域概念詞彙/專有詞彙」,利用哪些策略,這是一個問題。
    • 在款目分析中發現,除了「照錄」之外,另一種款目是需要從內文中修改、重新組合而產生的。這些建構的款目的編製過程與策略仍然不明。
    • 這讓我想到,是否可以考慮做兩組grid測試這兩個問題?

24:00

類型數量抽樣款目
.cpxa-t[c.domain][u.domain]6.22610417.2期刊論文索引資料庫p.121
.objb-s[c]2.811409.1庋藏書目資料庫p.105-107
.isob-t[u.domain]36.96 3 419.2資訊檢索p.50
.isob-t[u]31.221405.2正確性p.331
.isoc-p[u]511409.2定義(in 兒童圖書館)p.128-129
.subb-p[u]16.821411.2卡片式 (in 查檢資料方式)p.331-332
.cpxa-t[u]3.8.eng54405.1付得起(Affordability)p.27-28
.isoc-s[u][u+adj]2086404.1分試制度p.219-221
.suba-p [u][u+adj]1 11404.1目的(in 公共圖書館)p.22
.cpxa-t[u_adj][u+adj][u+and]1.8.eng31417.2棘齒輪形(ratcher-shaped)p.271
.isoc-t[u+adj]3.122421.2圖書館發展方向 (in 圖書館管理)p.13
*a-t[c+and].cons55422.1圖書館學系/研究所p.151(at.cons)
.cpxa-t[u.domain].cons92405.1主題標題(Subject Heading)p.64
*a-t[c]10.81410421.1圖書館自動化系統p.21(at.cpx)
.isob-t[c][c.domain]19.651419.2電子計算機p.169(bt)

Sep-9

Sep-11

  • 製作元素卡片
  • 小棋測試analysis5,這次比較快。比較兩種的結果,analysis4.2可以發現有些元素有集中的趨勢,analysis5元素幾乎都是分散的。這種情況符合當初抽樣指數的特性。
  • 與謝老師討論抽樣問題。謝老師對過多的抽樣動作,所造成的偏差,提出問題。但是由於我抽樣的目的並不是要反映母體的比例,而是要找出各種不同差異的款目類型。
  • 與美美老師討論,美美老師認為用第二個元素樣本(analysis5)

Sep-13

> Mulvany, N. C. (1994). Indexing books. Chicago: The University of Chicago Press.

Sep-15

Sep-19

Sep-20

Sep-29