research:bob-indexing:diary:2006-09

2006-09

書後索引研究日誌 2006-Sep

九月日誌

Sep-5

與老師開會討論
- 美美老師認為需要作一個隨機15組款目作對照，我認為這種隨機對照組沒有必要。因為即使隨機組與經過同質性設計的分層抽樣組的結果一樣，也不能代表什麼；結果不一樣，也不代表什麼。因為根據或然率，這兩組一定會有一樣的結果，只是出現一樣的機率大小的問題。既然隨機的對照組只能做一組的話，這種對照不可能得出有意義的結果。其次，如果想要對照出同質性分層抽樣與隨機抽樣的研究設計差異，必須在多設計幾次同質性與隨機抽樣的實驗工作；而這些設計會花上許多時間與成本。這當中即使蘊含了有趣的研究方法或是研究工具的問題，但是這些時間成本與主要研究問題無關。第三，從540個款目中抽出10~15個款目，在研究社群的共識上原本就是過低的抽樣比例，這點我承認，並不想反駁此一命題。我仍然必須減少到10~15個款目，是因為在執行reportory grid可行性的限制，過多的元素會花費對象過多的時間，特別是在過程中又要顧及ladding等訪談工作。在此抽樣數量的限制下，我必須設計一些方法，確保最終抽樣出來的元素的同質性與代表性。從已經進行的30%抽樣分析中，我已經發現各種款目編製樣態並非均勻分配，而是呈現相當大的集中現象。在已得知母群有這樣的偏差，更不可能只單純採用隨機抽樣工作。我將堅持原本的立場。
- 美美老師似乎原則上同意只做先做一個個案。
- 代表性的演算法，公式發展，詞性分類問題，在並沒有得到大多討論或建議，看來還是要自己搞。新的代表性公式在等討論的時間中已經又設計出來了，好像又更改進了一點。
:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060905.xls

Sep-6

根據昨日的excel，STD-all(fix)分析中，可能的幾個元素類型為：(9)
- a-t: [u.domain].obj
- a-p: [u].sub
- b-t: [c.domain].eng, [u].cpx
- b-p: [u].sub
- b-s: [c].obj
- c-t: [u+adj].iso
- c-p: [u].iso
- c-s: [u+adj].obj
根據analysis1中數量較多的組合，選出一組STD-all(fix)數值最大的：(10)
- a-p: [c.domain].cpx
- b-t: [u.domain].iso, [u].cpx, [c.domain].eng, [c.domain].sub
- b-p: [u].sub
- c-t: [u+adj].iso, [u].obj
- c-p: [u].iso
- c-s: [u+adj].iso
綜合前兩者，所有不重複的組合有：(15)
- a-t: [u.domain].obj
- a-p: [c.domain].cpx, [u].sub
- b-t: [c.domain].eng, [c.domain].sub, [u.domain].iso, [u].cpx
- b-p: [u].iso, [u].sub
- b-s: [c].obj
- c-t: [u+adj].iso, [u].obj
- c-p: [u].iso
- c-s: [u+adj].obj, [u+adj].iso
另一種表達：(15)
- eng: b-t[c.domain]
- iso: b-t[u.domain]
- iso: b-t[u]
- iso: c-t[u+adj]
- iso: c-p[u]
- iso: c-s[u+adj]
- obj: a-t[u.domain]
- obj: b-s[c]
- obj: c-t[u]
- obj: c-s[u+adj]
- sub: a-p[u]
- sub: b-t[c.domain]
- sub: b-p[u]
- cpx: a-p[c.domain]
- cpx: b-t[u]
其中比例：
- a:b:c = 3:7:5
- t:p:s = 7:5:3
- eng:iso:sub:obj:cpx = 1:5:3:4:2
- c:u = 4:11
- c:c.domain:u:u.domain:u+adj = 1:3:6:2:3
奇怪，最多的眾數還是沒有抽到…… a-t.cpx 這種組合出現次數最多，但是卻因為許多種細目詞類都有，其中的差異不大，造成analysis3的計算上，得分很低。即使在乘上次數與總體比例，結果還是低分。

Sep-7

修改，作出另一種分析起點，先分「詞性」。因為詞性較少。可以在一個表格中列出最多組合可能。其次，發現各種詞性，在當初設計的時候，本來就不是完全相異相斥的；如eng，可能跟其他類型重疊；混在一起會重複計算。
:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls
重新設計表格 analysis4，與analysis4.2。
- analysis4 從詞性作出各種組合的次數與比例分配，並計算個別比例與總體比例上的差異，除以總體比例，得出一詞性各組合的差異性指數。由此詞性各組合差異性指數，可以觀察出詞性的組合傾向。
- analysis4.2 以 analysis4 為基礎，將各詞性組合的次數乘以其差異指數，得到一強度指數。此強度指數並沒有乘以細目詞類的差異，是因為細目詞類的區分較不均值，並且可能有許多不同的區分判斷，作為分類依據並不是很恰當。求出的強度指數，作為選擇元素項目的依據。
此版本選出元素類型為(14)：( 表示與Sep-6選出相同)
- iso: b-t[c]
- iso: b-t[c.domain]
- iso: b-t[u]
- iso: b-t[u.domain]
- iso: c-s[u]
- iso: c-s[u+adj]
- obj: a-t[u](eng)
- obj: a-t[u.domain]
- sub: a-p[u+adj](cons)
- sub: b-p[u]
- cpx: a-t[c.domain]
- cpx: a-t[u]
- cpx: a-t[u.domain]
- cpx: a-p[c.domain](cons)
其中比例：
- a:b:c = 7:5:2
- t:p:s = 9:3:2
- iso:sub:obj:cpx = 6:2:2:4
- c:u = 4:10
- c:c.domain:u:u.domain:u+adj = 1:3:5:3:1
- 前兩項比例與前次(Sep-6)相反，後三項大致上相同。這顯示了前次較偏重於不同的異例，而此次較依循次數比例。

Sep-8

抽樣結果：

類別	樣本數量	隨機亂數	抽樣結果(元素)
iso: b-t[c]	2	2	(421.1) 圖書館自動化系統, p.307
iso: b-t[c.domain]	5	4	(413.2) 書目資料庫, p.105
iso: b-t[u]	11	8	(413.2) 效力(Effectiveness), p.75
iso: b-t[u.domain]	13	4	(400.2) Subject Heading, p.331
iso: c-s[u]	5	1	(401.2) 人力發展, p.286-287
iso: c-s[u+adj]	5	3	(420.1) 圖書資訊事業發展方向, p.26-27
obj: a-t[u](eng)	2	2	(400.2) Standardization, p.77
obj: a-t[u.domain]	31	22	(418.2) 資訊交換碼(Information interchange code), p.372
sub: a-p[u+adj](cons)	1	1	(419.1) 資訊師資培育, p.40-41
sub: b-p[u]	2	1	(411.2) 卡片式, p.331
cpx: a-t[c.domain]	23	17	(410.1) 東亞圖書館(美國), p.109
cpx: a-t[u]	31	4	(399.2) protocol, p.63
cpx: a-t[u.domain]	20	8	(414.2) 參考服務, p.53
cpx: a-p[c.domain](cons)	1	1	(419.2) 電子圖書館(數位化圖書館)(Electronic Library), p.50-51

其結果以Rep IV，自己測試一遍。Rep IV 很強，出乎意料，但抽樣的缺陷也出現，測試中不斷出現三條線。
- PrinGrid 結果： :data:attic:research:bob-indexing:test_rgrid-pringrid_analysis42_20060908.pdf
- 根據我自己的測驗，檢討：
  - 細目詞類，與詞性的區分力不夠明顯。產生出來的相似性太高，難以區分。
  - 「從其所由-其指涉範疇」這一區分很有幫助。
  - 雖然很多不能區分，但是因為元素接近原本母群比例，因此基本上結果尚稱符合實際狀況。
  - 因為是自作自分，無法找出其他構念。
  - 需要更強調編製過程的情境，包含從取出的內文頁到其後結果的索引頁款目，及其相關款目的關係。但是這方面的問題我在自作自測的時候，無法提供相關構念，以作出進一步區分。

發現.cons 編碼與計算有誤。重新處理後，新的樣本為：

類別	樣本數量	隨機亂數	抽樣結果(元素)
iso: b-t[c]	2	2	(421.1) 圖書館自動化系統, p.307
iso: b-t[c.domain]	5	4	(413.2) 書目資料庫, p.105
iso: b-t[u]	11	8	(413.2) 效力(Effectiveness), p.75
iso: b-t[u.domain]	13	4	(400.2) Subject Heading, p.331
iso: c-s[u]	5	1	(401.2) 人力發展, p.286-287
iso: c-s[u+adj]	5	3	(420.1) 圖書資訊事業發展方向, p.26-27
obj: a-t[u](eng)	2	2	(400.2) Standardization, p.77
obj: a-t[u.domain]	31	22	(418.2) 資訊交換碼(Information interchange code), p.372
sub: a-p[u+adj](cons)	1	1	(419.1) 資訊師資培育, p.40-41
sub: b-p[u]	2	1	(411.2) 卡片式, p.331
cpx: a-t[c.domain]	23	17	(410.1) 東亞圖書館(美國), p.109
cpx: a-t[u]	31	4	(399.2) protocol, p.63
cpx: a-t[u.domain]	20	8	(414.2) 參考服務, p.53

23:00

新製作 analysis5 與 analysis5.2 分析。這兩個版本的主要根據「從其所由-其指涉範疇」這此一區分建立的。並將 .eng, .cons 這兩類分開統計計算。
:data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls
修正原先 [u][u.domain][c][c.domain]的錯誤。之前就有注意到，怕影響一開始的抽樣所以一直沒有動；但之前最終抽樣一直不理想，顯示細目詞類可能有些問題；並且這種修改不會影響到30%的抽樣水準，所以重新修改一次。
修改後重新建立元素清單。
研究進行到現在，浮現兩個問題：
- 因為確認出「專名」與「領域概念詞彙/專有詞彙」是一個有用的策略。專名(人、地、具體事物)的判斷大致上沒有問題，這些在「區分標準」中已經初步驗證過了。但是編製者如何在進一步確認出「領域概念詞彙/專有詞彙」，利用哪些策略，這是一個問題。
- 在款目分析中發現，除了「照錄」之外，另一種款目是需要從內文中修改、重新組合而產生的。這些建構的款目的編製過程與策略仍然不明。
- 這讓我想到，是否可以考慮做兩組grid測試這兩個問題？

24:00

類型					數量	抽樣	款目
.cpx	a-t	[c.domain][u.domain]	6.2		26	10	417.2	期刊論文索引資料庫	p.121
.obj	b-s	[c]	2.8		1	1	409.1	庋藏書目資料庫	p.105-107
.iso	b-t	[u.domain]	36.9		6	3	419.2	資訊檢索	p.50
.iso	b-t	[u]	31.2		2	1	405.2	正確性	p.331
.iso	c-p	[u]	5		1	1	409.2	定義(in 兒童圖書館)	p.128-129
.sub	b-p	[u]	16.8		2	1	411.2	卡片式 (in 查檢資料方式)	p.331-332
.cpx	a-t	[u]	3.8	.eng	5	4	405.1	付得起(Affordability)	p.27-28
.iso	c-s	[u][u+adj]	20		8	6	404.1	分試制度	p.219-221
.sub	a-p	[u][u+adj]	1		1	1	404.1	目的(in 公共圖書館)	p.22
.cpx	a-t	[u_adj][u+adj][u+and]	1.8	.eng	3	1	417.2	棘齒輪形(ratcher-shaped)	p.271
.iso	c-t	[u+adj]	3.1		2	2	421.2	圖書館發展方向 (in 圖書館管理)	p.13
*	a-t	[c+and]		.cons	5	5	422.1	圖書館學系/研究所	p.151(at.cons)
.cpx	a-t	[u.domain]		.cons	9	2	405.1	主題標題(Subject Heading)	p.64
*	a-t	[c]	10.8		14	10	421.1	圖書館自動化系統	p.21(at.cpx)
.iso	b-t	[c][c.domain]	19.6		5	1	419.2	電子計算機	p.169(bt)

Sep-9

小棋測試analysis4.2，對沒編製過索引的人，要作這個測試真是有點折磨人。
:data:attic:research:bob-indexing:rep-iv_analysis4-2_20060909_connie.rgrid

Sep-11

製作元素卡片
小棋測試analysis5，這次比較快。比較兩種的結果，analysis4.2可以發現有些元素有集中的趨勢，analysis5元素幾乎都是分散的。這種情況符合當初抽樣指數的特性。
與謝老師討論抽樣問題。謝老師對過多的抽樣動作，所造成的偏差，提出問題。但是由於我抽樣的目的並不是要反映母體的比例，而是要找出各種不同差異的款目類型。
與美美老師討論，美美老師認為用第二個元素樣本(analysis5)

Sep-13

想了想，還是來看Indexing Books好了。

> Mulvany, N. C. (1994). Indexing books. Chicago: The University of Chicago Press.

Sep-15

Indexing Books Ch 2

Sep-19

Indexing Books Ch 3

Sep-20

Indexing Books Ch 4, 5

Sep-29

陳友民先生訪談及方格法:data:attic:research:bob-indexing:20090929_analysis5-2.rgrid

Note@XXC

User Tools

2006-09

書後索引研究日誌 2006-Sep

Sep-5

Sep-6

Sep-7

Sep-8

23:00

24:00

Sep-9

Sep-11

Sep-13

Sep-15

Sep-19

Sep-20

Sep-29