======2006-09====== ==書後索引研究日誌 2006-Sep== 九月日誌 == Sep-5 == * 與老師開會討論 * 美美老師認為需要作一個隨機15組款目作對照,我認為這種隨機對照組沒有必要。因為即使隨機組與經過同質性設計的分層抽樣組的結果一樣,也不能代表什麼;結果不一樣,也不代表什麼。因為根據或然率,這兩組一定會有一樣的結果,只是出現一樣的機率大小的問題。既然隨機的對照組只能做一組的話,這種對照不可能得出有意義的結果。其次,如果想要對照出同質性分層抽樣與隨機抽樣的研究設計差異,必須在多設計幾次同質性與隨機抽樣的實驗工作;而這些設計會花上許多時間與成本。這當中即使蘊含了有趣的研究方法或是研究工具的問題,但是這些時間成本與主要研究問題無關。第三,從540個款目中抽出10~15個款目,在研究社群的共識上原本就是過低的抽樣比例,這點我承認,並不想反駁此一命題。我仍然必須減少到10~15個款目,是因為在執行reportory grid可行性的限制,過多的元素會花費對象過多的時間,特別是在過程中又要顧及ladding等訪談工作。在此抽樣數量的限制下,我必須設計一些方法,確保最終抽樣出來的元素的同質性與代表性。從已經進行的30%抽樣分析中,我已經發現各種款目編製樣態並非均勻分配,而是呈現相當大的集中現象。在已得知母群有這樣的偏差,更不可能只單純採用隨機抽樣工作。我將堅持原本的立場。 * 美美老師似乎原則上同意只做先做一個個案。 * 代表性的演算法,公式發展,詞性分類問題,在並沒有得到大多討論或建議,看來還是要自己搞。新的代表性公式在等討論的時間中已經又設計出來了,好像又更改進了一點。 * {{:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060905.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060905.xls}} == Sep-6 == * 根據昨日的excel,STD-all(fix)分析中,可能的幾個元素類型為:(9) * a-t: [u.domain].obj * a-p: [u].sub * b-t: [c.domain].eng, [u].cpx * b-p: [u].sub * b-s: [c].obj * c-t: [u+adj].iso * c-p: [u].iso * c-s: [u+adj].obj * 根據analysis1中數量較多的組合,選出一組STD-all(fix)數值最大的:(10) * a-p: [c.domain].cpx * b-t: [u.domain].iso, [u].cpx, [c.domain].eng, [c.domain].sub * b-p: [u].sub * c-t: [u+adj].iso, [u].obj * c-p: [u].iso * c-s: [u+adj].iso * 綜合前兩者,所有不重複的組合有:(15) * a-t: [u.domain].obj * a-p: [c.domain].cpx, [u].sub * b-t: [c.domain].eng, [c.domain].sub, [u.domain].iso, [u].cpx * b-p: [u].iso, [u].sub * b-s: [c].obj * c-t: [u+adj].iso, [u].obj * c-p: [u].iso * c-s: [u+adj].obj, [u+adj].iso * 另一種表達:(15) * eng: b-t[c.domain] * iso: b-t[u.domain] * iso: b-t[u] * iso: c-t[u+adj] * iso: c-p[u] * iso: c-s[u+adj] * obj: a-t[u.domain] * obj: b-s[c] * obj: c-t[u] * obj: c-s[u+adj] * sub: a-p[u] * sub: b-t[c.domain] * sub: b-p[u] * cpx: a-p[c.domain] * cpx: b-t[u] * 其中比例: * a:b:c = 3:7:5 * t:p:s = 7:5:3 * eng:iso:sub:obj:cpx = 1:5:3:4:2 * c:u = 4:11 * c:c.domain:u:u.domain:u+adj = 1:3:6:2:3 * 奇怪,最多的眾數還是沒有抽到...... a-t.cpx 這種組合出現次數最多,但是卻因為許多種細目詞類都有,其中的差異不大,造成analysis3的計算上,得分很低。即使在乘上次數與總體比例,結果還是低分。 == Sep-7 == * 修改,作出另一種分析起點,先分「詞性」。因為詞性較少。可以在一個表格中列出最多組合可能。其次,發現各種詞性,在當初設計的時候,本來就不是完全相異相斥的;如eng,可能跟其他類型重疊;混在一起會重複計算。 \\ {{:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis_20060907.xls}} * 重新設計表格 analysis4,與analysis4.2。 * analysis4 從詞性作出各種組合的次數與比例分配,並計算個別比例與總體比例上的差異,除以總體比例,得出一詞性各組合的差異性指數。由此詞性各組合差異性指數,可以觀察出詞性的組合傾向。 * analysis4.2 以 analysis4 為基礎,將各詞性組合的次數乘以其差異指數,得到一強度指數。此強度指數並沒有乘以細目詞類的差異,是因為細目詞類的區分較不均值,並且可能有許多不同的區分判斷,作為分類依據並不是很恰當。求出的強度指數,作為選擇元素項目的依據。 * 此版本選出元素類型為(14):(:!: 表示與Sep-6選出相同) * iso: b-t[c] * iso: b-t[c.domain] :!: * iso: b-t[u] :!: * iso: b-t[u.domain] * iso: c-s[u] * iso: c-s[u+adj] :!: * obj: a-t[u](eng) * obj: a-t[u.domain] :!: * sub: a-p[u+adj](cons) * sub: b-p[u] :!: * cpx: a-t[c.domain] * cpx: a-t[u] * cpx: a-t[u.domain] * cpx: a-p[c.domain](cons) :!: * 其中比例: * a:b:c = 7:5:2 * t:p:s = 9:3:2 * iso:sub:obj:cpx = 6:2:2:4 * c:u = 4:10 * c:c.domain:u:u.domain:u+adj = 1:3:5:3:1 * 前兩項比例與前次(Sep-6)相反,後三項大致上相同。這顯示了前次較偏重於不同的異例,而此次較依循次數比例。 == Sep-8 == * 抽樣結果: ^ 類別 ^ 樣本數量 ^ 隨機亂數 ^ 抽樣結果(元素) ^ | iso: b-t[c] | 2 | 2 |(421.1) 圖書館自動化系統, p.307 | | iso: b-t[c.domain] | 5 | 4 |(413.2) 書目資料庫, p.105 | | iso: b-t[u] | 11 | 8 |(413.2) 效力(Effectiveness), p.75 | | iso: b-t[u.domain] | 13 | 4 |(400.2) Subject Heading, p.331 | | iso: c-s[u] | 5 | 1 |(401.2) 人力發展, p.286-287 | | iso: c-s[u+adj] | 5 | 3 |(420.1) 圖書資訊事業發展方向, p.26-27 | | obj: a-t[u](eng) | 2 | 2 |(400.2) Standardization, p.77 | | obj: a-t[u.domain] | 31 | 22 |(418.2) 資訊交換碼(Information interchange code), p.372 | | sub: a-p[u+adj](cons) | 1 | 1 |(419.1) 資訊師資培育, p.40-41 | | sub: b-p[u] | 2 | 1 |(411.2) 卡片式, p.331 | | cpx: a-t[c.domain] | 23 | 17 |(410.1) 東亞圖書館(美國), p.109 | | cpx: a-t[u] | 31 | 4 |(399.2) protocol, p.63 | | cpx: a-t[u.domain] | 20 | 8 |(414.2) 參考服務, p.53 | | cpx: a-p[c.domain](cons) | 1 | 1 |(419.2) 電子圖書館(數位化圖書館)(Electronic Library), p.50-51 | * 其結果以Rep IV,自己測試一遍。Rep IV 很強,出乎意料,但抽樣的缺陷也出現,測試中不斷出現三條線。 * PrinGrid 結果: {{:data:attic:research:bob-indexing:test_rgrid-pringrid_analysis42_20060908.pdf|:data:attic:research:bob-indexing:test_rgrid-pringrid_analysis42_20060908.pdf}} * 根據我自己的測驗,檢討: * 細目詞類,與詞性的區分力不夠明顯。產生出來的相似性太高,難以區分。 * 「從其所由-其指涉範疇」這一區分很有幫助。 * 雖然很多不能區分,但是因為元素接近原本母群比例,因此基本上結果尚稱符合實際狀況。 * 因為是自作自分,無法找出其他構念。 * 需要更強調編製過程的情境,包含從取出的內文頁到其後結果的索引頁款目,及其相關款目的關係。但是這方面的問題我在自作自測的時候,無法提供相關構念,以作出進一步區分。 * 發現.cons 編碼與計算有誤。重新處理後,新的樣本為: ^ 類別 ^ 樣本數量 ^ 隨機亂數 ^ 抽樣結果(元素) ^ | iso: b-t[c] | 2 | 2 |(421.1) 圖書館自動化系統, p.307 | | iso: b-t[c.domain] | 5 | 4 |(413.2) 書目資料庫, p.105 | | iso: b-t[u] | 11 | 8 |(413.2) 效力(Effectiveness), p.75 | | iso: b-t[u.domain] | 13 | 4 |(400.2) Subject Heading, p.331 | | iso: c-s[u] | 5 | 1 |(401.2) 人力發展, p.286-287 | | iso: c-s[u+adj] | 5 | 3 |(420.1) 圖書資訊事業發展方向, p.26-27 | | obj: a-t[u](eng) | 2 | 2 |(400.2) Standardization, p.77 | | obj: a-t[u.domain] | 31 | 22 |(418.2) 資訊交換碼(Information interchange code), p.372 | | sub: a-p[u+adj](cons) | 1 | 1 |(419.1) 資訊師資培育, p.40-41 | | sub: b-p[u] | 2 | 1 |(411.2) 卡片式, p.331 | | cpx: a-t[c.domain] | 23 | 17 |(410.1) 東亞圖書館(美國), p.109 | | cpx: a-t[u] | 31 | 4 |(399.2) protocol, p.63 | | cpx: a-t[u.domain] | 20 | 8 |(414.2) 參考服務, p.53 | === 23:00 === * 新製作 analysis5 與 analysis5.2 分析。 這兩個版本的主要根據「從其所由-其指涉範疇」這此一區分建立的。並將 .eng, .cons 這兩類分開統計計算。\\ {{:data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls|:data:attic:research:bob-indexing:dingchung_indexing-analysis-fix_20060908.xls}} * 修正原先 [u][u.domain][c][c.domain]的錯誤。之前就有注意到,怕影響一開始的抽樣所以一直沒有動;但之前最終抽樣一直不理想,顯示細目詞類可能有些問題;並且這種修改不會影響到30%的抽樣水準,所以重新修改一次。 * 修改後重新建立元素清單。 * 研究進行到現在,浮現兩個問題: * 因為確認出「專名」與「領域概念詞彙/專有詞彙」是一個有用的策略。專名(人、地、具體事物)的判斷大致上沒有問題,這些在「區分標準」中已經初步驗證過了。但是編製者如何在進一步確認出「領域概念詞彙/專有詞彙」,利用哪些策略,這是一個問題。 * 在款目分析中發現,除了「照錄」之外,另一種款目是需要從內文中修改、重新組合而產生的。這些建構的款目的編製過程與策略仍然不明。 * 這讓我想到,是否可以考慮做兩組grid測試這兩個問題? === 24:00 === ^類型^^^^^數量^抽樣^款目^^^ |.cpx|a-t|[c.domain][u.domain]|6.2||26|10|417.2|期刊論文索引資料庫|p.121| |.obj|b-s|[c]|2.8||1|1|409.1|庋藏書目資料庫|p.105-107| |.iso|b-t|[u.domain]|36.9||6 |3 |419.2|資訊檢索|p.50| |.iso|b-t|[u]|31.2||2|1|405.2|正確性|p.331| |.iso|c-p|[u]|5||1|1|409.2|定義(in 兒童圖書館)|p.128-129| |.sub|b-p|[u]|16.8||2|1|411.2|卡片式 (in 查檢資料方式)|p.331-332| |.cpx|a-t|[u]|3.8|.eng|5|4|405.1|付得起(Affordability)|p.27-28| |.iso|c-s|[u][u+adj]|20||8|6|404.1|分試制度|p.219-221| |.sub|a-p |[u][u+adj]|1 ||1|1|404.1|目的(in 公共圖書館)|p.22| |.cpx|a-t|[u_adj][u+adj][u+and]|1.8|.eng|3|1|417.2|棘齒輪形(ratcher-shaped)|p.271| |.iso|c-t|[u+adj]|3.1||2|2|421.2|圖書館發展方向 (in 圖書館管理)|p.13| |*|a-t|[c+and]||.cons|5|5|422.1|圖書館學系/研究所|p.151(at.cons)| |.cpx|a-t|[u.domain]||.cons|9|2|405.1|主題標題(Subject Heading)|p.64| |*|a-t|[c]|10.8||14|10|421.1|圖書館自動化系統|p.21(at.cpx)| |.iso|b-t|[c][c.domain]|19.6||5|1|419.2|電子計算機|p.169(bt)| == Sep-9 == * 小棋測試analysis4.2,對沒編製過索引的人,要作這個測試真是有點折磨人。\\ {{:data:attic:research:bob-indexing:rep-iv_analysis4-2_20060909_connie.rgrid|:data:attic:research:bob-indexing:rep-iv_analysis4-2_20060909_connie.rgrid}} == Sep-11 == * 製作元素卡片 * 小棋測試analysis5,這次比較快。比較兩種的結果,analysis4.2可以發現有些元素有集中的趨勢,analysis5元素幾乎都是分散的。這種情況符合當初抽樣指數的特性。 * 與謝老師討論抽樣問題。謝老師對過多的抽樣動作,所造成的偏差,提出問題。但是由於我抽樣的目的並不是要反映母體的比例,而是要找出各種不同差異的款目類型。 * 與美美老師討論,美美老師認為用第二個元素樣本(analysis5) == Sep-13 == * 想了想,還是來看[[study:Mulvany,N.(1994).Indexing Books|Indexing Books]]好了。\\ > Mulvany, N. C. (1994). Indexing books. Chicago: The University of Chicago Press. == Sep-15 == * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 2 == Sep-19 == * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 3 == Sep-20 == * [[study:Mulvany,N.(1994).Indexing Books|Indexing Books]] Ch 4, 5 == Sep-29 == * 陳友民先生訪談及方格法{{:data:attic:research:bob-indexing:20090929_analysis5-2.rgrid|:data:attic:research:bob-indexing:20090929_analysis5-2.rgrid}}