態度與行為研究的信度與效度:理論、應用、反省

 

吳統雄

在抽樣調查研究的領域中,「信度」和「效度」的概念,近年來有兩個明顯的趨勢:

第一,在整個研究程序中的角色愈來愈重要,有關的論題蓬勃發展。

美國學者Ray[284]曾以研究文獻的方法指出:研究者關切信度與效度的論文,在1960年以後急速地增加,在1980年後,處理信度與效度更已經從「坐而言」逐漸變為「起而行」的階段了。

第二,有關的名稱、定義及分析的技術非常分歧。在各個行為科學的學門中,由於研究的現象各異,調查的對象不同,使得心理計量界和經濟計量界,採用的方各有一套;而測量個人能力和調查團體偏好,研究者思索的角度互不相同;使得許多不同的術語,其實是講近似的觀念;許多相同的術語,在不同的場合卻指不同的東西;分析信度與效度的技術,更是百技雜陳,方法很多。有關的概念雖然大致可以理出一個頭緒,但如果要建立共信的說法,還需要各行各業的學者,捐棄門戶之見共同商討。

吳統雄[32]曾預期「分析信度與效度」(或至少是分析信度)會成為調查研究程序中不可或缺的步驟,而報告「信度與效度」(或至少是報告信度)也會是正式調查研究報告中必備的一節。但在這項預期十餘年之後,國內不論學術界或實務界的調查報告中,信度(與效度)分析,仍然沒有成為必備的一環。

理由之一,可能是探討信度與效度的中文文獻,迄今並不很多,其中少數的解釋可能稍嫌狹隘,也許會造成一些誤會,國內對這方面的探討,尤待加強。其次,信度與效度分析的理論分析與技術層次較高,對廣大需要執行調查實務的人士而言,實不能、也不必自行動手處理,而不如借助輔助工具﹣如資訊系統協助。

這也再一次突顯調查決策資訊系統的重要性。

 

(一)信度與效度的基本概念

 

1、定義

 

信度與效度均特指測量工具(如問卷、態度行為量表)減除可能影響測量結果因素後的準確程度。

信度與效度既然稱為「度」,就是一個可以度量的具體「數字」,不是抽象的感覺、感受,也不是廣泛的調查準確性。

為信度與效度下定義的學者很多,但歸納言之,且簡言之,可為:

 

a.信度(reliability)

 

測量工具本身的準確程度─是否有區別能力?測量的結果是否穩定一致?穩定一致的程度如何?

譬如一把捲尺昨天量一個人的身高是一百七十公分,今天再量卻變成一百六十五公分,一個人斷不可能一天矮了五公分,顯然這把尺可能受熱脹冷縮的影響很厲害,也就是「信度」不高。

又如這把尺從尺端開使量一個人的身高是一百七十公分,但從一公尺的地方開始量,同一人的身高卻變成一百七十五公分,就顯示這把尺刻度之間的距離不準確,「信度」自然就低了。

 

b.效度(validity)

 

測量工具是否可以測出研究者想要了解的某種特質?(在行為科學界尤指抽象的特質,亦即「構念 」)能夠測出的程度為何?

舉一個較具體的例子來說譬如我們一把刻度很精確、不會熱脹冷縮也就是「信度」很高的尺,但如果用這把尺來量一群人,以判斷誰輕誰重,就可能不大準確,不很「有效」。因為尺並不擅於測量「體重」這個特質。尺對「體重」這個特質而言,就是一個「效度」不佳的測量工具。

但是判斷測量工具是否「可信」?「有效」?並不經常像上面的例子那麼顯而易見。譬如理論上尺是測量「長度」的最佳工具,但經銷金屬線的大盤商,卻寧可用測量「重量」的稱,來計算金屬線的進貨、出貨的數量,否則用尺來計算一貨櫃規格不等的金屬線,很可能吃力不討好。

尤其在測量抽象特質時,往往不僅是「吃力不討好」而已,許多研究者擬了一份問卷,想要探討一些問題,收回資料後,經過信度與效度的分析,發現資料幾乎與研究問題無涉,這種事例以往屢見不鮮。

 

2、數學模式

 

習慣於運用數字符號的人,Peter [274] 借助數學模式,可能更容易表達信度與效度的意義:

 

a.信度

 

假設一個測量工具所測得的值為Xo(通常以平均數代表)則Xo

可分解為:

 

o =Xt +Xe

o observed X):觀察值

t true X):真實值

e error X):誤差值

 

而假設測量所得的變異量為Vo ,同理Vo 可分解為:

 

o =Vt +Ve

 

其中真實變異量與觀察變異量之比,即為信度:

 

tt(信度)=Vt/Vo

 

Parameswaran et al. [266], Tryon [350]指出從統計的角度來看,Vt 很難直接估計,因此上式常移項改為:

 

tt =(Vo -Ve)/Vo =1-(Ve/Vo

 

信度即為1減去「誤差變異量與觀察變異量之比」。

 

b.效度

 

如果把Vt 再分解:

 

o =Vco +Vsp +Ve

cocorrelated V):與測量特質相關的共同變異量

spspecific V):與測量特質無關的個別變異量

 

則效度(val.)為:

 

Val.=Vco/Vo

 

譬如說,「體重」這項特質大致和「身高」這項特質成正比,尺大致也可以區別體重,但是體重又和「體型」很有關,尺卻無法測量「體型」,即「體型」並不和「身高」成正比,因此用尺來測量體重時,其中有許多測不出來的「體型變異量」,無法測得很準確,效度自然不夠高。

 

3、誤差:影響信度與效度的因素

 

從以上數學模式可以看出,信度與效度的大小與誤差的大小成反比。

測量中為何會產生誤差,學者論之甚詳,主要可以歸納為五方面:

a.受訪者的答復

受訪者可能因為個性、情緒、注意力、年齡、性別、反應力、知識背景、社會地位以及其他心理、生理因素, 影響答復的正確性。

b.測量內容

遣詞用字、問題形式、以及內容是否敏感等。

c.情境

訪問時間長短、訪問當時的氣氛、及開頭的引導說明等。

d.研究者本身

訪員是否盡責,事前研究設計是否妥善,事後研究分

析解釋是否合理。

e.疏忽

如聽錯、記錯、轉錄錯誤等等。

因此,產生誤差的原因是多方面,研究者必需面面俱到,才能提高信度與效度。

 

4、信度與效度的關係

 

a.效度是信度的充分條件

已經證明效度很高的量表,信度一定很高。效度的大小反映研究者的理論架構是否正確,因此追求合乎理想的效度是研究者最終的目標。

b.信度是效度的必要條件

信度很高的量表,效度不一定夠高;信度很低的量表,效度一定不符合要求。因此,即使限於研究資源,一項調查訪問做不到分析效度的階段,至少要達到分析信度,若是信度太低,就要及時修正,以免往後分析資料的步驟變成白費力氣。追求合乎理想的信度是研究者最起碼的目標。

 

c.兩者的數學關係

 

前面提到效度的定義公式為:

 

Val.(效度)= co /Vo

 

展開公式,可知效度與信度的關係為:

 

Val.=(Vt -Vsp )/Vo =rtt(信度)-Vsp /Vo

 

故效度應不大於信度。

 

5、信度與效度分析的功能

 

分析信度與效度可以了解測良工具是否優良,從而改善測量的內容或方法,更重要的是可以避免作錯誤的判斷及因錯誤導致的損失。

在純學術研究方面,學者曾分析了總加量表(Munson et al. [253])、語義量表(Menezes et al. [244])及其他特殊研究方法( Zdep et al.[378])的效度,證明他們是有效的測量工具。

在應用方面,美國學者曾發現美國空軍用來評估軍隊作戰能力的測驗,效度非常低,引起了整個制度的大改革;Best [98]用來分析工商行銷界用來開發市場的量表有沒有效;Jacoby [203]則分析「意見領袖」的現象是否存在。

 

(二)信度的類型

 

Peter[274]指出信度傳統上主要分為三類:「再測信度」(test-retest reliability)、「內在一致信度」(internal consistency reliability)及「複本信度」(alternative form reliability);後來,Cronbach et al. [141]則推廣「綜合信度」(reliability as generalizability theory)。

 

1、再測信度(又稱「外在信度,external reliability

 

用同一組量表對同一群受訪者,隔一段時間先後訪問兩次,前後答復的相關係數就是再測信度。間隔的期間通常是兩周左右。不過,再測信度有三個難題:

a.問隔的時間愈長,信度愈低。

b .如果在再次訪問之前,有重大事故改變了受訪者的態度,研究者無法區別到底是「發生事故」或是「量表信度低」造成了改變。

c Nunnally [258]認為再測信度常有高估的趨勢。

再測信度使用時期很長,技術也有很多革新(Burns et al. [114],Parameswarn et al. [266], Silk, [313]),但由於測量不方便,無法一次完成,受訪者也容易厭煩,因此這種分析方式並不十分理想。

 

2、內在一致信度(又稱「內在信度」 , internal reliability

 

「內在一致信度」由「折半信度」(split-half reliability)衍生而出,後者是將量表的項目分成兩半,各別計分,再算出這兩半的相關係數,即為折半係數。通常是按照項目編號的單、雙數來折成兩半。

但是按單、雙數折半,缺乏嚴謹的理論,因為不同的折半方式,會產生不同的信度係數。解決的方法就是算出所有折半信度的平均數,訂為「內在一致信度」。訪問的資料如果是「二元資料」,就用「庫李20號公式」(KR-20,Kuder et al. [224])計算;如果是連續性資料,就用「α係數」( Cronbach [142])計算。這兩種公式,均已有電腦軟體程式可代勞計算。

在當前行為科學調查中,它是分析信度最有價值,也是最受歡迎的途徑。

 

3、複本信度(又稱「穩定等值信度」,stability and equivalence

 

利用兩份內容類似的量表,訪問同一群受訪者,通常也間隔兩周。簡茂發[80]認為這種分析法,可以改正再測信度很多的缺點,對教育成就測驗(即學科考試),或是一般心理實驗可能是最好的方法。

但它主要的難題是除了教育成就測驗等少數領域外,大多數行為科學想要研究的問題,很難找到符合理想的所謂「等值複本」。同時,複本信度的值通常和內在一致信度十分接近(Nunnally [258])。

因此,除了教育、心理學科之外並不多用。

 

4、綜合信度

 

歸納傳統分析信度的力法,不外考慮兩個因素:

a.不同的期間,是否會影響測量結果?(如再測信度)

b .不同的項目,會不會影嚮測量的結果?(如內在一致信度)

這樣的考慮卻可能有兩種缺陷:

a.相同的訪問測量,如果考慮的因素不同,分析的方法不同,會得到不同的信度係數,信度的意義及其進一步的解釋也會迥然不同。

b .影響測量結果的來源,除了各因素獨立的效果之外,應該還有因素間「交互作用」的效果,後者在傳統的分析信度並沒有被考慮到。

為了解決以上兩個問題,以及把信度的意義一以貫之,Cronbach et al. [141]提出了「綜合理論」(generalizability theory)的概念:在不同因素的影響下,「觀察值」中「真實值」的代表性有多大?「真實值」和「觀察值」之比即為「綜合信度」(或稱綜合係數)。

譬如:再測信度可視為以期間為單因素的綜合信度;內在一致信度可視為以測量項目為單因素的綜合信度;而以期間、項目為雙因素的綜合信度,可將測量的總變異量根據數學模式分解為:

 

V VtViVjVtiVtjVijVe

V :總變異量

Vt:真實變異量

Vi:項目變異量

Vj:期間變異量

Vti:真實與項目之間的「交互作用」變異量

Vtj:真實與期間之間的「交互作用」變異量

Vij:項目與期間之間的「交互作用」變異量

Ve:誤差

 

而綜合信度定義為:

 

G(綜合信度)= Vt /(VtVtiVtjVe

 

同理,可以定義三因素以上的多因素綜合信度。分析信度係數的方式,則借助於「變異數分析」(ANOVA)。

綜合信度的優點,是統一了各種信度的概念,同時考慮了測量受到多種因素影響的可能,在理論上比較周延。但是,採用綜合信度的研究還不很多,它的潛力猶待更多的實證來啟發。

 

5、其他信度

 

a.觀察者信度(observer reliability

就是在田野調查、觀察研究、或是問卷設計很粗放且以開放式問題為主的抽樣訪問時,訪員或是觀察員之間,對相同的事實記載是否一致的程度(Orenstein, [260]

不過,在設計很精緻的抽樣訪問中,很少考慮這個問題。

b.評分者信度(Scorer reliability

用在問答題類型的測驗,此較不同的評分者之間,對答復的正負、強弱看法是否一致。

c.內容分析信度

這類信度很多(如:composite reliability, coding reliability, Scott's Pi reliability)計算公式不同,

但功能相若,均為比較不同的研究者,對開放式的答復,歸類彼

此是否一致的程度(Holsti [198])。

在抽樣調查中,除了以開放式問題為主的研究外,很少會考慮以上三種信度。

 

(三)重要信度分析法:內在一致信度

 

1、推求方法

 

內在一致信度是調查訪問最有用、也是最常用的信度

。推求的公式很多,包括:係數、KR-20 公式、KR-21 公式、斯布公式(Spearmen-Brown formula)、范氏公式(Flanagan formula),盧氏公式(Rulon formula 變異數分析法之 rH 分別參見Hoyt [199], Stanley et al. [329]),其中比較有實用價值的有兩種:

 


a.α係數:適於連續性資料

 

 

 

:評審的人數。

:第 i 位評審對全體受試者評分的變異數,即誤差變異數。

:全體評審評分總平均對全體受試者的變異數,即總變異數。

 

b.KR-20 公式:適於二元性資料

 

 

K   :量表中的項目數

p    :答覆為正面的項目數

q    :答覆為反面的項目數

St2  :總變異數

 

本資訊系統將提供呼叫這兩種分析的軟體程式。

同時,二元資料可視為兩個刻度的連續性資料,一併可用α係數推算。

 

2、分析的標準與解釋

 

信度的高低通常都用一個係數表示,係數的數值要多大才可信呢?就純粹統計理論觀點,當然限制愈高愈好,但卻容易使研究通不過檢定;有的學者為了遷就現實,把標準又定得似乎太寬鬆了。

本研究者建議:在本資訊系統中建立「信度係數資料庫」,每一項經過本資訊系統處理過的研究,自動將信度係數載入資料庫中,累積相當資料後,自然可提供比較信度高低的標準。

本研究者當前一方面根據相關係數及變異數分析的理論,一方面參考相關文獻,建議以下斟酌可信程度的參考範圍,作為系統預設值:

 

信度<=.30:不可信

.30<信度<=.40:初步的研究,勉強可信

.40<信度<=.50:稍微可信

.50<信度<=.70:可信(最常見的信度範圍)

.70<信度<=.90:很可信(次常見的信度範圍)

.90<信度:十分可信

對研究問題相當了解,已有相當多文獻可以參考的研究,至少要超過「可信」以上的水準;探索性,有關案例很少的研究,「稍微可信」亦可通過;對研究問題的真象一無所知,沒有一篇可以參考的文獻,這樣的研究至少也應該達到「勉強可信」的水準。

 

(四)效度的類型

 

效度的名目繁複,名異實同的情況尤多,概括而言可分為三大類:內容效度(content validity)、預測效度(predictive validity)及構念效度(construct validity([1])

 

1、內容效度

 

林邦傑[41]指出,內容效度主要用在學科考試前,分析出題的分配是否得當,其他的行為科學很少用。

 

2、預測效度

 

經常又稱為效標關聯效度(criterion-related validity),多半用在學科考試或一般心理測驗上,目的是分析某一項測驗可以預測到多少研究者想探知的特質,這個特質通常是另一項測驗的分數或是某種行為。

預測效度又分為三型:預測力(prediction),同時效度(concurrent validity)及事後效度(postdiction)分別指不同時機的預測行為。譬如:高二學生分組編班考試,如果能恰當地分出適合文、理兩科性向的學生,就是同時效度高;又如高三模擬考試,果然能恰當地反映大學聯考的成績,就是預測力(預測效度)好;又如大學四年的成績,果然和大學入學考試的成績成正此,那就是入學考試出的題目好,事後效度高。預測效度的分析方法相當成熟(Hills [193], Tyebjee [352])不過,一般調查研究很少用得著。另外,預測效度有一個特性,即學者已推算出:預測效度應不大於信度的平方根(林邦傑 [41], McCullough et al. [239]

 

3、構念效度

 

「構念效度」就是分析:研究者是否測量到了他想研究的「構念」。

 

「構念」(construct)至少包括三層意義:

第一,具體的特質,如身高、體重等。

第二,一般人共有的抽象概念,如健康。人們雖然不能明顯而具體地「看到」健康,但都能肯定「健康」是一種實際存在的概念,同時能夠用身高、體重、血壓、運動量、飲食量……等指標,間接地測量出「健康」的好壞。

第三,學者經由思考、觀察、歸納,所領悟出來、構想出來、並且創造出來的一種概念(楊國樞[66])。譬如若是有一位學者發現一個國家的政治體系和一個個人的生理體系有很多相通之處,於是他構想出一個「政治健康」的概念,用生理現象說明政治現象,用影響健康的因素解釋影響政治的因素。如果他能夠說得通,能夠證明「政治健康」可以以簡馭繁地反映許多複雜的政治行為,同時能夠穩定地測量出「政治健康」的好壞。那麼「政治健康」便可以在學理上成為一種「構念」。

以上的三個層次,其間界限並不是截然分明的,它也可以是部分具體而又部分抽象的,可以是已經為人所熟知的,也可以是由於社會變遷,人們為了解釋新問題所提出來的新名詞。

譬如「無力感」、「新人類」、「女強人」、「資訊社會」、「企業再造」…均為近20年外界環境巨變,所新衍生出來,也新被偵測出來的構念。

「構念 」是由枝節的行為所構成的;但我們在進行調查時,通常想要知道的是具備大方向感的「構念 」,而不是枝微末節。

調查問卷經過淨化測量後產生的因素,正相當於「構念 」;而淨化後的剩餘高相關項目,便可提供建立「構念 」。

譬如,如果研究者想了解某班學生的「數學」程度,「數學」就是一種「構念 」。他出了一張50個題目的考卷請學生做答,內容包括加、減、乘、除、三角、幾何…微積分、與成語測驗。評分後,他使用淨化測量技術,發現成語能力與數學這項「構念 」相關不大,於是便將「成語」從考卷中排除。但是,他也不需要知道誰比誰的加法好、減法好…,他把剩下所有的項目總加起來,再比較總分,就可以知道,到底誰的「數學」好。

本資訊系統便將支援建立構念分析的程序。

構念效度的概念在1960年代以前尚未興起,1980年後才大放異采,未來可能是行為科學界主要依據的效度。

Kaplan [211]認為:堪以研究的「構念」至少應該具備兩個條件:

a.理論定位(systemic 若直譯則為系統性)

即「某種構念」在研究理論中明確的定義為何?在科學理論中擔負何種功能?譬如一組以某種態度為研究構念的量表,其中的「態度」到底何指?因為依據「態度理論」態度又包含三個層次:認知、態度和行為(Fishbein et al. [159])研究者想探討的是廣義的態度(tripartite)還是狹義的態度(single component)?必需確切定義。

b.可測量性(observational

 構念必需可以直接測量或是經過「操作化」(operationalized)間接測量(Torgerson[345])它的大小或強弱。研究的對象如果沒有可測量性,只是一個空洞的名詞,不能稱之為構念;而雖可以測量卻缺乏理論定位的性質,也只能算是一種物理現象,尚不足構成「構念」。

「構念效度」有兩種定義方法,理想的定義是:具有構念效度量表可以:a.測出所有研究者想要探討的構念。b.只有這樣的構念被測量出來。Blalock [102]稱這種量表和構念之間為具有「意識相關」(epistimic correlation)。

但人類的行為當中很少有孤立的構念,因此比較落實的定義乃是:一組量表的構念效度為:a.在一組具有代表性的合格樣本中,所有研究構念可以測出來的程度,b.在測量結果中,不包括其他構念和誤差的程度。

構念效度包含三個成分:a.信度:量表本身可信的程度;b.輻合效度(convergent validity):可以測出構念的程度;c.辨別效度(discriminant validity):不包括其他構念和誤差的程度。這三種成分必需靠合乎邏輯的推理,使它們合為一體的概念。

分析構念效度至少要經過兩次,最好是一連串的測量訪問後才能進行。

構念效度的功能除了分析量表是否有效之外,更可以驗證想要經過測量以建立的理論是否正確。如果一項調查研究的效度很低,可以提供研究者反省:a.是否研究理論不正確?b.是否研究構念的定位不正確?c.是否量表設計不正確?(Peter [273], Schwab [305]

 

4、其他的效度

 

其他的效度有的是很少用的效度,有的是名稱不同,但意義和前述所談的效度完全相同,或是非常接近。

 

a.表面效度

「看起來」像不像有效的樣子,並沒有嚴密的數理推算力式。

b.規律效度

也是研究量表與構念的關係,意義為:甲量表可測甲構念;乙量表可測乙構念,若甲構念和乙構念在理論上有相當的關聯,則甲量表和乙量表在實證上應有相當程度的一致,一致的程度就是規律效度(Allison [82], Peter[273])。當然,三種以上的構念、三種以上的量表一起研究會更好。

c.內在效度與外在效度

它們原是實驗研究用來分析效度的方法,它們的定義本不盡適用於抽樣調查研究(Babbie [87])。但有些學者借用這兩個名詞,以「內在效度」稱「構念效度」;而以「外在效度」指抽樣樣本代表性的程度(Lin [235])這樣的區分並不值得推廣。

d.因素效度

指在因素分析中,變項變異量與總變異量之間的關係Garson [171])。但這種關係和前文所談的效度概念並不完全一致,因此往後宜正名為「因素組合」(factorial composition)比較妥當(Nunnally [258])。

 

(五)重要效度分析法:構念效度

 

1、推求方法

 

「構念效度」尚屬在發展中的概念,因此推求的力法相當地分歧,歸納言之,吳統雄[32]將其分為四個途徑:

a.多元特質---多重方法矩陣類(multitrait-multimethod matrix

簡稱MTMM

Campbell & Fiske [117]所倡導,奠定了檢定構念效度的里程碑,其他學者發展出來的分析方法,也經常採用MTMM一同考驗、相互印證,因此,MTMM可稱為檢驗構念效度的主流。另外還有「多元特質——多重側影矩陣」(multitrait-multiprofile matrix,簡稱MTMP)、「多重方法——多項活動矩陣」(multimethod-multiactivity matrix,簡稱MMMA)等,理論與MTMM完全一致,只是矩陣中「行」或「列」的性質略有變更。

b.相關與迴歸類

 包括相關分析(correlation)、多元迴歸(multiple regression)、因徑分析(path analysis 或稱因果模型 causal model

c.因素分析類

又包括區別分析(discriminant analysis

d.變異數分析類

又包括共變數分析(analysis of covariance )簡稱ANCOVA

 

2、MTMM分析步驟

 

MTMM是抽樣調查中最有用,也是最常用分析構念效度的方法( Lehnen[233]),故將其實施方式介紹如下:

a.決定研究問題

假設研究問題為「臺灣地區選民的政黨、省籍和教育程度對政治態度的影響」。研究者在分析這個問題之前,必須確知他的測量工具能有效的測出受訪者的「政治態度」,否則,任何分析推論都有可能是錯誤的。

b.決定研究構念

根據研究文獻,臺潸地區選民的政治態度,可以劃分為三個主要的層次:對「公共政策」的態度、對「政治規範」的態度及對「政治安全」的態度(吳統雄[38] )。因此,決定在訪問問卷中包含三組量表,分別測量這三種態度,每一種態度即為一項研究構念。分析構念效度所需要的「構念」必需在兩個以上。

c.決定測量工具

假設分別使用兩種工具:總加量表(summated scale)和比較判斷法(comparative judgment)測量相同的「構念」。

分析構念效度所需要的工具,必需在兩種以上。

d.列出MTMM矩陣

I)信度對角線(reliability diagonal

II)效度對角線(validity diagonal

III)(IIIa)異質同方域(heterotrait-monomethod triangles

IV)(IVa)異質異方域(heterotrait-heteromethod block

 

3、檢驗的標準與解釋

 

分析MTMM的時候,不見得都會像上例運氣那麼好,有時輻合效度不能確定是否充分大於零,有時效度係數不一定比所有的異質相關係數大,有時更不能用視覺判定某些區域內的組成形式是否一致。尤其在使用三種以上的工具,分析的構念又很多時,矩陣內的小區域更多,問題也就愈大。

因此,MTMM也曾備受Menezes et al. [244]批評。學者面對這個問題,經常是根據研究經驗及相關的文獻資料,來判斷檢驗是否「通過了」,迄今並末發展出一套固定的檢定標準。

 

本研究者建議:在本資訊系統中建立「效度係數資料庫」,每一項經過本資訊系統處理過的研究,自動將信度係數載入資料庫中,累積相當資料後,自然可提供比較信度高低的標準。

本研究者並根據以往的研究報告,建議以下參考標準作為系統預設值:

a.輻合效度

效度≦.1無效

0.1<效度≦0.3:是否有效應據相關研究斟酌

0.3<效度≦0.5:有效(最常見的範圍)

0.5<效度≦0.7:很有效(次常見的範圍)

0.7<效度:十分有效

b.辨別效度

a)效度三角形與異質異方域

設效度係數大於異質相關係數的百分比為P,則:

P50%:無效

50%<P70%:應據相關研究斟酌

70%<P90%:有效(常見範圍)

90%<P:很有效

b)效度三角形興異質同方域

設效度係數大於異質相關係數的百分比為Q,則:

Q50%:無效

50%<Q70%:有效(常見範圍)

70%<Q90%:很有效(常見範圍)

90%<Q:十分有效

c)同類區域的組成形式

學者通常用和諧係數( coefficient of concordance: Siegel [312])檢定其間組成形式是否充分且顯著相關,可由本資訊系統呼叫軟體程式以供檢定。或者採用變異數分析、區別分析作輔助判斷。

 


horizontal rule

([1])國內曾將 construct validity 直譯為「建構效度」。但「建構」在中文語意中頗不能達意。

本研究者曾經鑑於 construct在國外文獻中常與trait(特質)互用,trait即指研究者所關注的抽象性質,故曾將其譯為「特質效度」

另外,楊國樞也覺得譯為「建構」不妥,主張譯作「構念」。本研究者經深思後:決定從楊說。