ÖLÇME KARAR KURAMI

Prof. Dr.  Lawrence M. Rudner'in izniyle Türkçeleştirilmiş ve yayınlanmıştır.

Asıl Kaynak Erişim Adresi: http://echo.edres.org:8080/mdt/

ÖLÇME KARAR KURAMI

Wald (1947) tarafından geliştirilen, ilk olarak Cronbach ve Gleser (1957) tarafından yapılan ölçümlere uygulanmış ve şu anda mühendislik, tarım ve bilgisayar hesaplamalarında yaygın bir şekilde kullanılan karar teorisi, kategorik verilerin analizi için basit bir model sunmaktadır. Amacın teste tabi tutulan kişileri iki kategoriden (örneğin başarılı / başarısız ya da yetkin / yetkin değil) birine sınıflandırmak olduğunda en uygun teoridir.

Pilot testten, birkaç hesaplama:

1.   Evrendeki yetkin (master) ve yetkin olmayanların oranı, ve

2.   Sınava giren her bir soruya doğru yanıt veren yetkin ve yetkin olmayan kişilerin koşullu olasılıkları

Test uygulandıktan sonra, herhangi biri hesaplayabilir (pilot veri ve sınava girenlerin yanıtları temel alınarak)

1.   Yetkin ve yetkin olmayanlar için bir teste girenlerin yanıt örüntülerinin benzerliği,

2.   Sınava giren adayların yetkin ve yetkin olmama olasılığı

Bu eğitim, karar teorisine genel bir bakış sunmaktadır. Temel kavramlar, ikili sınıflandırma (başarılı / başarısız) testi ve örnek üç-madde testi kullanılarak sunulmakta ve gösterilmektedir. Etkileşimli eğitim, pilot uygulamanın sonuçlarını, sınav olanın yanıt örüntüsünü ve maliyet tablosunu değiştirmenize izin verir. Bir sınava gireni sınıflandırmak (yetkin / yetkin değil) için çeşitli kurallar, daha sonra temel hesaplamalarla birlikte sunulur. Etkileşimli araca hızlı bir bağlantı bu sayfanın en üstündedir. Excel programı, modeli daha iyi anlamanıza yardımcı olmak için olasılıkları, madde yanıtlarını ve maliyet tablosunu değiştirmenize izin verir.

GEREKÇE

Klasik Ölçme Kuramı (CMT) ve Madde Yanıt Kuramı (IRT) ilk olarak, yeterlik sürecinde sınava girenlerin sıralarını düzenlemek ile ilgilidir. Bu modeller örneğin yüzde 90 ve 92 oranında sınava girenlerin farklılaşmasıyla ilgilenir. Fakat herhangi biri, sınava girenleri genellikle sınırlı sayıdaki farklı iki kategoriden (örneğin: başarılı/başarısız ya da yeterli/ortalama/ortalamanın altında) birisine göre sınıflandırır. Bu daha basit bir sonuçtur ve daha basit bir ölçme modeli yeterli olmalıdır. Ölçme karar kuramı bu durum için kullanılabilir basit bir araçtır.

Ölçme karar kuramı, maddelerin bağımsız olduğuna dair tek bir anahtar varsayım gerektirir. Bu nedenle, test edilen konu alanın tek boyutlu olması gerekmez, sınava giren kişinin yeterliğinin normal olarak dağılmasına gerek yoktur ve kişinin örtük sınıf modeli ya da madde yanıtı teorisinde (IRT) olduğu gibi teorik bir modele uyumuyla ilgilenmesi gerekmez. Model; yönlendirici mekanizma olarak, zeki öğretim sistemleri, ünite sonu sınavları, uyarlanabilir testler için ve diğer sınavlardaki sınıflandırma oranını hızlı bir şekilde elde etmede etkilidir. Çok az pilot test incelemesi gereklidir ve sınıflandırmanın doğruluğu bu bir kaç soru ile madde yanıt kuramı ile yapılabilir. Bu çekici özellikler dikkate alındığında, bu modelin ölçme alanında geniş bir yer bulamaması şaşırtıcıdır.

KURAM 

Genel Değerlendirme ve Formülleştirme

Hedef;  sınava girenlerin sorulara verdikleri yanıtlara, muhtemel soru bilgisine ve  muhtemel evrenin sınıflandırma (yetkin / yetkindeğil) oranlarına dayanarak bireysel sınava girenin yetkin olup olmadığına yönelik en iyi tahmini ortaya koymaktır. Dolayısıyla model dört bileşenden oluşmaktadır: 1) Sınava girenlerin muhtemel yetkin olma durumları 2) soruları ayarlamak / soruları derecelendirmek (kolay-orta-zor) 3) bireylerin yanıtlama örüntüleri ve 4) sınava giren birey hakkında karar vermedir.

Mk değerleri alan, olası K yetkin durumu vardır. Başarılı / başarısız test durumunda, K=2 ve iki olası durum olur. Olası, her yetkin olma/olmama durumunda tüm sınava girenlerin evreni için yaklaşık oranlarını bilir.

İkinci bileşen, her yetkin durumu bilinen, her olası gözlemin genellikle doğru ya da yanlış olasılığının da muhtemel olduğu bir dizi unsurdur.

N tane soruya verilen yanıt formu üçüncü bileşeni oluşturur. Her bir madde, davranışsal olarak yetkin durumları ile ilgili ve gözlenen değerler znile gerçekleştirilen farklı rastgele değişken olarak dikkate alınır. Her sınava giren kişinin z1, z2, ... zNden oluşan bir yanıt vektörü bulunur. Bu makalede sadece ikiye ayrılmış madde puanları dikkate alınmıştır.

Son bileşen karar alanıdır. Verilere dayalı olarak herhangi bir sayıda D kararı oluşturulabilir. Tipik olarak, biri yetkin olma durumunu tahmin etmek ister ve D=K kararlarında olacaktır. Uyarlanabilir veya sıralı test ile, testin devam etmesi için bir karar verilecek ve böylece D = K + 1 kararları olacaktır. Her bir karar dkolarak gösterilecektir.

Test, K kategorilerindeki her bir evrende sınava girenlerin oranı ve doğru yanıt veren her bir kategorinin sınava girenlerinin oranı ile başlar. Evren oranları; önceki testler, mevcut skorların dönüşümleri, mevcut sınıflamalar ve hükme varma gibi çeşitli yollarla belirlenebilir. Bilginin yokluğunda ise eşit olasılıklar kabul edilebilir. Doğru yanıt verenlerin oranı; halihazırda var olan verilerin sınıflandırılmış veya dönüştürülmüş incelemelerini içeren küçük bir pilot testten türetilebilir. Önceden belirlenen sınıflama ya da dönüştürme hazır olduğunda; maddeler uygulanır, yanıtlar gözlemlenir (z1,z2, ... zN), ve sonrasında ise sınıflandırma kararı dk, bu maddelere verilen yanıtlar temel alınarak yapılır.

Pilot testten alınan oranlar, muhtemel olarak kabul edilir ve aşağıdaki gösterim kullanılır:

Önseller:

 

  • p(mk) – rastgele seçilmiş sınava girenlerin yetkin durumuna mksahip olma olasılığı
  • p(zn|mk) – k’ıncı yetkin olma durumunu veren zn cevabın olma olasılığı

Gözlemler:

  • z– bireyin yanıt vektörü z1, z2, ..., zNburda zi 0(0,1)

Sınava girenlerin yetkin olup olmama durumu, önsel olasılıklar ve gözlemler kullanılarak tahmin edilir. Bayes Teoremi,

 

P(mk | z) = cP(z|mk) P(mk)

Sınava girenin yanıt vektörünü veren yetkin durumu mk olduğu sonsal olasılığı P(mk|z), normalleştirilmiş bir sabit (c), yanıt vektörünü veren mk olasılığı ve önsel muhtemel sınıflandırmanın çarpımına eşittir.  Her sınava giren kişinin,her yetkin durumu için bir K olasılığı bulunur. Aşağıdaki hesaplamada normalleştirme sabiti (1), sonsal olasılıkların toplamının 1’e eşit olmasını sağlar.

 (1)

Yerel bağımsızlık varsayılırsa,

  (2)

Yani, yanıt vektörünün olasılığı, madde yanıtlarının koşullu olasılıklarının çarpımına eşittir. Bu eğitimde, her yanıt doğru (1) veya yanlış (0) ve P (z1= 0 | mk) = 1- P (z1= 1 | mk) şeklindedir.

Karar teorisinden üç anahtar kavram daha sonra tartışılacaktır:

1.     Karar kuralları - yanıt örüntülerine dayalı sınava girenleri sınıflandırmak için alternatif yöntemler,

2.     Sıralı testler - bireylerin yanıt örüntülerine dayalı maddelerin uyarlanabilir bir şekilde seçmek için alternatif yöntemler ve,

3.     Sıralı kararlar - Testin devam edip etmeyeceğinin belirlenmesi için alternatif yöntemler.

Model, sırasıyla m1 ve m2 için doğru kararlar olan iki olası d1 - d2ve iki olası yetkin olma durumu m1– m2kararlarının incelenmesiyle gösterilmektedir. Örnekler, Tablo 1'de gösterilen madde istatistikleriyle üç madde testi kullanmaktadır. Ayrıca, pilot test verilerine dayanarak, önceki sınıflandırma olasılıkları P (m1) = 0.2 ve P (m2) = 1-P (m1) = 0.8'dir. Örnekte, sınav olan kişinin yanıt vektörü ise [1,1,0]’dır. 

 

Tablo 1:Doğru bir cevabın koşullu olasılıkları, P (zi= 1 | mk)

 

Madde 1

Madde 2

Madde 3

Master olanlar (m1)

.6

.8

.6

Master olmayanlar (m2)

.3

.6

.5

 

Karar Kuralları

Buradaki görev, Tablo 1'deki ve sınava giren kişinin yanıt vektöründeki verilere dayanarak bir sınava giren kişinin sınıflandırmasına (yetkin olan, yetkin olmayan) ilişkin en iyi tahminin yapılmasıdır. Yukarıda belirtilen ikinci yöntem temel alınarak, vektörün olasılığı z = [1,1,0] ise,  sınava girenin yetkin olması .6*.8*.4=.19 ve eğer yetkin değilse .09’dur. Yani, P (z | m1) = .19 ve P (z | m2) =. 09. Normalize edilmiş hesaplaması; P (z | m1) = .68 ve P (z | m2) = .32.

Karar vermek için yeterli bir istatistik, yukarıdaki örnek için L (z) = .09 / .19 = .47 olan olasılık oranıdır. Bu yeterli bir istatistiktir, çünkü tüm karar kuralları L(z) 'yi bir ölçüt değeri 8 ile karşılaştıran bir test olarak görülebilir.

  (3)

8 değeri, sınıflandırma hatalarının farklı tiplerinin göreli önemine ilişkin seçilmiş yaklaşımları ve kararları yansıtır. 

Maksimum olasılık karar ölçütü

Bu, en basit karar yaklaşımıdır ve sadece, her bir yetkin olma ya da olmama durumuna (yani P (z | m1) ve P (z | m2) ) verilen yanıt vektörlerinin koşullu olasılıklarına dayanır. Kavram, yanıt vektörünün en olası sebebi olan yetkin durumunu seçmektir ve aşağıdaki şekilde ifade edilebilir:

Bir dizi madde yanıtları z hesaplandığında, büyük olasılıkla mk üretilen z ise,  karar alma dk’dır.

Bu ölçüt temel alınarak, P (z|m1) =.68 > P (z | m2) =.32'den itibaren en olası sınıflandırma – yetkin olarak sınava gireni sınıflandırır.

Bu ölçüt evrende yetkin ve yetkin olmayanların olasılıkları hakkında önsel bilgiyi göz ardı etmektedir. Eş değer olarak, evrendeki önsel bilgileri eşit varsayar. Örneğin birkaç sınava giren kişiler yetkin, P(mk)=.20'dir. Yanıt vektörlerinin koşullu olasılıklarının oldukça yakın olduğu göz önünde bulundurulduğunda, bu sınıflandırma kuralı iyi bir karar vermeyebilir.

Hata karar ölçütü minimum olasılığı

İkili karar durumunda, iki tür hata bulunur; m2doğru olduğunda d1kararın verilmesi ya da m1doğru olduğunda d2kararının verilmesidir. Eğer m1sıfır hipotezi olarak düşünülürse, o zaman istatiksel teori açısından bir kişi için karar olasılığı yetkin olduğudur, d1aslında kişi yetkin olmayan m2ise x bilindik anlam seviyesidir ve P(d2|m2) testin gücüdür, $. Her iki hata türü de eşit maliyetli olduğunda, doğruluğu en üst düzeye çıkarmak veya toplam hata olasılığını en aza indirmek istenebilir, Pe. Bu ölçüt ise şöyle ifade edilebilir:

Bir dizi madde yanıtları z hesaplandığında, toplam hata olasılığını en aza indiren karar bölgelerini seçin.

Bu ölçüt bazen “ideal gözlemci ölçütü”olarak adlandırılır. İkili durumda,Pe = P(d2|m1) + P(d1|m2)ve(3)’teki olasılık oranı testi ile aşağıdaki belirtilen yöntem kullanılır.

Örneğin, 8=.25 ve karar yetkin olmayan d2’dir.

 

Maksimum sonsal karar kriteri (MAK)

Maksimum olasılık karar ölçütü, sadece yanıt vektörünün olasılıklarını kullanır. Minimum hata ölçüt olasılığı da, önceki sınıflandırma olasılıkları P (m1) ve P (m2) 'yi de kullanır. MAK, mevcut bilgileri kullanan başka bir yaklaşımdır:

Bir dizi madde yanıtları z hesaplandığında, en olası yetkin durumu mkise karar dk’dır.

Diğer bir deyişle,

Denklem (2)'den, P(mk|z)=c P(z|mk) P(mk),MAK hata karar ölçütünün minimum olasılığına eşdeğerdir.

 Bayes Risk Ölçütü

Karar kuramı çerçevesinin önemli bir avantajı, karar maliyetlerini analize dahil edilebilmesidir. Bu ölçütlere göre, maliyetler her doğru ve yanlış karar için belirlenir ve daha sonra toplam ortalama maliyetleri en aza indirilir. Örneğin, yanlış negatifler yanlış pozitiflerin iki katı kadar hatalı olabilir. Eğer, mjdoğru olduğunda cij, di karar verme maliyeti ise, o zaman beklenen ya da B'nin ortalama maliyeti aşağıdaki gibi hesaplamadan çıkan sonuçtur.

B=(c11P(d1|m1) + c21P(d2|m1)) P(m1) + (c12P(d1|m2) + c22P(d2|m2)) P(m2)

Ve ölçüt de aşağıdaki gibi olabilir:

            Bir dizi madde yanıtları z hesaplandığında ve her bir karar ile ilişkili hesaplamalar göz önüne alındığında toplam hesaplamaları en aza indirmek için dkseçin.

İki yetkin olma ya da olmama durumu için, beklenen toplam maliyet, (2) 'deki olabilirlik oranı testi kullanılarak minimize edilebilir.

 (4)

Bu minimum kayıp kriteri ve optimal karar kriteri olarak da isimlendirilebilir. Eğer maliyetler c11 = c22 = 0 ve c12 = c21 = 1 ise, B, Pe ile aynıdır ve bu yaklaşım, minimum hata olasılığı ve MAK ile aynıdır. C11 = c22 = 0 ve c21 = 2, c12 = 1 ve örnek veri, 8 = .50 ve karar d2- yetkin değildir.

Uyarlanabilir Test

Sabit sayıda madde uygulandıktan sonra bir birey için bir sınıflandırma kararı vermek yerine; bilgiyi maksimize etmek, tahmin edilen yetkin olma durumunu sınıflandırma olasığılını güncellemek ve sonrasında testi sondırmak için yeterli bilginin bulunup bulunmadığını değerlendirmek için maddeleri sırasıyla seçmek mümkündür. Ölçmede bu uyarlanabilir veya uyarlanmış test olarak adlandırılır. İstatistikte sıralı test denir.

Her adımda p(mk|z) sonsal sınıflandırma olasılıkları; önsel olasılıkları güncellemek ve bir sonraki maddenin belirlenmesine yardımcı olmak için kullanılır. Karar kuramının sıralı testini görüntülemek için, yine m1 ve m2 olmak üzere olası yetkin olup olmama durumunun bulunduğu durumu göz önünde bulundurarak Tablo 1'deki madde istatistiğini kullanın. Sınava girenin ilk maddeye doğru yanıt verdiğini ve görevin ise sonrakinde kalan iki maddeden hangisinin uygulanacağını seçmek olduğunu varsayalım.

İlk maddeye doğru bir şekilde yanıt verdikten sonra, mevcut durum yetkin olma olasılığı .6*.2/(.6*.2+.3*.8) = .33 ve yetkin olmama olasılığı formülden (1) .66  olarak  güncellenir.

Mevcut doğru yanıt verme olasılığı

 (5)

(5)’deki formülün uygulanmasıyla, 2. maddeye doğru yanıt verme olasılığı,  P(z2=1)=.8*.33+ .6*.66 = .66  ve 3. maddeye ise P(z3=1)=.53. Aşağıdaki başlıklarda bu iki maddeden hangisinin daha sonra uygulanacağını belirlemek için bazı yaklaşımlar yer almaktadır.

 

Minimum beklenen maliyet

Bu yaklaşım, en düşük beklenen maliyet sahip madde olarak uygulanacak en uygun maddeyi tanımlar. Denklem (4), karar hesaplamalarını sınıflandırma olasılıklarının bir fonksiyonu olarak sunar. Eğer c11=c22=0 ise

B=c21P(d2|m1) P(m1) + c12P(d1|m2) P(m2)

İkili karar durumunda, yanlış bir karar verme olasılığı, bir eksi doğru karar verme olasılığıdır ve doğru karar verme olasılıkları, tanım olarak, denklem (1)'de verilen sonsal olasılıklardır. Dolayısıyla, mevcut Bayes maliyeti  B=1*(1-.33)*.33 + 1*(1-.66)*.66 = .44'dür.

Minimum beklenen maliyet, genellikle ardışık testlerle ilişkilendirilir ve Lewis ve Sheehan (1980), Macready ve Dayton (1992), Vos (1997) ve diğerleri ölçme problemlerine uygulamışlardır.

Her bir öğe için beklenen maliyeti hesaplamak için aşağıdaki adımlar kullanılabilir.

1.     Sınava giren kişinin doğru yanıt verdiğini varsayalım. (1) deki denklemi kullanarak sonsal olasılıkları ve denklem (6) maliyetler kullanılarak hesaplanır.

2.     Sınava giren kişinin yanlış yanıt vereceğini varsayalım. Sonsal olasılıkları (1) deki denklem kullanarak ve sonra (6) maliyetler kullanarak hesaplayın.

3.     Maddeye doğru bir yanıt verme olasılığı ile 1. adımdaki maliyeti tekrar yapın

4.     Maddeye yanlış bir yanıt verme olasılığı ile 2. adımdaki maliyeti tekrar yapın

5.     3. ve 4. adımdaki değerleri ekleyin/kaydedin.

Böylece, beklenen maliyet, bu cevabın olma olasılığı ile ağırlıklandırılmış her bir yanıt maliyetlerinin toplamıdır. Eğer sınava giren kişi madde 2 ye doğru yanıt verirse, o zaman yetkin olmanın sonsal olasılığı (.8*.33)/(.8*.33+.6*.66)=.40 ve ilgili maliyeti 1*(1-.40)*.40+1*(1-.60)*.60 =.48 olacaktır. Eğer sınava giren kişi yanlış yanıt verirse, o zaman yetkin olmanın sonsal olasılığı (.2*.33)/(.2*.33+.4*.66)=.20 olacak ve ilgili maliyeti 1*(1-.20)*.20+1*(1-.80)*.80 =.32 olacaktır. Denklem (5)'den doğru bir cevabın olasılığı, 2. madde .66*.48+(1-.66)*.32 = .42 olduğu için beklenen maliyet  .66'dır.

Yanıt doğruysa 3. madde maliyeti .47 ve yanıt yanlışsa .41'dir. Dolayısıyla, madde 3 beklenen maliyeti .53*.47+(1-.53)*.41 = .44'dür. 2. madde beklenen en düşük beklenen maliyete sahip olduğu için, bundan sonra uygulanacaktır.

Bilgi Kazanımı

Bu makalenin tamamı, sınava girenlerin yetkin olup olmama durumunu, en iyi şekilde  tahmin etmek için yanıt vektörlerinin çözümlenmesinde önsel maddeleri ve sınava girenlerin dağılım bilgilerinin kullanılmasıyla ilgilidir. Bilgi kuramından yaygın olarak kullanılan bilgi ölçümü (bkz. Kapak ve Thomas, 1991), Shannon (1948) entropisi, burada uygulanabilir:

Burada pk, sınıf k’ya ait S’nin oranıdır. Entropi, bir dağılımın tekdüzeliğinin bir ölçüsü olarak görülebilir ve tüm k için pk = 1 / K olduğunda maksimum değere sahiptir. Amaç, P(mk) 'nin uç bir dağılıma sahip olmak ve daha sonra entropide beklenen en büyük azalmaya sahip maddeyi seçmektir. Yani;

H(S0) - H(Si)

Burada H(S0)mevcut entropidir ve H(Si)Madde I uygulandıktan sonra beklenen entropidir, yani, doğru ve yanlış bir cevaba karşılık gelen sınıflandırma olasılıklarının ağırlıklı koşullu entropilerinin toplamıdır.

Bu, aşağıdaki adımları kullanarak hesaplanabilir:

1.   (1) nolu denklemi kullanarak madde I doğru ve yanlış bir yanıttan kaynaklanan normalleştirilmiş sonsal sınıflandırma olasılıklarını hesaplayınız.

2.    (5) nolu denklem kullanılarak koşullu entropileri (doğru bir yanıt üzerindeki koşul ve yanlış bir yanıt üzerindeki koşul) hesaplayın.

3.   Koşullu entropileri (7) nolu denklemini kullanarak olasılıklarının ağırlıklarını hesaplayın.

Tablo 2, Örnek verilerle hesaplamaları göstermektedir.

Tablo 2: 2. ve 3. maddeler için beklenen sınıflandırma entropilerinin hesaplanması.

 

Yanıt (zi)

Sonsal Sınıflama Olasılığı

Koşullu Entropi

P(zi)

H(Si)

Madde 2 

Doğru

P(m1)=.40

.97

.66

.89

 

 

P(m2)=.60

 

 

 

 

Yanlş

P(m1)=.20

.72

.33

 

 

 

P(m2)=.80

 

 

 

Madde 3

Doğru

P(m1)=.38

.96

.53

.92

 

 

P(m2)=.62

 

 

 

 

Yanlış

P(m1)=.29

.87

.47

 

 

 

P(m2)=.71

 

 

 

 

İlk maddeyi uyguladıktan sonra, P (m1) = .33, P (m2) =. 66 ve H (S) =. 91'dir. Madde 2, beklenen en büyük entropi kazancı ile sonuçlanır ve bir sonraki aşamada uygulanmalıdır.

Bu yaklaşımın başka bir şekli, Kullback-Leibler (1951) bilgi ölçümü ve bilgi ıraksaklığıolarak da adlandırılan göreceli entropidir. Chang ve Ying (1996), Eggen (1999), Lin ve Sprey (2000),  uyarlanabilir test stratejisi olarak K-L bilgisini olumlu olarak değerlendirmiştir.

Okuyucu, 3. maddeyi uyguladıktan sonra beklenen entropinin H(S) değerinden daha büyük olacağını ve bilgi kaybıyla sonuçlanacağını not etmelidir. Yani, madde 3 uygulanacaksa, sınıflandırma olasılıklarının daha az uç noktada olması beklenir. Sonuç olarak, bu madde bir sonraki madde için aday olarak değerlendirilmemelidir. Bilgi kazanımı ile sonuçlanması beklenen havuzda herhangi bir madde kalmadığında maddeleri uygulamak istemeyebilir. 

Sıralı Kararlar

Bu makalede, sınıflandırma kararını vermek ve sıralı olarak uygulanacak olan sonraki maddeleri seçmek için yöntemler tartışılmıştır. Bu bölüm,  bir sınıflandırma tahminini riske atmak için yeterince bilgi olduğunda karar verme yöntemlerini sunmaktadır. Her yanıttan sonra bu karar yöntemi uygulanabilir.

Belki de en basit kural Neyman-Pearson karar ölçütleridir- yanlış bir negatif, P (d2| m1) olasılığı, önceden seçilmiş bir değerden daha az olana kadar test etmeye devam edin. Farz edelim ki seçim .05 olsun. İlk madden sonra yetkin olmama olasılığı P(m1|z) = .66'dır. Sınava girenler yetkin olmadığı belirtilmesi durumunda, yanlış bir negatif mevcut olasılığı (1-.33)'dir. Dolayısıyla, seçilen değerden fazla olduğu için karar testlerine devam edilir.

Neyman-Pearson bir biçimi “sabit hata oran ölçütü”’dir; iki eşik değerini belirleyin  "1and "2 ve P(d2|m1) < "1and P(d1|m2) < "2 oluncaya kadar test etmeye devam edin. Diğer varyantı ise “maliyet eşiği kriterleridir”. Bu yaklaşıma göre; her doğru ve yanlış karar için maliyetleri belirlenir ve başka bir gözlem alıp almama durumuna karar verilir. Test maliyet eşiğine ulaşana kadar devam eder. Bu yaklaşımın bir çeşidi uygulanan maddelerin sayısı arttıkça maliyet yapısını değiştirmektedir.

Wald'ın (1947) sıralı olasılık oran testi (SPRT, belirgin artış), en iyi bilinen sıralı karar kuralıdır. K çoklu kategoriler için SPRT şöyle özetlenebilir;

P(mj) normalize edilmiş sonsal olasılıklar, " kabul edilebilir hata oranı ve $ istenen doğru karar verebilme gücünü ifade etmektedir. Koşul herhangi bir k kategorisi için uygun değilse test devam eder. Ölçme alanında IRT tabanlı uyarlanabilir bilgisayar testleri için SPRT'nin bir sonlandırma kuralı olarak çok etkili olduğunu gösteren büyük ve etkileyici bir literatür vardır (c.f. Reckase, 1983; Spray and Reckase, 1994, 1996; Lewis and Sheehan, 1990; Sheehan and Lewis, 1992).

TARTIŞMA

Cronbach ve Gleser (1957) çalışmalarında test için nihai amacın, nitel sınıflandırma kararlarına ulaşmak olduğunu savunmaktadır. Günümüz kararları genellik ikilidir, örneğin; birini işe alıp almama, bir kişinin belirli bir beceride yetkin olup olmaması, kişiyi destekleyip desteklememe gibi. Çok koşullu durumlarda, durum değerlendirmeleri yaygındır, örneğin; temel, yetkin ya da ileri seviyede performans gösteren öğrencilerin yüzdesi. Bu makalede sunulan basit ölçme modeli, kategorik bilgilerle ilgilenen yukarıda bahsedilen durum ve bunlar gibi diğer durumlara uygulanabilir. 

Model çok basit bir yapıya sahiptir - her madde, her bir maddeye doğru yanıt veren yetkin durumundaki sınava girenlerin koşullu olasılıkları ile başlar. Bu olasılıklar çok küçük bir pilot örneklemden elde edilebilir. Bu araştırma, sınava giren kişinin her madde başına minimum hücre büyüklüğünün, uygun bir kalibrasyon örnek büyüklüğü olduğunu göstermiştir. Bu kadar küçük örneklem büyüklüğü ile kalibre edilen testlerin doğruluğu,  hücre başına yüzlerce sınava girenlerin, kalibre edilmiş testlerinin doğrulukları ile neredeyse aynıdır.

Bireyin yanıt örüntüleri bu koşullu olasılıklara karşı değerlendirilir. Her yetkin seviyesi, verilen yanıt vektörünün olasılıklarını hesaplar. Bayes Teorimi kullanılarak, koşullu olasılıklar her yetkin olup olmama durumunun olasılığını sunan sonsal olasılıklara dönüştürülebilir. Alternatif karar kuralları sunulmuştur.

Bu çalışmada, model kullanılarak maddeleri uyarlanabilir ya da sıralı olarak uygulamak için iki yol incelenmiştir. Geleneksel karar teorisi ardışık test yaklaşımı, minimum maliyet ve yeni bir yaklaşım olan, bilgi teorisinden gelen ve entropiye dayanan bilgi kazancı yaklaşımlarıdır.

Araştırma, sistemi kalibre etmek için çok az pilot test sınava giren kişilere ihtiyaç olduğunu göstermektedir (Rudner, basında). Bir ya da iki sınava giren kişilerin madde ve hücre başına, pilot testlerinin yüzlercesi ile kalibre edilmesi doğrulana kadar test edilmesiyle sonuçlanır. Sonuçlar test uzunlukları ve madde havuzları arasında tutarlıydı. Pilot uygulamalardan elde edilen temel veriler, doğru olarak yanıtlanan her bir yetkin olup olmama durumundaki sınava girenlerin oranlarıdır. Her biri ustalık durumunda olan rastgele seçilmiş bir sınavın gerçek olasılıklarına ihtiyaç duyulmaz. Aynı önseller, gerekli olan maddelerin sayısını arttırır ve uygun bir şekilde durdurma kararı kuralları doğruluk oranını ciddi anlamda etkimez.

 

Bu açıkça, basit ama güçlü ve yaygın uygulanabilir bir modeldir. Bu modelin avantajları çoktur – model

·  doğru yetkin olup olmama sınıflandırmasını verir,

·  küçük bir madde havuzu içerebilir.

·  uygulanması basittir.

·  küçük bir ön test gerektirir.

·  ölçüt referanslı testlere uygulanabilir.

·  tanılama testlerinde kullanılabilir.

·  çoklu beceriler üzerinde sınıflandırmalar sağlayacak şekilde uyarlanabilir.

·  sıralı test ve sıralı karar kuralı kullanabilir.

·  istatistikçi olmayanlar için de açıklaması kolaydır.

Bu araştırma, uygulanan ölçme topluluklarını ve araştırmanın hayal gücünü yakalayacağını yazar umut etmektedir. Yazar zeki öğretim sistemleri için yönlendirme mekanizmaları olarak daha geniş kullanımları öngörmektedir. Maddeler, ünite sonu sınavlarını büyük ölçüde iyileştirmek için bir kaç sınava giren kişiler ile pilotlaştırılabilir. Madde kalibrasyonu için sınırlı sayıda uygulayıcı ile uzman meslekler için sertifika sınavları oluşturulabilir. Öğretmenlerin geçici yerleştirme ve ilerleme kararları vermelerine yardımcı olması için kısa testler hazırlanabilir. Bir testten alınan maddelerin küçük bir derlemesi, NAEP'e iletilebilir (Eğitim Sürecinin Uluslarası Değerlendirilmesi), başka bir teste gömülebilir, bir durum değerlendirmesi söylenebilir, kesişen anlamlı bilgi bölgesi sağlanabilir.

Bu konu ile ilgili araştırma soruları oldukça fazladır. Model, ikiye bölünmüş madde yanıt kategorileri yerine çoklu şekilde nasıl genişletilebilir? Önyargı/Eğilim nasıl tespit edilebilir? Alternatif uyarlanabilir testler ve sıralı karar kuralları ne kadar etkilidir? Model, 30 veya daha fazla kategoriye etkili bir şekilde genişletilebilir ve sınava girenlerin sıralamasını sağlayabilir mi? Verilerin sıralı olduğu gerçeğini nasıl iyi kullanabiliriz? Testlerin incelenmesinde entropi kavramı nasıl kullanılabilir? Ölçme karar kuramı testlerini geliştirebilecek yeni madde analizi yöntemleri var mı? Model, her biri birkaç öğe içeren, birden fazla beceriyi değerlendiren ölçüt refanslı testlerle en iyi nasıl uygulanabilir? Minimum maliyet ve bilgi kazancı neden bu kadar benzerdir? Farklı maliyet yapıları nasıl etkili bir şekilde kullanılabilir? Bir testteki maddeler, diğer bir testte nasıl kullanılabilir? Bu tür testler nasıl karşılaştırılır? Yazar, şu anda modelin denemelerin bilgisayar puanlaması için uygulanabilirliğini araştırmaktadır. Bu araştırmada; geniş bir pilot uygulamanın deneme özellikleri, yetkin olup olmama durumlarını; bütünsel puanlar ve maddeler olarak ele almaktadır.

Teşekkür

Prof. Dr. Lawrence M. Rudner'e çeviriyi yapmamıza ve bu kaynağı Türkçe'ye kazandırmamıza izin verdiği için teşekkür ederiz.

Acknowledgement

Thanks to Professor Dr. Lawrence M. Rudner for allowing us to translate this source into Turkish.

Çeviri:

Öğr. Gör. Furkan AYDIN

Dr. Muhittin ŞAHİN

Prof. Dr. Halil YURDUGÜL

Hacettepe Üniversitesi - Teknoloji Destekli Eğitsel Ölçme ve Değerlendirme Uygulama ve Araştırma Laboratuvarı