Araştırmada, matematik başarısının ölçülmesiyle elde edilen puanların güvenirliğini belirlemede klasik test kuramı ve genellenebilirlik kuramından yararlanılmıştır. TIMSS- 1999’da yer alan açık uçlu matematik sorularından 24’ü, 2007 yılı bahar döneminde 203 öğrenciye uygulanmıştır. Klasik test kuramına göre elde edilen puanların iç tutarlılığının 0.92 gibi oldukça yüksek bir değer olduğu görülmüştür. Puanlayıcılar arası uyum ise Kendall’ın uyuşum (konkordans) kat sayısı ile belirlenmiş ve 0.52 olarak bulunmuştur. Genellenebilirlik kuramına göre matematik başarısının ölçülmesiyle elde edilen puanların genellenebilirlik kat sayı 0.92 ve güvenirlik kat sayı 0.90 bulunmuştur. Puanlayıcı değişkenlik kaynağının toplam varyansı açıklama oranı % 2,1 olup, oldukça düşüktür. Elde edilen bulgular, kullanılan ölçme aracının, öğrencilerin matematik başarısını belirlemede güvenilir sonuçlar verdiğini göstermektedir. Çalışmada yer alan dört puanlayıcının puan ortalamaları arasında fark olmakla birlikte, birbirleriyle uyumlu puanlama yaptıkları belirlenmiştir.
In this study, the Classical test theory and generalizability theory were used for determination to reliability of scores obtained from measurement tool of mathematics success. 24 open-ended mathematics question of the TIMSS-1999 was applied to 203 students in 2007-spring semester. Internal consistency of scores was found as 0.92. For determination of interrater consistency, Kendall’s concordance coefficient was calculated as 0.52. Generalizability coefficient for mathematics scores was 0.92 and phi coefficient was 0.90. The variance component of raters accounted for 2.1% of the total variance. According to all results, it was seen that measurement tool of mathematics success was reliable for determination of students’ mathematics success. Although there was a difference between means of four raters’ scores, it was found that there was consistency of their scores.