أثر بعض الطرق الوزنية على الخصائص السيكومترية لاختبار رياضيات في ضوء النظرية الكلاسيكية والنظرية الحديثة

نوع المستند : المقالة الأصلية

المؤلفون

1 باحث دكتوراه - جامعة الملك سعود

2 أستاذ القياس والتقويم - جامعة الملك صعود

المستخلص

   هدفت هذه الدراسة إلى الكشف عن أثر الطرق الوزنية ودرجة القطع في الخصائص السيكومترية، ولتحقيق أهداف الدراسة تم بناء اختبار تحصيلي في مقرر الرياضيات للصف السادس الابتدائي، تكون في صورته النهائية من (25) فقرة، واستخدم المنهج الوصفي المقارن، وتكون مجتمع الدراسة من ( 2672) طالباً، وتألفت العينة من (521) طالب، تم اختيارها بأسلوب المعاينة العشوائية البسيطة، وتم تقدير الدرجات من خلال أربع طرق وزنية، وهي: الطريقة العادية (الدرجة الخام)، وطريقة الدلتا سكور، وطريقة ألفا سكور، والنموذج الثنائي (طريقة التوقع البعدي)، وتم استخدام المتوسطات الحسابية، ومعاملات الصعوبة والتمييز، والتحليل العاملي الاستكشافي، للتحقق من الصدق العاملي وافتراض أحادية البعد، ومعاملات الثبات، ومعادلة فيلدت لمعرفة الفروق بين معاملات الثبات، ومعامل الصدق المرتبط بمحك، واختبار مربع كاي، ومعاملات الارتباط، واستخدام تحليل التباين للقياسات المتكررة، والخطأ المعياري بطريقة لورد، وأجرى تحليل البيانات باستخدام البرامج الإحصائية (SPSS)، و(Itemman)، و (Xcalibre)، و (BilogMG3). وأظهرت نتائج الدراسة الآتي: تفوق طريقة التوقع البعدي على الطرق الوزنية الأخرى حيث بلغت قيمة الخطأ المعياري بطريقة لورد (1.63) وهو أقل قيمة تليها طريقة الدلتا (1.78).

أبو فودة، باسل خميس (2016). التوافق بين النظرية التقليدية في القياس ونظرية استجابة الفقرة  في مطابقة فقرات اختبار محكي المرجع في وحدة الهندسة التحليلية. رابطة التربويين العرب، ع(73)، ص ص 189-215.
آنستازي، آني وأورينا، سوسن (2015). القياس النفسي (ترجمة صلاح الدين علام). دار الفكر.
أيالا، أر (2017). النظرية والتطبيق في نظرية الاستجابة للفقرة (ترجمة عبدالله الكيلاني وإسماعيل البرصان). الرياض: دار جامعة الملك سعود للنشر والتوزيع.
بيكر، فرانك (2010). أسس نظرية الاستجابة للمفردة (ترجمة عبدالرحمن الطريري والسيد أبوهاشم وسوسن شلبي). الرياض: دار جامعة الملك سعود للنشر والتوزيع. 
تيغزة، أمحمد بوزيان (2011). اختبار صحة البنية العاملية للمتغيرات الكامنة في البحوث:  (منحنى التحليل والتحقق) مركز بحوث كلية التربية، جامعة الملك سعود.
تيغزة، أمحمد بوزيان (2012). التحليل العاملي الاستكشافي والتوكيدي مفاهيمهما ومنهجيتهما بتوظيف حزمة SPSS وليزرل LISREL. دار المسيرة للنشر والتوزيع والطباعة.
جمحاوي، إيناس محمود (2000). مقارنة خصائص الفقرات وفق النظرية التقليدية ونظرية  اتجابة الفقرة في مقياس للقدرة الرياضية (رسالة ماجستير غير منشورة). جامعة  اليرموك.
حسن، السيد محمد أبوهاشم (2004). الدليل الإحصائي في تحليل البيانات باستخدام SPSS الرياض: مكتبة الرشد.
حسن، السيد محمد أبوهاشم (2020). معامل ألفا للتحقق من درجات أدوات القياس بين الحقائق  والمعتقدات الخاطئة لدى الباحثين. مجلة البحث العلمي في التربية، ع(21)، 179-210.
الحكماني، رحاب سعيد (2007). مقارنة بين النظرية الكلاسيكية للاختبار ونظرية الاستجابة  للمفردة في تقدير قدرات الأفراد ومدى استقرار مؤشرات المفردات الاختبارية (رسالة ماجستير غير منشورة). جامعة السلطان قابوس.
الخرشة، طه (2016). أثر بعض طرائق تصحيح اختبارات الاختيار من متعدد في دقة تقدير صعوبة الفقرات وقدرات الأفراد وفق نموذج راش في نظرية الاستجابة للفقرة. العلوم التربوية،24 (1)، 607- 627.
الخضر، محمد  وإسماعيل، البرصان (2017). دقة القياس بين النظرية التقليدية في القياس والنظرية الحديثة في الاختبارات" دراسة تجريبية". المجلة الدولية للدراسات النفسية، 9 (1)، 71-81.
الدوسري، راشد (2012). تحديد درجة القطع ومستوى الأداء في اللغة العربية والرياضيات لطلبة الحلقة الأولى من التعليم الأساسي. رسالة الخليج لعربي، ع(124)، ص ص 105- 151.
الدوسري، راشد (2018). القياس والتقييم التطبيقي للمعلمين. الكويت: دار المسيلة.
الرحيل، راتب، والدرابسة، رياض (2014). أثر طريقة تقدير القدرة وطريقة التعامل مع القيم المفقودة على دقة تقدير معالم الفقرات والأفراد. المجلة الدولية التربوية المتخصصة، 3 (6)، 23- 47.
الشريم، أحمد (2003). دراسة مقارنة لنموذج إِنجوف ونموذج نيدلسكي في تحديد درجة القطع لاختبار محكي المرجع في الرياضيات (رسالة ماجستير غير منشورة). جامعة اليرموك،            الأردن.
الشريم، أحمد (2008). تطوير أسلوب لتحديد القطع يرتكز على الأهداف ومقارنته مع أسلوب أنجوف (أطروحة دكتوراه غير منشورة). جامعة اليرموك، الأردن.
صهوان، أكرم (2017). أثر استخدام بيانات التغذية الراجعة وخبرة المحكم في تقدير درجة لقطع وممارسات المحكمين وفق طريقة إِنجوف المعدلة. المجلة المصرية للدراساتالنفسية، 27 (97)، 61- 147.
الصيخان، رحاب و المومني، رنا (2021). مقارنة بين النظرية الكلاسيكية والنموذج ثلاثي المعلم في انتقاء فقرات اختبار تحصيلي للغة الإنجليزية. المجلة الدولية للدراسات التربوية والنفسية، ع (1)، ص ص 135-156.
طاهات، خالد (2016). المقارنة بين طرق تقدير الخطأ المعياري الشرطي في القياس تبعاً  لطريقة التصحيح لأثر التخمين وعدد البدائل (رسالة ماجستير غير منشورة). جامعة مؤتة، الأردن.
الطريري، عبدالرحمن (2014). القياس النفسي والتربوي: نظريته-أسسه- تطبيقاته. الرياض: مكتبة الرشد.
عبابنة، عماد (2009). الإختبارات محكية المرجع: فلسفتها وأسس تطويرها. عمان: دار المسيرة.
عباس، محمد (1993). المقارنة بين خمس طرق لتقدير الخطأ المعياري الشرطي في القياس  عند مستويات محددة لعلامات الاختبار (أطروحة دكتوراه غير منشورة). الجامعة  الأردنية، الأردن.
عبدالهادي، نبيل. (2001). القياس والتقويم التربوي، واستخدامه في مجال التدريس. عمان: وائل للنشر.
عبدالوهاب، صلاح (2001). أثر بعض الطرق الوزنية لتقدير الدرجات على صدق الاختبارات مرجعية المحك ذات الاختيار من متعدد. مجلة كلية التربية، جامعة بنها، 12(49)،202 – 255.
العدل، عادل (1986). أثر بعض طرق تقدير الدرجات للمفردات على ثبات الاختبار ذات الاختيار من متعدد (رسالة ماجستير غير منشورة). جامعة الزقازيق، مصر.
علام، صلاح الدين (2005). نماذج الاستجابة للمفردة الاختبارية أحادية البعد ومتعددة الأبعاد وتطبيقاتها في القياس النفسي والتربوي. القاهرة: دار الفكر العربي.
علام، صلاح الدين (2007). الاختبارات التشخيصية مرجعية المحك في المجالات التربوية والنفسية والتدريبية. القاهرة: دار الفكر العربي.
علام، صلاح الدين (2011). القياس والتقويم التربوي والنفسي- أساسياته وتطبيقاته وتوجهاته المعاصرة. دار الفكر العربي.
العنبكي، حيدر (2009). المفاضلة في تحديد درجات القطع لاختبار محكي المرجع (أطروحةدكتوراه غير منشورة). جامعة بغداد، العراق.
عودة، أحمد (2004). القياس والتقويم في العملية التدريسية. ط3، دار الأمل.
الغانمي، وحيد (2009). المقارنة بين طرق مختلفة لتحديد علامة القطع لمعدل امتحان شهادة          الدراسة الثانوية العامة للقبول في التخصصات الجامعية المختلفة (رسالة ماجستير غير        منشورة). جامعة مؤته، الأردن.
غنيم، أحمد (1986). بعض طرق تقدير الدرجات للمفردات ذات الاختيار من متعدد. مجلة كلية التربية بالمنصورة، 5 (7)، 73- 107.
كروكر، أل. ، والجينا، جي. (2017). مدخل إلى نظرية القياس التقليدية والمعاصرة. (ترجمة هند الحموري وزينات دعنا). عمان: دار الفكر. (العمل الأصلي نشر في 1986).
اللحياني، عفاف (1430). أثر بعض طرق تقدير الدرجات للمفردات على ثبات وصدق درجات اختبار          تحصيلي في الرياضيات ذي الاختيار من متعدد لدى طالبات الصف الأول      الثانوي بمكة المكرمة( رسالة ماجستير غير منشورة). جامعة أم القرى، مكة المكرمة.
مجيد، سوسن (2014). أسس بناء الاختبارات والمقاييس النفسية والتربوية. عمان: مركز ديبونو لتعليم التفكير.
المركز القومي للامتحانات والتقويم التربوي (2013). تطوير بنك أسئلة لقياس الاستعداد للدراسة  بالمرحلة الثانوية (المرحلة الثانية). القاهرة.
مصلح، موفق (2009). فاعلية أربع طرق في تحديد درجة القطع لاختبار محكي المرجع في العلوم لطلبة المرحلة الأساسية في دولة الامارات العربية المتحدة( رسالة ماجستير غير    منشورة). جامعة عمان العربية، الأردن.
النعيمي، عز الدين (2015). معالم الفقرات والأفراد وخاصية اللاتغير في الاختبارات الوطنية لضبط جودة التعليم في الأردن مقارنة بين النظرية الكلاسيكية والنظرية الحديثة في القياس. مجلة اتحاد الجامعات العربية للتربية وعلم النفس، 13 (1)، 136 – 155.
نيتكو، أ. ، وبروخات، س. (2012). التقييم التربوي للطلبة (ترجمة علي القرني الدوسري وراشد المحرزي، وحسين الخروصي). مكتب التربية العربي لدول الخليج.
اليامي، محمد (2018). مقارنة طرق تصحيح اختبار الاختيار من متعدد من حيث أثرها على الخصائص السيكومترية. المجلة العربية للعلوم الاجتماعية، 3 (13)، 1 - 34. 
المراجع الأجنبية:
 Anastasi, A. (1982). Psychological tsting. (5th,Ed). New York:  Macmillan
Baker, F., & Kim,S. (2004). Item response theory: Parameter estimation  techniques. CRC press.
 Buckendahl, C., Smith, R., Impara, J., & Plake, B. (2002). ACompariso  of the Angoff and bookmark standard setting methods. Journal of Educational Measurement, 39 (3), 253- 263.  
Cetin, S., Gelbal, S. (2013). A Comparison of Bookmark and Angoff  standard setting  methods. Educational  Sciences: Theory & Practice, 13 (4), 2169 – 2175.          
Cizek,G. (2001). Setting performance standards concepts methods and         perspectives. 15(2). 20-31.          
Cronbach, L. (1970). Essentials of psychological testing. (3th, Ed). California: Stanford      
Deledalle, C., Denis, L., & Tupin, F. (2009). Iterative weighted maximum likelihood denoising with probabilistic patch-based weights. IEEE Transactions on Image Processing , 18(12),  2661-2672.  
Domingue, B., Dimitrov, D. (2021). A Comparison of IRT Theta  estimates and Delta scores from the perspective of  Additive conjoint measurement. Saudi Arabia National Center for Assessment.    
Dimitrov, D. (2016). An Approach to Scoring and Equating Tests With Binary Items: Piloting With Large-scale Assessments. Educational  and Psychological Measurement, 76 (6), 954- 975.  
Eleje, L., Onah, F., & Abanobi,C. (2018). Comparative study of classical   test theory and item response theory using diagnostic  quantitative economics skill test item analysis  results. European Journal of Education and Social Sciences, 3(1), 57-75.  
Embretson, S., & Reise, S. (2013). Item response theory. Psychology Press.
Garre, G., Vermunt, K. (2006). Avoiding boundary estimation in            latent  class analysis by bayesian posterior estimation. Behaviormentrika, 33 (1), 43 - 59.         
Hambleton, R. (1978). On the use of cutoff scores with criterion-   referenced  tests in instructional settings. Journal of        Educational   Measurement, 15 (4), 277-290. 
Hambleton, R., & Swaminathan, H. (1985). Item response Theory: Principles and applications. Boston: Kluwer Nijhoff Publishing.     
Jaradat, D., Tollefson, M. (1988). The impact of altemative scoring         procedures   for multiple choice items on test reliability,                              validity, and   grading. Educational and psychological measurement, 48 (3), 627- 635.          
Koehler, R. (1971). A Comparison of the Validities of Conventional Choice Testing and Various Confidence Marking Procedures. Journal of Educational Measurement, 8(4). 297-303.
Lord, F (1959). Tests of the same length do Have the same standard  error of measurement. Educational and psychological measurem, 19(2). 233-239.           
Lord, F. (1986). Maximum likelihood and bayesian parameter estimation  in item response theory. Journal of Educational Measurement , 23 (2), 157- 162.                 
Michael, J. (1968). The Reliability of A multiple-choice Examination  Under Various test Taking Instruction, Journal of Educational   Measurement, 5(4), 307-314.
Mislevy, R., Stocking, M. (1989). A consumer's guide to and bilog. Applied psychological measurement, 13(1). 57-75      
Peterson, C., Schulz, E., & Engelhard, G. (2011). Reliability and Validity           of Bookmark-Based methods for standard setting:  Comparisons to Angoff-Based methods in the      National Assessment  of Educational Progress. Educational               Measurement, 30 (2), 3- 14.                
Rippey, R. (1970). A comparison of five different scoring functions for confidence tests. Journal of educational measurement, 7(3), 165-170.        
Robitzsch, A. (2021). About the equivalence of the latent D-Scoring model and the Tow-Parameter logistic item response model. MDPI.     
Shulruf, B., Wilkinson, T., Weller, J., Jones, P., & Poole, P. (2016).                                Insights  into the Angoff method: Results from  simulation study. BMC Medical  Education, 16 (134), 1- 10.   
Warm, T. (1978). A primer of Item Response Theory. Oklahomn: U.S Coast Guard Institute.
khairani, A.,  Razak, N. & Shamsuddin, H. (2014). Application of the  Rasch model and the Bookmark method in setting cut scores   in Mathematics. International journal of information and education technology, 4(2). 198-202.    
Kim, J., & Yang, J. (2020). How to improve reliability of cut-off scores in dental competency exam: A comparison of rating methods  in standard setting. Eur J Dent Educ, 24, 734-740.