یکی دیگر از ابزارهای جمع­آوری اطلاعات، پرسشنامه های محقق ساخته­ای بود که به منظور بررسی روایی امتحانات، به چند نفر از دبیران متخصص و با تجربه به صورت ایمیل و حضوری تحویل داده شد. علاوه بر این، از طریق مصاحبه تلفنی و پرسشنامه از دبیران مصحح اوراق امتحانی درباره وضعیت تصحیح اوراق امتحانی نظرخواهی شد.
روش اجرای تحقیق
ابتدا از دانشگاه معرفی­نامه­ای برای اداره کل آموزش و پرورش استان لرستان جهت همکاری گرفته شد که با توجه به مسائل حفاظتی اوراق نهایی، از طرف اداره مذکور به مرکز سنجش وزارت آموزش و پرورش ارجاع داده شد. سپس از طرف این مرکز به حراست مرکزی وزارت آموزش و پرورش معرفی و با اعلام بلامانع بودن این کار از طرف مرکز نامبرده، جهت موافقت نهایی به مرکز سنجش وزارت آموزش و پرورش ارجاع گردید. بعد از دریافت مجوز از سوی این مرکز با مراجعه به اداره کل آموزش و پرورش استان لرستان و مرکز سنجش آن، هماهنگی­های لازم صورت گرفت. سپس به نواحی یک و دو آموزش و پرورش شهرستان خرم­آباد معرفی گردیده که به دلیل عدم موافقت ناحیه دو، کار جمع­آوری داده ­ها پس از طی مراحل اداری در حوزه تصحیح ناحیه یک صورت گرفت. بدین­منظور اطلاعات اوراق امتحانی ۶۰۰ دانش ­آموز رشته تجربی در دروس ادبیات فارسی و زیست­شناسی خرداد ماه ۹۰ استخراج گردید. این اطلاعات در فرم­های محقق ساخته ثبت و سپس در نرم افزار spss وارد شدند.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

برای آماده ­سازی داده ­ها جهت انجام تحلیل کلاسیک، میانگین نمراتی که ارزیابان مختلف به هر سوال داده بودند، محاسبه و جایگزین نمره­ی فرد در هر سوال شد. همچنین، برای آماده ­سازی داده ­ها جهت انجام تحلیل IRT، مراحل زیر صورت گرفت؛
ابتدا داده ­ها بر اساس قرارداد زیر به ۰ و ۱ تبدیل شدند.
به پاسخ صحیح سوال، ۱ و به پاسخ غلط، ۰ تعلق گرفت.
برای سوالی که بارم یا ریز بارم آن ۵/ ۰ بود، نمره­ی ۲۵/۰ و بالاتر به یک تبدیل شد.
برای سوالی که بارم یا ریز بارم آن ۷۵/۰ بود، نمره­ی ۵/۰ و بالاتر از آن به یک تبدیل شد.
برای سوالی که بارم یا ریز بارم آن ۱ بود، نمره­ی ۵/۰ و بالاتر از آن به یک تبدیل شد.
در مرحله بعد، جمع نمرات داده شده توسط مصححان به هر سوال محاسبه شد. سپس، برای اینکه داده­هایمان را به داده ­های دو ارزشی (جهت آماده سازی ورود به نرم افزار بایلوگ) تبدیل کنیم، مطابق قرارداد زیر نمره­ی هر سوال مجدداً به ۰ و ۱ کدگذاری شد.
برای داده­هایی که ۳ مصحح آن­ها را تصحیح کرده بودند؛ نمرات ۳ و ۲ به یک و نمرات ۱ و ۰ به صفر تبدیل شد. همچنین برای داده­هایی که ۲ مصحح آن ها را تصحیح کرده بودند؛ نمرات ۲ و ۱ به یک و ۰ به صفر تبدیل گردید.
روش تجزیه و تحلیل اطلاعات
به منظور بررسی روایی امتحانات نهایی، این امتحانات از نظر ساختار، محتوا، توزیع طبقه ­بندی سوالات و میزان پوشش محتوای کتاب با بهره گرفتن از نظرات متخصصان موضوعی که با اصول اندازه ­گیری آشنایی داشتند و از طریق پرسشنامه ­های محقق ساخته مورد ارزیابی قرار گرفتند. این قسمت از کار در واقع یک ارزیابی کیفی محسوب می­شد. لذا جهت تحلیل اطلاعات به دست آمده از روش­های آمار توصیفی استفاده گردید.
برای بررسی سوالات از نظر ساختار، اگر حداقل ۷۰ درصد (ملاک ۷/۰) متخصصان موضوعی سوال را دارای اشکال تشخیص دهند آن سوال از نظر ساختاری نامناسب تشخیص داده می­ شود.
به منظور ارزیابی محتوایی سوالات آزمون، از روش لاشه برای تعیین ضریب روایی محتوایی استفاده شد. آماره­ی آن، نسبت روایی محتوایی (CVR) تبدیل خطی از نسبت تعداد ارزیابانی که سوال را ضروری تشخیص می­ دهند به تعداد کل ارزیابان شرکت کننده در پنل است که دامنه ی آن از ۱ تا ۱- می­باشد. شیوه­ محاسبه ی آن بدین صورت بود که ۵ نفر از متخصصان موضوعی در هر درس، هر یک از سوالات را بر روی یک مقیاس سه نقطه­ای (ضروری، مفید اما غیر ضروری و غیر ضروری) درجه­بندی کردند. سپس CVR برای هر سوال محاسبه گردید و ملاک­های ۶/۰و ارزش­های بحرانی CVR (ویلسون، پان و چامسکی، ۲۰۱۲) در نظر گرفته شد. اگر مقدار محاسبه شده بزرگتر یا مساوی ملاک تعیین شده باشد، می­توان گفت که آن سوال ضروری محسوب می­ شود و از روایی برخوردار است.
برای بررسی سوالات از نظر طبقه ­بندی شناختی، اگر بیش از ۵۰% متخصصان موضوعی در تخصیص دادن سوال به یکی از سطوح شناختی طبقه ­بندی بلوم توافق داشته باشند، آن سوال متعلق به آن سطح در
نظر گرفته می­ شود.
به منظور چگونگی توزیع سوالات در فصل­های مختلف، ملاک­های مختلفی وجود دارد که در این تحقیق برای بررسی اینکه سوالات امتحانات نهایی، تمام فصول کتاب را به طور منطقی پوشش داده­اند یا خیر، تعداد صفحات هر فصل در نظر گرفته شده است. تعداد سوالات هر فصل که از طریق فرمول زیر محاسبه شد با تعداد سوالات هر فصل که در امتحان طرح شده بود، مقایسه گردید.
= تعداد سوالات هر فصل
از آنجا که تعداد اوراق تصحیح شده توسط هر یک از مصححان برابر نبود و مصححان اوراق امتحانی متفاوتی را تصحیح کرده بودند، در صورت استفاده از طرح­های کاملا متقاطع جهت بررسی اعتبار امتحانات، خیلی از اطلاعات موجود کنار گذاشته می­شد. از این­رو، در این پژوهش از طرح­های ترکیبی استفاده گردید.
نکته­ای که باید به آن اشاره شود، این است که در تعیین اعتبار با بهره گرفتن از طرح­های GT، نمرات مصححان دوم لحاظ نگردیده است. همچنین، جهت تحلیل داده ­ها از نرم افزار EDUG 5.0 استفاده گردید.
وب و شیولسون (۱۹۸۱) بیان نمودند که اصل تقارن[۱۶۴] کاردینت[۱۶۵] و همکارانش منجر به تمایز میان ۴ مرحله از مطالعه اندازه ­گیری شده است که عبارتند از:
طرح مشاهده[۱۶۶]
طرح برآورد[۱۶۷]
۳) طرح اندازه ­گیری
۴) طرح بهینه سازی[۱۶۸].
در GT دو نوع مطالعه وجود دارد؛ مطالعه­ تعمیم­پذیری (مطالعه­ G) و مطالعه­ تصمیم (مطالعه­ D). مطالعه­ G، سه مرحله­ اول را شامل می­ شود و مطالعه­ D، همان مرحله­ چهارم است. در این پژوهش، برآورد ضرایب اعتبار داده ­های امتحانات نهایی در قالب ۳ طرح اندازه ­گیری و مطابق با مراحل مذکور صورت گرفته است.
اولین مرحله یک مطالعه اندازه ­گیری، مشخص کردن طرح مشاهده است که شامل انتخاب رویه­ ها، سطوح
و محاسبه­ی میانگین مجذورات است. جهان مشاهدات قابل قبول در این پژوهش، شامل ۴ رویه است که عبارتند از: دانش ­آموزان(S)، سوالات (I)، مصححان ®، جنسیت دانش ­آموزان(G). رویه­ی سوال در دروس ادبیات­فارسی و زیست­شناسی به ترتیب ۶۱ و ۷۸ سطح دارد. رویه­­ی مصحح در دروس ادبیات فارسی و زیست­شناسی به ترتیب ۹ و ۷ سطح دارد. همچنین، رویه­های دانش ­آموز و جنسیت هر کدام دارای ۳۰ و ۲ سطح می­باشند. کاردینت، جانسون و پینی[۱۶۹](۲۰۱۰) مطرح می­ کنند، محقق باید روابط میان رویه­ ها با یکدیگر را نیز مشخص کند. در مطالعه­ حاضر، ارتباط رویه­های اندازه ­گیری بدین قرار است: دانش ­آموزان درون جنسیت و جنسیت درون مصححان آشیانه کرده ­اند که با نماد S:G:R نشان داده شده است. همچنین، رویه­ی سوال متقاطع با رویه های مذکور × S:G:R Iمی­باشد.
کاردینت و همکاران (۲۰۱۰) مطرح می­ کنند، تعداد سطوح رویه­ی آشیانه شده باید برای هر سطح از رویه­ای که در آن آشیانه کرده است، برابر باشد. در این پژوهش، تعداد یکسانی از دانش آموزان (۳۰ نفر) در هر سطح از جنسیت قرار داده شده و سطوح جنسیت برای هر مصحح به طور یکسان در نظر گرفته شده است.
در ادامه، منابعی که به طور بالقوه در تغییر­پذیری نمرات دروس مورد مطالعه سهیم بوده، مشخص شد. با این کار می­توان واریانس کل را به منابع واریانس مختلفی تقسیم نمود. در این پژوهش، ۷ منبع واریانس مشخص شده است: مصححان، جنسیت(درون مصححان)، دانش آموزان(درون جنسیت)، سوالات، اثرات تعاملی مصححان – سوال، جنسیت – سوال، دانش آموزان – سوال و اثر باقیمانده.
مشخص کردن طرح برآورد، دومین مرحله یک مطالعه اندازه ­گیری است. در این مرحله، وضعیت نمونه گیری از رویه­ ها باید مشخص شود. به بیانی دیگر، این مرحله شامل تصمیم ­گیری در مورد رویه هاست که آن­ها محدود یا نامحدود و تصادفی یا ثابت در نظر گرفته شوند. همچنین در این مرحله مؤلفه­ های واریانس برآورد می­شوند. در مطالعه­ حاضر، رویه­های مصححان، دانش ­آموزان و سوالات به عنوان رویه­های تصادفی با جهان­های نامحدود در نظر گرفته شده ­اند. به عبارتی دیگر، مصححان مورد مطالعه یک نمونه تصادفی از تمام مصححان مشابه ممکن محسوب می­شوند و نیز دانش ­آموزان و سوالات. جنسیت دانش ­آموزان یک رویه­ی ثابت است.
گفتنی است، مدل اندازه ­گیری به کار رفته در این پژوهش، مدل ترکیبی است. زیرا ترکیبی از رویه­های ثابت و تصادفی در آن وجود دارد. نمودار طرح برآورد پژوهش حاضر، در صفحه­ی بعد ارائه شده که رویه ثابت جنسیت در آن با نقطه چین نشان داده شده است.
S:G:R
I
R
RI
(G:R)I
(S:G:R)I)
G:R
نمودار ۳-۱: تقسیم بندی واریانس برای طرح برآورد I(S:G:R)
در مرحله­ سوم یک مطالعه اندازه ­گیری، باید مشخص شود کدام رویه­ ها تفکیکی هستند و کدامیک ابزاری. منظور از رویه­ی تفکیکی[۱۷۰]، رویه­ای است که هدف و تمرکز اندازه ­گیری قرار گرفته است.کاردینت و
همکاران(۲۰۱۰) مطرح می­ کنند که واریانس حاصل از این رویه مترادف با مفهوم واریانس نمره­ی واقعی در
نظریه کلاسیک آزمون است. همچنین، منابع بالقوه خطا که در هر مطالعه اندازه ­گیری وجود دارد، رویه­های ابزاری[۱۷۱] محسوب می­شوند. کاردینت، تورنر و الل[۱۷۲] (۱۹۷۶) مطرح کردند؛ برخلاف تمرکز سنتی روی افراد، هدف اندازه ­گیری ممکن است بسته به هدف خاص تصمیم­گیرنده تغییر کند و تفاوت­های فردی ممکن است به عنوان منبع خطا در نظر گرفته شوند. در پژوهش حاضر، رویه­های دانش ­آموزان، سوالات و مصححان هر کدام به تنهایی و در تحلیل­های جداگانه به عنوان رویه­های تفکیکی در نظر گرفته شدند. برای ادامه­ تحلیل در این مرحله، نیاز است که نوع تصمیم (نسبی یا مطلق) مشخص شود و به دنبال آن واریانس­های خطا و ضرایب تعمیم­پذیری برآورد شوند. در پژوهش حاضر، هر دو نوع ضریب تعمیم­پذیری (نسبی
و مطلق) به همراه خطای استاندارد مربوطه گزارش شده است.
مرحله­ چهارم در یک مطالعه­ اندازه ­گیری، طرح بهینه­سازی است که مطالعه­ تصمیم (مطالعه D) را
شامل می­ شود. باید در نظر داشت که افزایش یا کاهش سطوح رویه­ ها و یا تغییر ماهیت آن­ها برای دستیابی به یک طرح اندازه ­گیری مطلوب مستلزم در نظر گرفتن یک سری ملاحظات منطقی و عملی است. در این پژوهش برای هر یک از طرح­های اندازه ­گیری، مطالعه­ D با تغییر سطوح رویه­ ها - نه تغییر ماهیت آن­ها – و در قالب یک سوال انجام گرفت. همچنین در طراحی چنین مطالعه­ ای، جهان تعمیم باید تعریف شود. در این پژوهش، جهان تعمیم مربوط به رویه­های دانش ­آموزان، مصححان و سوالات نامحدود در نظر گرفته شد.
جهت محاسبه ویژگی­های روان­سنجی سوالات بر اساس CTT؛ ابتدا ضریب اعتبار کل آزمون با بهره گرفتن از فرمول آلفای کرونباخ به دست آمد. سپس اعتبار آزمون با بهره گرفتن از روش لوپ با کمک نرم افزار spss محاسبه شد، به طوریکه با حذف هر سوال میزان اعتبار آزمون مجدداً مورد بررسی قرار گرفت. در صورتی که حذف سوال میزان اعتبار را کاهش دهد، می­توان نتیجه گرفت که آن سوال مناسب بوده و نقش موثری در هماهنگی با سایر سوالات دارد و در صورتی که با حذف سوال میزان اعتبار آزمون افزایش یابد، بیانگر این است که آن سوال نامناسب بوده و تجانس کمتری با سایر سوالات دارد و بهتر است از آزمون حذف شود. سوالاتی که با حذفشان در میزان اعتبار تغییری نمی­دهند، می­توانند جهت ترغیب آزمودنی برای پاسخ­گویی به سایر سوالات مفید باشند. در مرحله­ بعد، شاخص­ های آماری سوالات (درجه دشواری و ضریب تمیز سوال) براساس داده ­های خام و کد­گذاری شده محاسبه شد. محاسبه براساس داده ­های خام با بهره گرفتن از روش نیتکو و با اکسل انجام گرفت. همچنین، محاسبه بر اساس داده ­های کدگذاری شده به این شکل بود که ابتدا داده ­های خام بر اساس قرارداد به ۰ و ۱ تبدیل شدند. سپس با بهره گرفتن از نرم افزار بایلوگ، درجه دشواری و ضریب تمیز سوالات بر اساس CTT به دست آمد.
محاسبه ویژگی­های روان­سنجی سوالات بر اساس IRT به این شرح بود؛ ابتدا مفروضات اولیه و اساسی این نظریه (تک بعدی بودن و استقلال موضعی) مورد بررسی قرار گرفتند. برای سنجش تک بعدی بودن آزمون روش­های متعددی پیشنهاد شده است که در این پژوهش، از نمودار اسکری استفاده گردید. بر این اساس نموداری برحسب تعداد عامل­ها و مقادیر ویژه مشخص می­ شود که می­توان تعداد عامل­هایی را که مقادیر ویژه آن ها بزرگتر از یک است، تعیین کرد. در این نمودار مقادیر ویژه بر اساس اهمیت، از بزرگ تا کوچک رسم می­ شود. طبق گفته­ی لرد (۱۹۸۰)، وقتی که مفروضه تک بعدی بودن برقرار است، استقلال موضعی نیز حاصل می شود از این حیث این دو مفهوم با هم معادل اند(به نقل از همبلتون و همکاران، ۱۹۹۱، ترجمه ی فلسفی نژاد، ۱۳۸۹).
بعد از اینکه نتایج نشان از برقراری مفروضات داشت، با بهره گرفتن از نرم افزار BILOGMG3 مقادیر پارامترهای سوال به همراه آزمون خی دو و سطح معناداری در مدل­های یک پارامتری و دو پارامتری برآورد گردید. لازم به ذکر است که با توجه به نامعلوم بودن پارامتر­های سوال و توانایی، جهت برآورد همزمان آن­ها از روش بیشینه­ی درست­نمایی حاشیه­ای استفاده گردیده است. در این روش با مشخص کردن یک توزیع برای پارامترهای توانایی، آن­ها را از تابع درست نمایی خارج ساخته و پارامترهای سوال برآورد می­گردند. در مرحله­ بعد با پارامترهای برآورد شده سوال به عنوان معلوم برخورد شده و توانایی آزمودنی­ها برآورد می­گردد. روش بیشینه­ی درست­نمایی حاشیه­ای یک روش از سرگیرانه است. سپس میزان برازندگی تک تک سوالات با مدل­های یک پارامتری و دو پارامتری در سطوح آلفای ۰۱/۰ و ۰۵/۰ بررسی شد. چنانچه در مدلی، سطح معناداری سوال از مقدار آلفای مورد نظر بیشتر باشد، گفته می­ شود سوال با آن مدل برازش دارد؛ در غیر این صورت نشان دهنده عدم برازش سوال با مدل است. بر اساس ملاک­های توصیف و تفسیر، مقادیر برآوردشده­ی پارامترها به تفکیک مدل تحلیل شدند. همچنین، منحنی ویژگی سوالات به تفکیک مدل­ها، منحنی ویژگی و تابع آگاهی یک سوال نمونه ترسیم و مقادیر بیشینه آگاهی و تتای ماکسیمم سوالات برآورد گردید.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...