نمودار ۴-۳۳ نشان میدهد که نرخ همپوشی تست در خزانههای بهینه کمتر از خزانهی عملیاتی است و دارای کوچکترین نرخ همپوشی تست را در همهی سطوح توانایی هستند. نتایج حاصل از تحلیل کجی نرخ مواجهههای سؤال، درصد سؤالات بیش مواجهه شده و به همراه نمودارهای ۴-۳۴ تا ۴-۳۶ نشان میدهند که میزان مواجهه سؤالات در خزانههای بهینه به حداقل مقدار خود میرسد. به عبارت دیگر، با وجود اینکه تعداد سؤالات در خزانههای بهینه کمتر از خزانههای عملیاتی است، این تفاوت بسیار زیاد است. همانطور که جدول ۴-۱۴ نشان میدهد، نرخ کجی مواجهه سؤال و درصد سؤالات بیش مواجهه شده در خزانههای بهینه از خزانهی عملیاتی متفاوت است. با وجود اینکه تعداد سؤالات بسیار کمتر است. امّا، نسبت به خزانههایی که پهنای ۲/۰ داشتند، دارای نرخ مواجهه و همپوشی تست بیشتری است. البته این نتایج طبیعی است. همچنین، نرخ سؤالات کم مواجهه شده در خزانهی MRP (ROP_11) بیشتر از دو خزانهی دیگر است.
نمودار۴-۳۳: نرخ همپوشی تست مشروط به Ɵ با S-H
نمودار ۴-۳۴: درصد سؤالات بیش مواجهه شده در مدل R (ROP_10) با S-H
نمودار ۴-۳۵: درصد سؤالات بیش مواجهه شده در مدل MRP (ROP_11) با S-H
نمودار ۴-۳۶: درصد سؤالات بیش مواجهه شده در مدل MTI (ROP_12) با S-H
نمودار ۴-۳۷ میانگین آگاهی تست را در سطوح متفاوت توانایی، در همهی خزانههای سؤال نشان میدهد. خزانهی MRP در تمام سطوح توانایی آگاهی بیشتری فراهم میکند، امّا نسبت به خزانههایی که کنترل مواجهه نداشتند، در سطوح توانایی بالای ۲ آگاهی کمتری ایجاد میکند. دلیل این امر این است که، توزیع سؤالات در خزانه متعادلتر شده است و از مواجهه بیش از حد سؤالاتی با ضرایب تشخیص بالا جلوگیری میشود. خزانهی R آگاهی تقریباً مشابهی با خزانهی عملیاتی ایجاد میکند. خزانهی MTI نسبت به سه خزانهی دیگر به طور معناداری آگاهی کمتری ایجاد میکند، امّا فراتر از میزان آگاهی هدف میباشد. این نتایج با خزانههایی که با پهنای ۲/۰ ایجاد شدند، الگوی تقریباً مشابهی دارد، امّا در خزانههایی با پهنای ۴/۰ ، تنها کاهش اندکی در میزان آگاهی نسبت به خزانههایی که با پهنای ۲/۰، ایجاد شده است. بنابراین، نتایج نشان میدهد که اگر عامل کنترل مواجهه در طراحی خزانهی سؤال وارد شود، پهنای b-bin ها میتواند اهمیت کمتری نسبت به زمانیکه عامل کنترل مواجهه وارد نمیشود، پیدا کند.
نمودار ۴-۳۷: متوسط آگاهی تست مشروط به توانایی واقعی در خزانههای سؤال با S-H (b-bin: 0.4)
نمودارهای ۴-۳۸، ۴-۳۹ و ۴-۴۰ بهترتیب خطای استاندارد اندازهگیری، اریب و میانگین مجذور خطا را در سطوح متفاوت توانایی در هر چهار خزانه نشان میدهد. نمودار ۴-۳۸ نشان میدهد که مقادیر خطای استاندارد اندازهگیری در سه خزانهی بهینه در سطوح توانایی زیر ۵/۱ تقریباً مشابه است و کمتر از خزانهی عملیاتی است. مخصوصاً این مقادیر در سطوح توانایی بالاتر از ۵/۱ در خزانهی MRP و MTI به حداقل مقادیر خود میرسند. همچنین، میزان اریب در سه خزانهی بهینه در اغلب سطوح توانایی کمتر از خزانهی عملیاتی است. مقادیر MSE خزانههای بهینه در همهی سطوح کمتر از خزانهی عملیاتی است.
نمودار ۴-۳۸: خطای استاندارد اندازهگیری (CSEM) در خزانههای سؤال با S-H (b-bin: 0.4)
نمودار ۴-۳۹: اریب شرطی (conditional-Bias) در خزانههای سؤال با S-H (b-bin: 0.4)
نمودار ۴-۴۰: میانگین مجذور خطا (CMSE) در خزانههای سؤال با S-H (b-bin: 0.2)
خلاصهی مرحلهی سوم و چهارم
نتایج نشان داد که بدون توجه به عامل پهنای b-bin خزانههای سؤال بهینهای که با کنترل مواجهه S-H طراحی شدهاند بهتر از خزانههای سؤال عملیاتی از نظر اندازه خزانه، دقت اندازهگیری و امنیت آزمون عمل کردند. بنابراین، مکانیزم کنترل مواجهه خیلی خوب کار کرد. زیرا نرخهای مواجهه برای همهی سؤالات در حدود و یا پایینتر از نرخ مواجهه هدف (۳۳/۰) بود. بررسی دقیقتر به دقت اندازهگیری در هر یک از سطوح توانایی و بررسی نمودارهای مربوط به آگاهی شرطی تست، نشان داد که، خزانههای سؤالی که با کنترل مواجهه سؤال طراحی شدهاند، دارای دقت بیشتری نسبت به خزانههایی که بدون کنترل مواجهه طراحی شدند، بودند. همچنین، در بیشتر سطوح توانایی نیز دارای آگاهی بیشتری بودند. این نتیجه به این دلیل بود که، سؤالات اضافه شده به خزانههای بهینه با کنترل مواجهه S-H دارای سؤالاتی با ضرایب تشخیص بالاتری بودند. البته این نکته قابل بیان است که در برخی سطوح توانایی میزان آگاهی مشابهی با خزانههای بدون کنترل مواجهه داشتند. از نظر دقت اندازهگیری خزانههای بهینهای که با پهنای ۲/۰ ساخته شدهاند، با خزانههایی که با پهنای ۴/۰ طراحی شدهاند، تفاوت معناداری ندارند. امّا، خزانههایی که با پهنای ۴/۰ طراحی شدهاند، دارای تعداد کمتری سؤال بودند، که از لحاظ اقتصادی این الگوها را به صرفهتر میکند.
در مجموع، به نظر میرسد که خزانهی MTI از سؤالات موجود در خزانه استفادهی بیشتری میکند و دارای حداقل سؤالات کم مواجهه شده میباشد. همچنین، از نرخ همپوشی تست کمی با وجود اینکه دارای حداقل تعداد سؤال است، برخوردار میباشد. در مجموع، بدون توجه به عامل پهنای b-bin ها، خزانههای بهینهی MTI از دقت اندازهگیری بالاتری برخوردارند، این نوع خزانهها نسبت به خزانههای R و MRP دارای سؤالات کمتری هستند. به طوریکه میزان دقت و صحت اندازهگیری آنها از خزانههای MRP در زمانیکه پهنای b-bin ها برابر با ۲/۰ است، با تفاوت ناچیزی کمتر است و در زمانیکه پهنای b-bin ها برابر با ۴/۰ است، با تفاوت ناچیزی بیشتر است. در کل، این نوع خزانهها، از امنیت بالایی نیز برخوردارند و از سؤالات استفادهی بیشتری میکنند.
بنابراین، توصیه میشود که، زمانیکه به صرفه بودن طراحی خزانههای سؤال و امنیت آزمون عامل بسیار مهمی میباشند، برای کاهش تعداد سؤالات مورد نیاز در خزانهی CAT از روش MTI با کنترل مواجهه سؤال استفاده شود. امّا، این نکته باید مدّنظر باشد که این خزانه از حداقل مقدار آگاهی برخوردار است. همچنین اگر، در آزمونی دقت و صحت اندازهگیری برای طبقهبندی و گزینش افراد و امنیت آزمون عوامل مهمی هستند، و به صرفه بودن عامل تعیین کنندهای نیست، از روش MRP استفاده شود. زیرا بدون توجه به پهنای b-bin ها، از دقت و آگاهی بالایی در تمام سطوح اندازهگیری برخوردارند.
طراحی خزانهی سؤال بهینه با در نظر گرفتن تعادل محتوایی در اجرای CAT
در این مرحله، خزانههای سؤال بهینه با در نظر گرفتن عامل تعادل محتوایی و وزنهای محتوایی از پیش تعیین شده، طراحی شدند. به طوریکه، محتوای آزمون CAT، توسط متخصصان موضوعی مشخص شد و پس از توافق کامل میان ۵ متخصص، محتواها به کدهای معینی تبدیل شدند. محتواها به سه مجموعهی اصلی (حسابان-دیفرانسیل، هندسه، جبر) تقسیم بندی شدند. به دنبال آن هر یک از مجموعهها به زیر مجموعههای معین (به ترتیب، ۱۸، ۱۶ و ۱۱) تقسیم بندی شدند. سپس از طریق روش برنامه نویسی ریاضی کدهای مربوط به هر یک از محتواها، وارد برنامهی طراحی خزانهی سؤال بهینه شدند. در این پژوهش از روش برنامهنویسی خطی (ریاضی) (WDM) برای تعیین محتواها و ایجاد تعادل محتوایی در خزانههای سؤال استفاده شد. از طریق این روش تستهای سنجش انطباقی برای ۶۰۰۰ نفر سرهم شدند. در این روش، ابتدا پیشبینی جستجوی راه حلّ برای تست کامل صورت گرفت و همزمان هم قابل حلّ بودن و هم بهینه بودن تست در نظر گرفته شد. این روش جزء روشهای شهودی حلّ مسائل سرهم کردن تست میباشد. با کاربرد روش WDM به صراحت ویژگیهای آماری و غیر آماری سؤالها با تعادل مطلوبی بین ویژگیهای اندازهگیری و ساختاری در نظر گرفته میشود. این ویژگیها بهوسیلهی وزنهایی که توسط طراحان تست انتخاب شد، در مدل وارد شدند. به عبارت دیگر، ویژگیهای محتوایی به عنوان اهداف فرمولبندی شدند. انحراف از اهداف محتوایی وزن داده شد و در تابع هدف به همراه فاصلهی آگاهی سؤال از مقدار هدف قرار داده شد. انتخاب سؤالات در CAT، بر اساس رویکرد WDM به شکلی تنظیم شد که سؤالاتی انتخاب شوند که بهطور متوالی کوچکترین مجموع انحرافات وزندار را داشته باشند. برای انتخاب یک سؤال از سه گام پیروی شد: ۱). اگر سؤالی که قبلاً در تست نبوده به تست اضافه شود، انحراف برای هر یک از قیود محاسبه شود. ۲). انحرافات وزندار در میان همهی قیود جمع شود. ۳). در پایان، سؤالی با کوچکترین مجموع وزندار انحرافات انتخاب شود.
در این روش مدل یابی، سؤالات به صورت نشان داده میشود، متغیر تصمیمگیری را نشان میدهد. اگر سؤال در تست وارد شود، و اگر سؤال از تست خارج شود . در این مدل صفات تست همراه قیود غیر روانسنجی را نشان میدهد. حدود پایین و بالای تعداد سؤالاتی که در آزمون دارای چنین ویژگیهایی هستند را به ترتیب با و نشان میدهد، البته ممکن است گاهی با یکدیگر برابر باشد. همچنین، اگر سؤال دارای ویژگی باشد، . و اگر سؤال دارای ویژگی نباشد، . تعداد سؤالات در خزانه را نشان میدهد، وزن اختصاص داده شده به هر قید را نشان میدهد، و به ترتیب کسری حد پایین و مازاد حد بالا را نشان میدهند. و ، به ترتیب، اضافی حد پایین و کسری حد بالا را نشان میدهد. انحراف از آگاهی هدف را برای یک آزمودنی نشان میدهد. دو جدول ۴-۱۵ و ۴-۱۶ به صورت خلاصه اطلاعات مربوط به توابع هدف و قیود مربوط به آن را نشان میدهد. قیود تست به عنوان ویژگیهای غیر آماری یا غیر روانسنجی، به همراه ویژگیهای آماری وارد شبیهسازیهای روش اکتشافی مرحلهی قبل میشود. سپس، انحرافات از این قیدها برای هر یک از ۶۰۰۰ تعداد CAT که از کل خزانهی بهینه سرهم میشود، محاسبه میگردد. به طور کلی، در این مرحله تلفیقی از دو رویکرد برنامهنویسی ریاضی و رویکرد اکتشافی به چشم میخورد.
به دلیل کنترل عامل پهنای b-bin ها، در این مرحله، تنها از پهنای ۲/۰ در شبیهسازی ها استفاده شد و از بررسی عامل پهنای b-bin در خزانههایی با کنترل محتوایی صرفنظر شد. امّا، عامل کنترل مواجهه یکی از مهمترین عوامل موثری است که در این مرحله دستکاری میشود. در قسمت زیر، ابتدا در مرحلهی اول نتایج مربوط به خزانههایی که با تعادل محتوایی و بدون عامل کنترل مواجهه طراحی شدند و سپس در مرحلهی دوم نتایج مربوط به خزانههایی که علاوه بر تعادل محتوایی، مواجهه سؤال را نیز کنترل میکنند، را گزارش میکنیم.
جدول ۴-۱۵: اطلاعات مربوط به قیود و وزنهای آزمونهای CAT در مورد بیشینه کردن آگاهی تست
تابع هدف: به حداکثر رساندن تابع هدف
در ارتباط با قیود زیر
قید
کد قید
وزن
حداقل
حداکثر
طول تست
Test lenght
N1
۲۵
۲۵
N2
۲۰
۲۰