طراحی و کاربرد الگوهای تهیه‌ی خزانه‌ی‌ سؤال در بهینه ...

ارسال شده در 14 آبان 1400 توسط فاطمه کرمانی در بدون موضوع

نمودار ۴-۳۳ نشان می‌دهد که نرخ همپوشی تست در خزانه‌های بهینه کمتر از خزانه‌ی عملیاتی است و دارای کوچکترین نرخ همپوشی تست را در همه‌ی سطوح توانایی هستند. نتایج حاصل از تحلیل کجی نرخ مواجهه‌های سؤال، درصد سؤالات بیش مواجهه شده و به همراه نمودارهای ۴-۳۴ تا ۴-۳۶ نشان می‌دهند که میزان مواجهه‌ سؤالات در خزانه‌های بهینه به حداقل مقدار خود می‌رسد. به عبارت دیگر، با وجود اینکه تعداد سؤالات در خزانه‌های بهینه کمتر از خزانه‌های عملیاتی است، این تفاوت بسیار زیاد است. همانطور که جدول ۴-۱۴ نشان می‌دهد، نرخ کجی مواجهه‌ سؤال و درصد سؤالات بیش مواجهه شده در خزانه‌های بهینه از خزانه‌ی عملیاتی متفاوت است. با وجود اینکه تعداد سؤالات بسیار کمتر است. امّا، نسبت به خزانه‌هایی که پهنای ۲/۰ داشتند، دارای نرخ مواجهه‌ و همپوشی تست بیشتری است. البته این نتایج طبیعی است. همچنین، نرخ سؤالات کم مواجهه شده در خزانه‌ی MRP (ROP_11) بیشتر از دو خزانه‌ی دیگر است.
نمودار۴-۳۳: نرخ همپوشی تست مشروط به Ɵ با S-H

نمودار ۴-۳۴: درصد سؤالات بیش مواجهه شده در مدل R (ROP_10) با S-H

نمودار ۴-۳۵: درصد سؤالات بیش مواجهه شده در مدل MRP (ROP_11) با S-H

نمودار ۴-۳۶: درصد سؤالات بیش مواجهه شده در مدل MTI (ROP_12) با S-H
نمودار ۴-۳۷ میانگین آگاهی تست را در سطوح متفاوت توانایی، در همه‌ی خزانه‌های سؤال نشان می‌دهد. خزانه‌ی MRP در تمام سطوح توانایی آگاهی بیشتری فراهم می‌کند، امّا نسبت به خزانه‌هایی که کنترل مواجهه نداشتند، در سطوح توانایی بالای ۲ آگاهی کمتری ایجاد می‌کند. دلیل این امر این است که، توزیع سؤالات در خزانه متعادل‌تر شده است و از مواجهه‌ بیش از حد سؤالاتی با ضرایب تشخیص بالا جلوگیری می‌شود. خزانه‌ی R آگاهی تقریباً مشابهی با خزانه‌ی عملیاتی ایجاد می‌کند. خزانه‌ی MTI نسبت به سه خزانه‌ی دیگر به طور معناداری آگاهی کمتری ایجاد می‌کند، امّا فراتر از میزان آگاهی هدف می‌باشد. این نتایج با خزانه‌هایی که با پهنای ۲/۰ ایجاد شدند، الگوی تقریباً مشابهی دارد، امّا در خزانه‌هایی با پهنای ۴/۰ ، تنها کاهش اندکی در میزان آگاهی نسبت به خزانه‌هایی که با پهنای ۲/۰، ایجاد شده است. بنابراین، نتایج نشان می‌دهد که اگر عامل کنترل مواجهه در طراحی خزانه‌ی سؤال وارد شود، پهنای b-bin ها می‌تواند اهمیت کمتری نسبت به زمانی‌که عامل کنترل مواجهه وارد نمی‌شود، پیدا کند.

نمودار ۴-۳۷: متوسط آگاهی تست مشروط به توانایی واقعی در خزانه‌های سؤال با S-H (b-bin: 0.4)
نمودارهای ۴-۳۸، ۴-۳۹ و ۴-۴۰ به‌ترتیب خطای استاندارد اندازه‌گیری، اریب و میانگین مجذور خطا را در سطوح متفاوت توانایی در هر چهار خزانه نشان می‌دهد. نمودار ۴-۳۸ نشان می‌دهد که مقادیر خطای استاندارد اندازه‌گیری در سه خزانه‌ی بهینه در سطوح توانایی زیر ۵/۱ تقریباً مشابه است و کمتر از خزانه‌ی عملیاتی است. مخصوصاً این مقادیر در سطوح توانایی بالاتر از ۵/۱ در خزانه‌ی MRP و MTI به حداقل مقادیر خود می‌رسند. همچنین، میزان اریب در سه خزانه‌ی بهینه در اغلب سطوح توانایی کمتر از خزانه‌ی عملیاتی است. مقادیر MSE خزانه‌های بهینه در همه‌ی سطوح کمتر از خزانه‌ی عملیاتی است.
نمودار ۴-۳۸: خطای استاندارد اندازه‌گیری (CSEM) در خزانه‌های سؤال با S-H (b-bin: 0.4)
نمودار ۴-۳۹: اریب شرطی (conditional-Bias) در خزانه‌های سؤال با S-H (b-bin: 0.4)
نمودار ۴-۴۰: میانگین مجذور خطا (CMSE) در خزانه‌های سؤال با S-H (b-bin: 0.2)
خلاصه‌ی مرحله‌ی سوم و چهارم
نتایج نشان داد که بدون توجه به عامل پهنای b-bin خزانه‌های سؤال بهینه‌ای که با کنترل مواجهه‌ S-H طراحی شده‌اند بهتر از خزانه‌های سؤال عملیاتی از نظر اندازه خزانه، دقت اندازه‌گیری و امنیت آزمون عمل کردند. بنابراین، مکانیزم کنترل مواجهه خیلی خوب کار کرد. زیرا نرخ‌های مواجهه برای همه‌ی سؤالات در حدود و یا پایین‌تر از نرخ مواجهه‌ هدف (۳۳/۰) بود. بررسی دقیق‌تر به دقت اندازه‌گیری در هر یک از سطوح توانایی و بررسی نمودارهای مربوط به آگاهی شرطی تست، نشان داد که، خزانه‌های سؤالی که با کنترل مواجهه‌ سؤال طراحی شده‌اند، دارای دقت بیشتری نسبت به خزانه‌هایی که بدون کنترل مواجهه طراحی شدند، بودند. همچنین، در بیشتر سطوح توانایی نیز دارای آگاهی بیشتری بودند. این نتیجه به این دلیل بود که، سؤالات اضافه شده به خزانه‌های بهینه با کنترل مواجهه‌ S-H دارای سؤالاتی با ضرایب تشخیص بالاتری بودند. البته این نکته قابل بیان است که در برخی سطوح توانایی میزان آگاهی مشابهی با خزانه‌های بدون کنترل مواجهه داشتند. از نظر دقت اندازه‌گیری خزانه‌های بهینه‌ای که با پهنای ۲/۰ ساخته شده‌اند، با خزانه‌هایی که با پهنای ۴/۰ طراحی شده‌اند، تفاوت معناداری ندارند. امّا، خزانه‌هایی که با پهنای ۴/۰ طراحی شده‌اند، دارای تعداد کمتری سؤال بودند، که از لحاظ اقتصادی این الگوها را به صرفه‌تر می‌کند.
در مجموع، به نظر می‌رسد که خزانه‌ی MTI از سؤالات موجود در خزانه استفاده‌ی بیشتری می‌کند و دارای حداقل سؤالات کم مواجهه شده می‌باشد. همچنین، از نرخ همپوشی تست کمی با وجود اینکه دارای حداقل تعداد سؤال است، برخوردار می‌باشد. در مجموع، بدون توجه به عامل پهنای b-bin ها، خزانه‌های بهینه‌ی MTI از دقت اندازه‌گیری بالاتری برخوردارند، این نوع خزانه‌ها نسبت به خزانه‌های R و MRP دارای سؤالات کمتری هستند. به طوری‌که میزان دقت و صحت اندازه‌گیری آنها از خزانه‌های MRP در زمانی‌که پهنای b-bin ها برابر با ۲/۰ است، با تفاوت ناچیزی کمتر است و در زمانی‌که پهنای b-bin ها برابر با ۴/۰ است، با تفاوت ناچیزی بیشتر است. در کل، این نوع خزانه‌ها، از امنیت بالایی نیز برخوردارند و از سؤالات استفاده‌ی بیشتری می‌کنند.
بنابراین، توصیه می‌شود که، زمانی‌که به صرفه بودن طراحی خزانه‌های سؤال و امنیت آزمون عامل بسیار مهمی می‌باشند، برای کاهش تعداد سؤالات مورد نیاز در خزانه‌ی CAT از روش MTI با کنترل مواجهه‌ سؤال استفاده شود. امّا، این نکته باید مدّنظر باشد که این خزانه از حداقل مقدار آگاهی برخوردار است. همچنین اگر، در آزمونی دقت و صحت اندازه‌گیری برای طبقه‌بندی و گزینش افراد و امنیت آزمون عوامل مهمی هستند، و به صرفه بودن عامل تعیین کننده‌ای نیست، از روش MRP استفاده شود. زیرا بدون توجه به پهنای b-bin ها، از دقت و آگاهی بالایی در تمام سطوح اندازه‌گیری برخوردارند.
طراحی خزانه‌ی سؤال بهینه با در نظر گرفتن تعادل محتوایی در اجرای CAT
در این مرحله، خزانه‌های سؤال بهینه با در نظر گرفتن عامل تعادل محتوایی و وزن‌های محتوایی از پیش تعیین شده، طراحی شدند. به طوری‌که، محتوای آزمون CAT، توسط متخصصان موضوعی مشخص شد و پس از توافق کامل میان ۵ متخصص، محتواها به کدهای معینی تبدیل شدند. محتواها به سه مجموعه‌ی اصلی (حسابان-دیفرانسیل، هندسه، جبر) تقسیم بندی شدند. به دنبال آن هر یک از مجموعه‌ها به زیر مجموعه‌های معین (به ترتیب، ۱۸، ۱۶ و ۱۱) تقسیم بندی شدند. سپس از طریق روش برنامه نویسی ریاضی کدهای مربوط به هر یک از محتواها، وارد برنامه‌ی طراحی خزانه‌ی سؤال بهینه شدند. در این پژوهش از روش برنامه‌نویسی خطی (ریاضی) (WDM) برای تعیین محتواها و ایجاد تعادل محتوایی در خزانه‌های سؤال استفاده شد. از طریق این روش تست‌های سنجش انطباقی برای ۶۰۰۰ نفر سرهم شدند. در این روش، ابتدا پیش‌بینی جستجوی راه حلّ برای تست کامل صورت گرفت و همزمان هم قابل حلّ بودن و هم بهینه بودن تست در نظر گرفته شد. این روش جزء روش‌های شهودی حلّ مسائل سرهم کردن تست می‌باشد. با کاربرد روش WDM به صراحت ویژگی‎های آماری و غیر آماری سؤال‌ها با تعادل مطلوبی بین ویژگی‌های اندازه‌گیری و ساختاری در نظر گرفته می‌شود. این ویژگی‌ها به‌وسیله‌ی وزن‌هایی که توسط طراحان تست انتخاب شد، در مدل وارد شدند. به عبارت دیگر، ویژگی‌های محتوایی به عنوان اهداف فرمول‌بندی شدند. انحراف از اهداف محتوایی وزن داده شد و در تابع هدف به همراه فاصله‌ی آگاهی سؤال از مقدار هدف قرار داده شد. انتخاب سؤالات در CAT، بر اساس رویکرد WDM به شکلی تنظیم شد که سؤالاتی انتخاب شوند که به‌طور متوالی کوچکترین مجموع انحرافات وزن‌دار را داشته باشند. برای انتخاب یک سؤال از سه گام پیروی شد: ۱). اگر سؤالی که قبلاً در تست نبوده به تست اضافه شود، انحراف برای هر یک از قیود محاسبه شود. ۲). انحرافات وزن‌دار در میان همه‌ی قیود جمع شود. ۳). در پایان، سؤالی با کوچکترین مجموع وزن‌دار انحرافات انتخاب شود.
در این روش مدل یابی، سؤالات به صورت نشان داده می‌شود، متغیر تصمیم‌گیری را نشان می‌دهد. اگر سؤال در تست وارد شود، و اگر سؤال از تست خارج شود . در این مدل صفات تست همراه قیود غیر روان‌سنجی را نشان می‌دهد. حدود پایین و بالای تعداد سؤالاتی که در آزمون دارای چنین ویژگی‌هایی هستند را به ترتیب با و نشان می‌دهد، البته ممکن است گاهی با یکدیگر برابر باشد. همچنین، اگر سؤال دارای ویژگی باشد، . و اگر سؤال دارای ویژگی نباشد، . تعداد سؤالات در خزانه را نشان می‌دهد، وزن اختصاص داده شده به هر قید را نشان می‌دهد، و به ترتیب کسری حد پایین و مازاد حد بالا را نشان می‌دهند. و ، به ترتیب، اضافی حد پایین و کسری حد بالا را نشان می‌دهد. انحراف از آگاهی هدف را برای یک آزمودنی نشان می‌دهد. دو جدول ۴-۱۵ و ۴-۱۶ به صورت خلاصه اطلاعات مربوط به توابع هدف و قیود مربوط به آن را نشان می‌دهد. قیود تست به عنوان ویژگی‌های غیر آماری یا غیر روان‌سنجی، به همراه ویژگی‌های آماری وارد شبیه‌سازی‌های روش اکتشافی مرحله‌ی قبل می‌شود. سپس، انحرافات از این قیدها برای هر یک از ۶۰۰۰ تعداد CAT که از کل خزانه‌ی بهینه سرهم می‌شود، محاسبه می‌گردد. به طور کلی، در این مرحله تلفیقی از دو رویکرد برنامه‌نویسی ریاضی و رویکرد اکتشافی به چشم می‌خورد.
به دلیل کنترل عامل پهنای b-bin ها، در این مرحله، تنها از پهنای ۲/۰ در شبیه‌سازی ها استفاده شد و از بررسی عامل پهنای b-bin در خزانه‌هایی با کنترل محتوایی صرف‌نظر شد. امّا، عامل کنترل مواجهه یکی از مهمترین عوامل موثری است که در این مرحله دستکاری می‌شود. در قسمت زیر، ابتدا در مرحله‌ی اول نتایج مربوط به خزانه‌هایی که با تعادل محتوایی و بدون عامل کنترل مواجهه طراحی شدند و سپس در مرحله‌ی دوم نتایج مربوط به خزانه‌هایی که علاوه بر تعادل محتوایی، مواجهه‌ سؤال را نیز کنترل می‌کنند، را گزارش می‌کنیم.
جدول ۴-۱۵: اطلاعات مربوط به قیود و وزن‌های آزمون‌های CAT در مورد بیشینه‌ کردن آگاهی تست

تابع هدف: به حداکثر رساندن تابع هدف
در ارتباط با قیود زیر

قید
کد قید
وزن
حداقل
حداکثر

طول تست
Test lenght
N1
۲۵
۲۵

N2
۲۰
۲۰

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

آخرین مطالب

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

جستجو

موضوعات

فیدهای XML