دریافت فایل آموزشی - دانشگاه علوم پزشکی کرمان

Report
‫طراحی و تحلیل پرسشنامه‬
‫نوذر نخعی‬
‫استاد پزشکی اجتماعی‬
‫دانشگاه علوم پزشکی کرمان‬
‫کلیات‬
‫• پرسشنامه مجموعه اي از سؤاالت است كه براي اندازه‬
‫گيري يك پديده ذهني بكار مي رود‪ .‬پرسشنامه مي‌تواند‬
‫توسط خود فرد تكميل گردد و يا از طريق مصاحبۀ رودرو‌ و‬
‫يا تلفنی تكميل گردد‪.‬‬
‫• هنر پرسشنامه آن است كه داده‌هاي نرم و مفاهیم انتزاعی را‬
‫(آنچه در ذهن پاسخگو مي گذرد) به حالت عيني قابل اندازه‬
‫گيری (داده سخت) تبدیل می نماید‪.‬‬
‫• هيچگاه درصدد ساخت پرسشنامه برنياييد!‬
‫• اپنهايم در مقدمه كتاب طراحي پرسشنامه (چاپ سال ‪1966‬‬
‫ميالدي) بيان ميد‌ارد‪« :‬دنيا پر از مردمان فهيمي است كه‬
‫تصور مي‌كنند طراحي پرسشنامه كار هركس ي است‪ .‬اين‬
‫كتاب براي آنان نوشته نشده است‬
‫در مجموع هنگام استفاده از پرسشنامه‪ ،‬پژوهشگر دو راه دارد‪:‬‬
‫الف)استفاده از پرسشنامه‌هاي استاندارد؛‬
‫ب) استفاده از پرسشنامه‌هاي پژوهشگر ساخته‪.‬‬
‫• منظور از پرسشنامه استاندارد پرسشنامه‌اي است كه به واسطه‬
‫يك پژوهش و با «هدف ساخت پرسشنامه» به دنياي علم معرفي‬
‫شده باشد‪ ،‬به طوریکه شواهد روان سنجي و مورد تأييد بودن‬
‫اين پرسشنامه در قالب يك مقاله علمي – پژوهش ي يا مقاله بين‬
‫املللي ارائه گرديده باشد‪ .‬پايان نامه يا ارائه پوستر شواهد مستدلي‬
‫دال بر استاندارد بودن پرسشنامه تلقي نمي‌شوند‪ ،‬اگرچه كه برخي‬
‫پژوهشگران از پايان نامه نيز به عنوان مرجع استاندارد بودن‬
‫پرسشنامه در پژوهشهاي خود استفاده مي‌نمايند‪.‬‬
‫• به طور کلی استفاده از سواالت استاندارد به دو علت ارجح‬
‫است‪:‬‬
‫• اول آنکه روایی و ویژگی های روان سنجی این سواالت‬
‫مستدل تر است‬
‫• دوم آنکه امکان مقایسه نتایج با یافته های سایر‬
‫پژوهشگران فراهم می شود‪.‬‬
‫گروه های متفاوتی با این پرسشنامه سروکار‬
‫خواهند داشت‬
‫ سياستگذاران ‪ ،‬مسئولين و سایر پژوهشگران‬‫ مشاركت كنندگان كه الزم است پرسشنامه ساده قابل فهم و‬‫مختصر باشد تا وقت زيادي از آن گرفته نشده و آنان را‬
‫خسته ننمايد‪.‬‬
‫ واردكننده داده ها به رايانه كه الزم است از نظر كدگذاري‌‬‫ساده باشد‪.‬‬
‫ مصاحبه گر كه نيازمند يك پرسشنامه كم حجم و غيرپيچيده‬‫جهت تسهيل فرآيند پرسشگري است‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫به طور خالصه جهت نهايي شدن يك پرسشنامه سه مرحله‬
‫الزم است طي شود‪:‬‬
‫‪ -1‬مرحله او ‌ل‪ :‬مرحله برنامه‌ريزي و طراحي سؤاالت‬
‫‪ -2‬مرحله دوم‪ :‬مرحله اجراي آزمايش ي از دو بعد شناختي كه‬
‫در آن قابل قبول بودن و قابل فهم بودن سؤاالت آزمون‬
‫مي‌شود‬
‫‪-3‬بعد كمي‬
‫اصول اخالقي در پرسيدن سؤاالت‬
‫• رعايت حريم شخص ي ‪،‬‬
‫• رضايت آگاهانه‬
‫• و حفظ سر مشاركت كنندگان‬
‫‪• privacy‬‬
‫‪• - informed consent‬‬
‫‪• - confidentiality‬‬
‫چه كنيم ميزان مشارکت و پاسخدهي افراد‬
‫افزايش يابد؟‬
‫• بر اساس يك قاعده سرانگشتي‪ ،‬در صورتي كه بيش ‌از ‪70‬‬
‫درصد كساني كه جهت تكميل پرسشنامه دعوت به همكاري‬
‫شده‌اند‪ ،‬اقدام به تكميل آن نمايند (چه از طريق مصاحبه و‬
‫چه خودايفا)‪ ،‬مي‌توان چنين نتيجه‌گيري نمود كه روايي‬
‫بيروني مطالعه قابل قبول است‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫سه علت براي عدم تکمیل پرسشنامه توسط افراد مي‌توان‬
‫متصور شد‪:‬‬
‫الف) عدم دريافت پرسشنامه‬
‫ب) امتناع از گرفتن پرسشنامه يا پاسخ به سؤاالت‬
‫ج) فراموش نمودن تكميل پرسشنامه‬
‫را ه های افزایش پاسخ دهی‬
‫‪ -1‬تماس قبلي با پاسخگويان و هماهنگي با آنان‬
‫‪ -2‬توجيه پاسخگويان و برقراري ارتباط مناسب با آنان‬
‫‪ -3‬تهيه نمودن هديه جهت پاسخگويان‬
‫‪ -4‬استفاده از حمايت سازمان‌ها و افراد مورد وثوق جهت جلب‬
‫مشاركت پاسخگويان‬
‫‪ -5‬ارسال پرسشنامه به اسم شخص مخاطب (پاسخگو) به صورت‬
‫تايپ شده‬
‫‪ -6‬تضمين بدون نام بودن پرسشنامه‬
‫سؤاالت پرسشنامه را در چهار دسته كلي جاي دارد‬
‫الف) سؤاالت مبتني بر واقعيات موجود كه در مورد‬
‫خصوصيات افراد و موضوعاتي كه اتفاق افتاده است‬
‫پرسش مي نمايد‪ .‬سؤاالت زمينه‌اي (مانند سن‪ ،‬جنس‪،‬‬
‫وضعيت تأهل) در اين گروه قرار مي‌گيرند‪.‬‬
‫ب) سؤاالت رفتار سنجي كه در مورد آنچه كه مردم انجام‬
‫مي‌دهند‪ ،‬پرسش مي‌نمايد‪ .‬سؤاالت مربوط به سنجش‬
‫عملكرد افراد در اين گروه قرار مي‌گيرند‬
‫ج) سؤاالت آگاهي سنجي كه آگاهي‪ ،‬اطالعات و مهارت هاي‬
‫شناختي افراد نسبت به يك موضوع پرسش مي‌نمايد‪.‬‬
‫د) سؤاالت نگرش سنجي و پرسشگري پيرامون حاالت رواني‬
‫اشخاص‪ .‬البته پاسخ داده شده به اين سؤاالت به شفافي‬
‫سه گروه قبل قابل اثبات نيستند چرا كه ذهن افراد ‌را به‬
‫طور مستقيم نمي توان خواند!‬
‫سؤاالت رفتار سنجي‬
‫• سؤاالت رفتارسنجي به دو گروه تهاجمي (حساس) و‬
‫غيرتهاجمي مي‌توانند باشند‪.‬‬
‫• سؤاالت رفتارسنجي غيرحساس برخالف سؤاالت تهاجمي و نيز‬
‫سؤاالت نگرش سنجي خيلي به نحوه بيان پرسش وابسته‬
‫نیستند‪ ،‬و بيشتر تحت تأثير دو عامل می باشند؛ قابل فهم‬
‫بودن و تأثير حافظه‪.‬‬
‫نکات مهم در طراحی سواالت غير حساس‬
‫• هنگام پرسش پيرامون عملكرد شخص طي يك مدت خاص و‬
‫کوتاه (مانند هفته و ماه) بهتر است زمان به طور دقيق‬
‫ً‬
‫مشخص شود‪ ،‬تا اينكه به صورت كلي پرسيده شود‪ .‬مثال‬
‫هنگامي كه مي‌پرسيم‪« :‬آيا طي يك ماه‪،‬گذشته سيگار‬
‫ً‬
‫كشيده‌ايد» بهتر است با ذكر تاريخ باشد مثال اگر ‪ 25‬آبان‬
‫اين سؤال را مي‌پرسيم در پرانتز ذكر نماييم منظور «‪ 25‬مهر‬
‫ماه تاكنون‌»‪.‬‬
‫• وقايع چشمگير و برجسته مانند خريد منزل و ازدواج در‬
‫مقايسه با وقايع كم اهميت‌تر آسان‌تر به ياد مي‌آيند‪ .‬در‬
‫خصوص وقايع مهم و برجسته پرسيدن در يك چارچوب‬
‫زماني دو تا سه سال منطقي به نظر مي‌رسد ولي در مورد‬
‫موضوعات معمولي بهتر است بازه زماني مورد سؤال حداكثر‬
‫بين دو هفته تا يك ماه باشد‪.‬‬
‫‪Telescoping‬‬
‫• به اين مفهوم كه افراد وقايع را نزديك‌تر از آنچه هست‪ ،‬به‬
‫ياد مي‌آورند‪ .‬به طور مثال هنگامي كه مي پرسيم در هفته‬
‫گذشته چندبار با دوستان خود قليان كشيده‌ايد‪ ،‬ممكن‬
‫است ده روز گذشته را تخمين بزنند‬
‫• توصيه مي‌شود زمان دو هفته تا يك ماه‪ ،‬براي پرسشگري‬
‫پيرامون رفتارها در نظر گرفته شود‪.‬‬
‫• برخالف سؤاالت نگرش سنجي كه تأكيد مي‌گردد‪ ،‬سؤاالت كوتاه و‬
‫مختصر بيان شوند‪ ،‬بهتر است سؤاالت رفتارسنجي كمي تشريحي‌تر‬
‫نوشته شوند تا به حافظه و فهم افراد كمك نموده و پاسخ‌هاي‬
‫دقيق‌تري داده شود‪.‬‬
‫• البته متذكر مي‌گردد كه طوالني نمودن سؤال در مورد سؤاالتي‬
‫كه پذيرش اجتماعي كمتري دارند به افزايش همكاري پاسخگو‬
‫كمك بيشتري مي‌نمايد‪ ،‬ولي در مورد رفتارهای مثبت ممكن است‬
‫منجر به بيش گزارش دهي شود‪.‬‬
‫• ممكن است از پاسخگو راجع به رفتارهاي ديگران بپرسيم‪.‬‬
‫ً‬
‫مثال در مورد مقدار مصرف مواد توسط دوستان‪ .‬در مجموع‬
‫پرسشگري در مورد رفتار سايرين سبب مي‌شود ‪ 10‬تا ‪20‬‬
‫درصد از دقت گزارشات كاسته شود ‪.‬‬
‫• ولي در مورد رفتارهاي منفي و يا سؤاالت حساس ممكن است‬
‫دقت پاسخ ها افزايش يابد‬
‫روشهاي حساسيت زدايي از سؤاالت تهاجمي‬
‫متداولترين روش فائق آمدن بر حساسيت سؤاالت استفاده از‬
‫پرسشنامه‌هاي خود ايفا است‪ .‬اين روش هم براي حل‬
‫مشكل كم گزارش دهي در رفتارهاي نامطلوب و هم براي حل‬
‫مشكل بيش گزارش دهي در خصوص رفتارهاي مطلوب‬
‫كاربرد دارد‬
‫• پرسشنامه‌ها به صورت دسته جمعي توزيع گردند‪ .‬به ويژه در‬
‫محل هايي كه افراد به طور معمول به شيوة تجمعي حضور دارند‬
‫• در جمع آوري پرسشنامه‌ها‪ ،‬محرمانه بودن و غيرقابل ردگيري‬
‫بودن پرسشنامه‌ها تضمين گردد‪ .‬به اين شكل كه در وسط كالس‬
‫يا محل تجمع افراد يك صندوق تعبيه گردد و از افراد خواسته‬
‫شود پس از تكميل پرسشنامه‌ها‪ ،‬آنها را داخل اين جبعه دربسته‬
‫بياندازند تا كس ي دسترس ي مستقيم به پرسشنامه در لحظه تحويل‬
‫آن نداشته باشد‪.‬‬
‫• روش ديگر استفاده از تكنيك پاسخ‌هاي تصادفي شده است‬
‫كه حدود نيم قرن پيش ارائه گرديد‪.‬‬
‫• در سال‌هاي اخير روش هاي ساده‌تري نيز ارائه شده است كه‬
‫از آن جمله مي‌توان به روش ضربدري اشاره نمود‬
‫• استفاده از سؤاالت طوالني‌تر مي‌تواند منجر به همكا ‌ري بيشتر‬
‫مشاركت كنندگان شود‪ ،‬به طوري كه تا حد ‪ 25‬تا ‪30‬‬
‫درصد در مقايسه با سؤاالت كوتاه افزايش پاسخ مثبت‬
‫مي‌تواند رخ دهد‬
‫• در پرسيدن راجع به رفتارهاي منفي بهتر است از بازه زماني‬
‫گذشته استفاده شود تا حال‪ .‬به طور مثال پرسيده شود‪:‬‬
‫«آيا تا به حال براي يك بار هم شده است لب به الكل زده‌‬
‫باشيد؟» به جاي «آيا در حال حاضر الكل استفاده‬
‫مي‌نماييد؟» در عوض براي رفتارهاي مورد تأييد مانند بستن‬
‫كمربند ايمني بايد برعكس سؤال نمود‬
‫• استفاده از روش «همه اين كار را مي‌كنند»‪ ،‬براي كاستن از‬
‫ً‬
‫قباحت موضوع از ديد پاسخگو‪ ،‬مثال در متن سؤال بيان‬
‫مي‌كنيم‪« :‬به نظر مي‌رسد در حال حاضر مصرف قليان در‬
‫اماكن عمومي از جمله پارك‌ها رو به افزايش است‪ .‬شما تا‬
‫به حال پيش آمده كه با دوستانتان در پارك قليان بكشيد؟»‪.‬‬
‫• ‪- everybody does it‬‬
‫• يكي از راه‌هاي ديگر آن است كه بنا را براين بگذاريم كه‬
‫ً‬
‫پاسخگو اين رفتار را انجام مي‌هد‪ .‬مثال به جاي آنكه بپرسيم‬
‫«آيا سيگار مي‌كشيد» و سپس سؤال نمايیم «اگر بلي‪‌ ،‬روزی‬
‫چند نخ؟» به اين شكل پرسش نماييم‪« :‬روزانه چند نخ سيگار‬
‫ً‬
‫اصال» را نيز بگنجانيم‬
‫مي‌كشيد؟» و گزينه « ‌‬
‫• استفاده از نظر تأييدي افراد صاحبنظر براي القاء اين‬
‫ً‬
‫ً‬
‫موضوع كه رفتار مورد سؤال كامال ناپسند نيست‪ .‬مثال‬
‫«هنوز برخي از پزشكان ترياك را براي درمان برخي از بيماري‌ها‬
‫تجويز مي‌نمايند‪ .‬آيا شما طي يك ماه گذشته ترياك مصرف‬
‫نموده‌ايد؟»‪.‬‬
‫ً‬
‫مثال ذكر‬
‫• آوردن توجيه براي روي آوردن به يك رفتار نادرست‪‌ .‬‬
‫شود كه «برخي براي آنكه بر اعصاب خود مسلط شوند به‬
‫سيگار روي مي ‌آورند‪ .‬شما تا به حال شده است كه سيگار‬
‫بكشيد؟»‬
‫آری از پشت کوه آمده ام‪...‬‬
‫چه می دانستم این ور کوه باید برای ثروت‪ ،‬حرام خورد؟‬
‫برای عشق خیانت کرد‬
‫برای خوب دیده شدن دیگری را بد نشان داد‬
‫برای به عرش رسیدن دیگری را به فرش کشاند‬
‫وقتی هم با تمام سادگی دلیلش را می پرسم‬
‫می گویند‪ :‬از پشت کوه آمده‬
‫ترجیح می دهم به پشت کوه برگردم و تنها دغدغه ام‬
‫سالم برگرداندن گوسفندان از دست گرگ ها‬
‫باشد‪ ،‬تا اینکه این ور کوه باشم و گرگ‬
‫"محمد بهمن بیگی"‬
‫سؤاالت نگرش سنجي‬
‫• ارزيابي‌هاي افراد نسبت به پديده‌هاي پيرامون كه در ذهن‬
‫خود دارند‬
‫• نظر پيرامون يك جزء محدود است و با يك سؤال سنجيده‬
‫مي‌شود‪ ،‬در حالیکه مجموعه‌اي از نظرات تشكيل دهنده‬
‫نگرش است‪ ،‬و نگرش پيچيده‌تر و مفصل‌تر از "نظر" است و‬
‫با چندين سؤال پرسيده مي‌شود‪ .‬البته ذكر اين نكته ‌الزم‬
‫است كه اين دو واژه در بسياري از پژوهش‌ها معادل يكديگر‬
‫بكار مي‌روند‬
‫• در يك تقسيم بندي‪ ،‬نگرش به دو دسته تصريحي (آشكار) ‌و تلويحي‬
‫(ضمني) تقسيم مي‌شود‪ .‬نگرش تصريحي‪ ،‬نگرش ي است كه از آن به‬
‫عنوان نگرش هوشمندانه نيز ياد مي‌شود‪ .‬يعني ارزيابي فرد نسبت‬
‫به وقايع و پديد‌هاي اجتماعي بر اساس تفكر بر موضوع ص ‌ورت‬
‫مي‌پذيرد‪ .‬به عبارتي نگرش تصريحي نمايانگر افكار عقايد و‬
‫باور‬
‫بر‬
‫مبتني‬
‫ضمني‬
‫يا‬
‫تلويحي‬
‫نگرش‬
‫كه‬
‫حالي‬
‫در‬
‫ماست‪،‬‬
‫هاي‬
‫ً‬
‫ناخودآگاه اشخاص ي است و لذا در روش‌هاي اندازه گيري آن ‌‬
‫گاها‬
‫به ابزارهاي فيزيولوژيك مانند ميزان تعريق‪ ،‬رسانش پوستي و ‪...‬‬
‫متوسل مي‌شوند‬
‫• در طراحي سؤاالت نگرش سنجي مهمترين و اولين گام آن‬
‫است كه به اين سؤال در ذهن خود پاسخ دهيم كه «به‬
‫دنبال چه هستيم» و نه چيزي بيشتر‬
‫• سؤاالت نگرش سنجي به سه نوع هستند‪:‬‬
‫ي‬
‫• شناختي‪ ،‬ارزشيابي و رفتار ‌‬
‫به بیانی دیگر مي‌توان سؤاالت نگرش سنجي به صورت‬
‫‪ ABC`s of attitude‬تقسيم بندي نمود‪:‬‬
‫‪ :A‬حرف اول كلمه ‪Affect‬‬
‫‪ :B‬حرف اول كلمه ‪Behavior‬‬
‫‪ :C‬حرف اول كلمه ‪Cognition‬‬
‫كه حيطه ‪ affect‬يا عاطفي (احساس ي) را می توان معادل‬
‫حيطه ‪ evaluation‬يا ارزشيابي تلقي نمود‪.‬‬
‫• هنگام طراحي عبارات نگرش سنجي عالوه بر رعايت اص ‌ول‬
‫كلي طراحي سؤاالت پرسشنامه‪ ،‬الزم است بار ارزش ي سؤاالت‬
‫هم از نوع منفي و هم از نوع مثبت باشد‪.‬‬
‫• بهتر است سؤاالت نگرش سنجي پس از طرح سؤاالت‬
‫رفتارسنجي و آگاهي سنجي قرار داده شوند‪ ،‬از اين جهت كه‬
‫پاسخ به سؤاالت رفتارسنجي تحت الشعاع پاسخ‌هاي داده‬
‫شده به سؤاالت نگرش سنجي قرار نگيرند‬
Example
‫سؤاالت روان نگاري‬
‫• پژوهش‌هاي روان نگاري و سبك زندگي برخي اوقات به عنوان‬
‫‪AIO‬يا سنجش «فعاليت‌ها‪ ،‬عاليق و نظرات» نيز نام برده‬
‫مي‌شوند‪ .‬اين پژوهش‌ها با هدف ترسيم خصوصيات يك جمعيت‬
‫هدف مانند مصرف كنندگان اكستازي به كار مي‌روند‪ .‬از طريق اين‬
‫پژوهش‌ها مي‌توان جهت طراحي اقدامات پيشگيرانه مصرف م ‌واد‪،‬‬
‫چرا‬
‫اقدامات دقيق‌تري نمود و تا حدي به اين سؤال پاسخ داد كه ‌‬
‫افراد متفاوت رفتارهاي متفاوت دارند‪ .‬به بيان ساده‌تر اين نوع‬
‫پژوهشها نيمرخ و عكس و تصوير جمعيت هدف را ترسيم‬
‫مي‌نمايند‪-‬‬
‫‪• - activities, interests, and opinions‬‬
‫• در صورت تمايل به ساخت پرسشنامه‌هاي پژوهشگر‬
‫ساخته‪ ،‬در ابتدا بر اساس بررس ي متون وسيع‪ ،‬نظرخواهي از‬
‫افراد صاحبنظر و تشكيل جلسات بحث گروهي متمركز‪ ،‬الزم‬
‫است عناوين خصلت‌هاي متفاوت مشخص و در قالب‬
‫ً‬
‫مقياس ليكرت (ارجحا ‪ 9‬درجه‌اي تا ‪ 11‬درجه ای) از افراد‬
‫ً‬
‫راجع به خودشان سؤال شود‪ .‬مثال خصوصياتي همچون‬
‫تلقين پذيري‪ ،‬منطقي بودن‪ ،‬عاطفي بودن‪ ،‬اجتماعي بودن‪،‬‬
‫كنجكاو بودن‪ ،‬درون گرا بودن‪ ‌،‬و تكانش ی بودن‪.‬‬
‫• به طور مثال ضمن طرح موضوع‪ ،‬از مخاطب خواسته می‬
‫شود دور عدد مناسب را خط بکشد‪:‬‬
‫من خودم را يك آدم كنجكاو مي‌دانم‪.‬‬
‫•‬
‫بسيار مخالفم‬
‫• بسيار موافقم‬
‫•‬
‫ً‬
‫مثال‬
‫• به طور معمول جهت گروه بندي افراد جمعيت هدف ( ‌‬
‫مصرف كنندگان شيشه) بر اساس خصوصيات مورد‬
‫بررس ي‪ ،‬از روش آماری تحليل خوشه‌اي استفاده مي‌شود‪.‬‬
‫سؤاالت آگاهي سنجي‬
‫• قبل از طرح سؤاالت آگاه سنجي‪ ،‬الزم است نقشه طرح‬
‫ً‬
‫سؤاالت مشخص شود‪ .‬مثال‌در بررس ي «ميزان آگاهي پزشكان‬
‫عمومي درباره داروي ترامادو ‌ل» پژوهشگران پس از مطالعه‬
‫متون و مشورت گروهي به اين نتيجه رسيدند كه سؤا ‌الت‬
‫مورد نظر در اين حيطه‌ها باشند‪ )1 .‬دسته دارويي و فارماكو‬
‫كينتينك ‪ )2 ،‬وابستگي‪ )3 ،‬عالئم مسموميت‪ )4 ،‬مصارف‬
‫درماني‪ )5 ،‬تداخالت دارويي‪ )6 ،‬اشكال دارويي و دوزاژ‪ ،‬و ‪)7‬‬
‫عوارض جانبي‪.‬‬
‫مجموع‬
‫• پس از آن فرمت يا شكل سؤال بايد تعيين گردد‪ .‬در ‌‬
‫استفاده از سؤاالت بسته در مقايسه با سؤاالت باز و تشريحي‬
‫اولويت بيشتري دارد‪ .‬اگرچه طرح سؤاالت بسته و چند‬
‫گزينه‌اي مشكلتر از سؤاالت تشريحي است‪ ،‬ولي تصحيح آن‬
‫به خصوص در حجم نمونه‌هاي باال راحت‌تر است‪ .‬اينكه‬
‫پاسخ سؤاالت به صورت چهار گزينه‌اي باشد‪ ،‬يا‬
‫صحيح‪/‬غلط‪ ،‬بهتر است پاسخ‌ها به صورت صحيح‪ ،‬غلط و‬
‫اطالعي ندارم باشد‪.‬‬
‫• تنها اشكال سؤاالت صحيح‪/‬غلط آن است كه احتمال حدس زدن‬
‫را افزايش مي‌هد كه براي كاهش اين احتمال از دو شيوه مي‌توان‬
‫استفاده نمود‪ .‬اول آنكه گزينه «اطالعي ندارم» نيز اضافه شود تا‬
‫پاسخگو مجبور به انتخاب يكي از دو گزينه «صحيح» يا «غلط»‬
‫نباشد‪ ،‬دوم آنكه تعداد سؤاالت بيشتر باشد تا تأثير حدس و گمان‬
‫در نمرۀ كل كاهش يابد‪ .‬الزم به ذكر است براي مشاركت كنندگان‬
‫نيز پاسخ به عبارات صحيح‪ -‬غلط آسان‌تر از پاسخ به سؤا ‌الت‬
‫چهارگزينه‌اي است‪ .‬بهتر است به جاي «نمي‌دانم»‪ ،‬از واژه «اطالعی‬
‫ندارم» استفاده شود‪ ،‬تا پاسخگو آن را بياحترامي به خود تلقي‬
‫ننمايد‬
‫• در توزيع سؤاالت آگاهي سنجي الزم است در همان زمان‬
‫پرسشنامه‌ها جمع‌آوري شوند تا پاسخگو فرصت مراجعه به‬
‫منابع جهت انتخاب پاسخ صحيح را نداشته باشد‪ .‬لذا اين‬
‫پرسشنامه‌ها نبايد از طريق پستي يا شبكه اينترنتي تكميل‬
‫گردند‬
‫سؤاالت زمينه اي و دموگرافيك‬
‫اين گروه از سؤاالت را مي‌توان سؤاالت مبتني بر واقعيات موجود نيز ناميد‬
‫كه در مورد خصوصيات مختلف مرتبط با افراد جمعيت هدف تنظيم‬
‫مي‌گردند‪.‬‬
‫به طور معمول سؤال در مورد سن و جنس در زمینه اكثر مطالعات‬
‫پرسشنامه‌اي وجود دارد‪ .‬سؤال در مورد جنس به صورت بسته‬
‫پرسيده مي‌شود‪.‬‬
‫مؤنث‪‬‬
‫جنس‪ :‬مذكر‪‬‬
‫در صورتي كه نقش اجتماعي افراد مورد نظر باشد‪ ،‬واژه مترادف جنس‪،‬‬
‫‪ gender‬مي‌باشد و در صورتي كه ماهيت فيزيولوژيك مدنظر باشد‬
‫واژه مترادف جنس‪ sex ،‬ميباشد‬
‫سؤال از سن مي‌تواند به دو شكل باشد‪:‬‬
‫الف) سن‪........:‬سال‬
‫ب) تاريخ تولد‪13......./......... /.........:‬‬
‫كه در حالت دوم احتمال دقيق‌تر بودن پاسخ بیشتر است ‌زیرا‬
‫در حالت اول سؤال حساس‌تر جلوه مي‌نمايد و برخی تمایلی‬
‫به ذکر سن خود به طور دقیق ندارند‪.‬‬
‫• دقت نماييد كه ساير سؤاالت دموگرافيك در صورتي پرسيده‬
‫شود كه در تحليل نهايي مورد استفاده قرار گيرند‪ .‬چرا كه‬
‫افزودن سؤال اضافي نه تنها سبب خستگي پاسخگو مي‌شود‬
‫بپرسد‬
‫بلكه مي‌تواند در وي ايجاد حساسيت نمايد و از خود ‌‬
‫«چرا اين سؤاالت را از من مي‌پرسند؟» و حتی نزد خود چنين‬
‫نتیجه گيری نماید که «ممکن است از روی سواالت زمینه ای‬
‫من را شناسایی کنند»‪.‬‬
‫تحصيالت كه پيشنهاد مي‌شود به صورت گزينه هاي زير مطرح‬
‫شود‪:‬‬
‫ب) خواندن و نوشتن‪/‬‬
‫الف) بي سواد‬
‫ابتدايي‬
‫د) دبيرستان‪ /‬ديپلم ناقص‬
‫ج) راهنمايي يا سيكل‬
‫و) تحصيالت دانشگاهي‬
‫هـ) ديپلم‬
‫• بايد در نظر داشت سؤال در مورد سطح تحصيالت‪ ،‬شغل‪ ،‬و‬
‫درآمد همگي ناظر به طبقه اقتصادي اجتماعي اشخاص‬
‫مي‌باشند و اگرچه هيچكدام شاخص مستقيمي از طبقه‬
‫اقتصادي اجتماعي نمي‌باشند‪ ،‬شاخص سطح تحصيالت از‬
‫دو شاخص ديگر عينيتر بوده و مقايسه پذيري نتايج با ساير‬
‫پژوهشها را بهتر فراهم مي‌آورد‬
‫• توصيه مي‌شود متغيرهاي دموگرافيك در انتهاي پرسشنامه‬
‫آورده شوند‪ ،‬چرا كه نه تنها ايجاد حساسيت در پاسخگ ‌و‬
‫نمي‌نمايند (ممكن است در صورتي كه در ابتداي پرسشنامه‬
‫آورده شوند ذهن پاسخگو را مشغول خود نموده كه شايد از‬
‫اين طريق قابل شناسنايي شوند)‪ ،‬بلكه آوردن آنها در ابتداي‬
‫پرسشنامه مي‌تواند به كم نمودن انرژي پاسخگو و خسته‬
‫نمودن وي در پاسخ به سؤاالت انتهايي منجر شود‪.‬‬
Searching the literature
•
•
•
•
•
•
•
Questionnaire
Scale
Tool
Inventory
Instrument
Test
checklist
‫روش‌هاي جمع‌آوري داده‌ها از طريق پرسشنامه‬
‫مصاحبه و خودتكميلي‬
‫• روش مصاحبه به سه شيوه رودر رو‪ ،‬تلفني و رايانه‌اي قابل‬
‫انجام است‬
‫• چه موقع سؤاالت پرسشنامه را از طريق مصاحبه تكميل‬
‫نماييم؟‬
‫‪ -1‬بي سواد يا كم سواد بودن مخاطبين‬
‫‪ -2‬ماهيت سؤاالت به گونه‌اي باشد كه نيازمند توضيح براي‬
‫پاسخگويان باشد‪.‬‬
‫‪ -3‬مشاركت كنندگان به عللي تمركز حواس چنداني نداشته و‬
‫الزم باشد از طريق مصاحبه حواس آنان را جمع نمود‪.‬‬
‫‪ -4‬نياز به جمع آوري داده‌هاي حساس در شرايطي كه اطمينان‬
‫داريم بين پاسخگو و مصاحبه كننده حس تفاهم و ارتباط‬
‫خوبي از پیش برقرار است‪-‬‬
‫ ‪ - 5‬استفاده از رفتارهاي غيركالمي سبب مشاركت بيشتر‬‫مصاحبه شونده و نيز رفع تناقض در پاسخ‌ها شود‪.‬‬
‫‪ -6‬براي كدگذاري پاسخ‌ها نياز به قضاوت باشد‪.‬‬
‫روش مصاحبه داراي نقاط ضعفي است‬
‫‪ -1‬در روش مصاحبه احتمال كم گزارش‌دهي رفتارهاي منفي بيشتر‬
‫مي‌شود‪.‬‬
‫‪ -2‬با توجه به آنكه پاسخگويان بسته به سؤالي كه مي‌پرسند‪،‬‬
‫توضيحات مختلفي دريافت مي‌كنند‪ ،‬پرسشگري از يك رويه‬
‫متحدالشكل براي همه برخوردار نخواهد بود واين ممكن است‬
‫سوگيري در نتايج ايجاد نمايد‪.‬‬
‫‪ -3‬خصوصيات پرسشگر و مهارت وي تأثير قابل توجهي بر كيفيت‬
‫داده‌هاي جمع آوري شده دارد‪.‬‬
‫‪ -4‬محرمانه بودن داده ها تا حدي تحت الشعاع قرار مي‌گيرد‪.‬‬
‫‪ -5‬مستلزم صرف وقت و هزينه بيشتري مي‌باشند‪.‬‬
‫ اصول و قواعد مهم در طراحي پرسشنامه‬‫‪ -1‬در قالب بندي پرسشنامه‌ اولويت اول بايد به پاسخگو‪ ،‬در درجه‬
‫دوم نيازهاي مصاحبه كننده و در نهايت به اپراتور رايانه كه‬
‫داده‌ها را وارد نرم افزار مي‌كند داده شود‪.‬‬
‫‪ -2‬اندازه و شكل فونت‌ها بايد به گونه‌اي باشد كه خواندن‬
‫پرسشنامه براي كليه خوانندگان راحت و بدون زحمت باشد‪ ،‬هم‬
‫از نظر سايز فونت و هم از نظر نوع فونت ‪ ،‬قلم‌هايي همچون ‌زر‪،‬‬
‫ميترا‪ ،‬لوتوس بيشتر از ساير قلم‌ها توصيه مي‌شود و اندا ‌زه فونت‬
‫سؤاالت نيز حتي املقدور از ‪ 12‬كوچك‌تر نباشد‪.‬‬
‫‪ -3‬بهتر است سؤاالت شماره گذاري شوند‪ ،‬تا پاسخگو هم بداند‬
‫چند سؤال را بايد جواب دهد و هم اينكه ضمن پيشرفت‬
‫كار‪ ،‬با پيگيري شماره‌ها احساس رضايت نمايد‪.‬‬
‫‪ -4‬در صورتي كه پرسشنامه از حيطه‌هاي مختلف تشكيل شده‬
‫ً‬
‫باشد‪ ،‬مثال نگرش‪ ،‬عملكرد و آگاهي ‪ ،‬بهتر است براي هريك از‬
‫گروه هاي سؤاالت نام گذاري مجزا شود‪.‬‬
‫‪ -5‬بهتر است گزينه‌هاي يك سؤال نيز شماره گذاري شوند‪.‬‬
‫ در مواقعي كه گزينه‌ها از نظر مفهومي‪ ،‬خود از يك ترتيب خاص‬‫تبعيت مي‌نمايند‪ ،‬باالترين شماره يا كد به گزينه‌اي داده شود كه‬
‫ً‬
‫تلويحا و از نظر مفهومي‪ ،‬عدد بيشتري به آن تعلق مي‌گيرد‪ .‬به طور‬
‫مثال در مقياس ليكرت ‪ 5‬درجه‌اي به «بسيار مخالفم» کد ‪ 1‬و به‬
‫«بسيار موافقم» کد ‪ 5‬داده شود‪.‬‬
‫‪ -7‬سعي شود كه كل سؤال و گزينه‌هاي آن در يك صفحه قرار گيرند‪.‬‬
‫‪ -8‬برخي براي آنكه پرسشنامه كوتاه‌تر جلوه نمايد‪ ،‬به صورت دو ستوني‬
‫آن را تهيه مي‌كنند‪ .‬توصيه مي‌شود پرسشنامه به صورت يك ستوني‬
‫تهيه شود‪ .‬بهتر است گزينه‌هاي سؤاالت چندگزينه‌اي به صورت‬
‫عمودي باشد‪ ،‬ولي مي‌توان گزينه‌ها را نيز به صورت رديفي تنظيم‬
‫نمود‬
‫‪ -9‬اگر از پرسشنامه استاندارد استفاده مي‌نماييد‪ ،‬سعي نماييد قالب‬
‫بندي پرسشنامه اصلي رعايت شود‪.‬‬
‫‪ -10‬توصيه مي‌شود مقدمه ابتدايي پرسشنامه با نام خداوند مهربان‬
‫شروع شود‪ ،‬و در سطر دوم نام پرسشنامه آورده شود وپس از آن‬
‫(سطر سوم) سالم و احترام خطاب به پاسخگو آورده شود‪ .‬بعد از آن‬
‫هدف از پژوهش‪ ،‬تأكيد بر بي‌نام بودن (مگر در پيمايش‌هاي روند يا‬
‫كوهورت) نيز ذكر شود‪ ،‬و سپس از همكاري آنان تشكر گردد‪ .‬در پايان‬
‫الزم است نام خانوادگي و عنوان پژوهشگر آورده شود‪ .‬برخي توصيه‬
‫مي‌نمايند‪ ،‬روي هر پرسشنامه يك برگه روكش وجود داشته باشد‪ ،‬و‬
‫در برگه روكش موارد مندرج در بند ‪ 10‬آورده شود‪.‬‬
‫ ‪11‬توصيه مي‌شود‪ ،‬پرسشنامه به صورت كتابچه اي درآورده شود‪ .‬يعني‬‫از وسط صفحه منگنه بخورد نه قسمت گوشه باالي صفحه‪ .‬زيرا با اين‬
‫نيز‬
‫شيوه عالوه بر صرفه جويي در كاغذ‪ ،‬شكل ظاهري پرسشنامه ‌‬
‫حرفه‌اي تر جلوه مي‌نمايد و پاسخگو با جديت بيشتري پرسشنامه را‬
‫تكميل مي‌نمايد‪ .‬در صورت استفاده از الگوي يك صفحه‌اي‪،‬‬
‫پرسشنامه‌ها به صورت يك رو تكثير و منگنه شوند‪.‬‬
‫‪ -12‬استفاده از كاغذهاي رنگي اولويتي نسبت به كاغذ سفيد ندارد‪.‬‬
‫‪ -13‬بسته به مخاطب مي‌توانيد از حاشيه‌هاي متفاوت‪ ،‬با استفاده از نرم‬
‫افزار آفيس جهت زيباتر نمودن ظاهر پرسشنامه استفاده نمايید‪.‬‬
‫ظاهر پرسشنامه اهميت داده شود‪ .‬البته سعي‬
‫‪ -14‬در مجموع سعی شود به‬
‫ِ‬
‫شود بيش از دو فونت‪ ،‬و دو رنگ استفاده نشود‪ .‬همچنين فضاي خالي‬
‫به حد كافي وجود داشته باشد‪.‬‬
‫نصیحت سقراط‬
‫• پیش از آن که سقراط را محاکمه کنند‪ ،‬از وی پرسیدند ‪:‬‬
‫بزرگ ترین آرزویی که در دل داری چیست؟وی پاسخ داد‪:‬‬
‫در آتن‬
‫بزرگ ترین آرزوی من این است که به باالترین مکان ‌‬
‫چرا با‬
‫صعود کنم و با صدای بلند به مردم بگویم‪ :‬ای رفقا! ‌‬
‫این حرص و ولع بهترین و عزیزترین سال های عمر خود را به‬
‫جمع آوری ثروت می گذرانید‪ ،‬در حالی که آن گونه که باید و‬
‫شاید در تعلیم و تربیت اطفالتان که مجبور هستید ‌روزی‬
‫ثروت خود را برای آنان باقی گذارید همت نمی گمارید؟‬
‫قواعد محتوايی‬
‫• سعي شود از عبارات ساده و قابل فهم استفاده شود و از واژه‌هايي‬
‫كه مبهم هستند و تعابير مختلفي از آن مي‌شود استفاده نشود‬
‫ً‬
‫(مانند احتماال‪ ،‬ممكن است‪ ،‬شايد)‬
‫• از طرح سؤاالت دوپهلو‌ و چند جنبه‌اي پرهيز شود‪ .‬سؤال خوب‬
‫سؤالي است كه فقط يك چيز را اندازه‌گيري نمايد و يك پاسخ‬
‫ً‬
‫سنجي «مصرف سيگار و الكل در‬
‫داشته باشد‪ .‬مثال عبارت نگرش‬
‫ِ‬
‫سيگار و‬
‫‌‬
‫جوانان رو به افزايش است»‪ ،‬دو موضوع جداگانه يعني‬
‫الكل را مي‌سنجند‬
‫• ‪- double-barreled‬‬
‫• از پرسيدن سؤاالت منفي پرهيز شود‪ .‬منظور سؤاالتي كه‬
‫بيان ادبي سؤال از واژه‌هاي منفي استفاده شده باشد نه‬
‫ً‬
‫سؤالي كه بار ارزش ي منفي دارد‪ .‬مثال «ترك الكل از ‌ترك‬
‫هرويين آسان‌تر نيست»‪ .‬زيرا براي مغز پردازش اين سؤا ‌الت‬
‫دشوار است و عالوه بر آن احتمال خطاي تصادفي نيز‬
‫افزايش مي‌يابد‬
‫• ترتيب سؤاالت به گونهاي باشد كه سؤاالت كلي ً در ابتدا و‬
‫سؤاالت اختصاص ي‌تر بعد از آن آورده شود‪ .‬مثال در ابتدا‬
‫ديدگاه مخاطب نسبت به مواد مخدر و سپس نسبت به‬
‫ترياك‪ ،‬هروئين و‪ ...‬به صورت مجزا پرسيده شود و نه‬
‫بالعكس‪.‬‬
‫افيك انتهاي پرسشنامه آورده‬
‫ر‬
‫دموگ‬
‫سؤاالت‬
‫چنين‬
‫هم‬
‫•‬
‫ً‬
‫شوند‪ ،‬نه ابتداي آن ضمنا سؤاالت رفتارسنجي قبل از‬
‫سؤاالت نگرش سنجي آورده شوند‬
‫• سعي شود كه تعداد سؤاالت به حدي باشد كه سبب خستگي‬
‫سؤاالت متعددي را از منابع مختلف كنار‬
‫پاسخگو نشود‪ .‬برخي‬
‫ِ‬
‫يكديگر چسبانده و به عنوان پرسشنامه نهايي استفاده مي‌نمايند‪.‬‬
‫ً‬
‫اين امر اصطالحا ‪ Fishing expedition‬گفته مي‌شود يعني‬
‫سريع سر و ته قضيه را به هم مي‌آورند! بدون آنكه به اين امر‬
‫توجه داشته باشند كه آيا تك تك اين سؤاالت ما را به هدف‬
‫اوليه خود مي‌رسانند‪.‬‬
‫• يك راه براي پيشگيري از اين آفت آن است كه تك تك سؤا ‌الت را‬
‫جداگانه بخوانيم و از خود بپرسيم «اطالعات بدست آمده از اين‬
‫سؤال به چه درد من مي‌خورد؟»‬
‫• از سؤاالت مبهم كه هر شخص تفسير خاص خود را از آن‬
‫ً‬
‫دارد‪ ،‬بپرهيزيم‪ .‬مثال اگر بپرسيم «اهل كجاييد؟ شهر‪ ،‬روستا»‬
‫پاسخگو ممكن است برايش اينگونه تداعي شود كه «منظور‬
‫پرسشگر چیست؟» اين كه كجا به دنيا آمده‌ام يا كجا بزرگ‬
‫شده‌ام يا كجا در حال حاضر زندگي مي‌كنم‬
‫• در محيط‌هاي بسته سعي كنيد اگر پرسشنامه حاوي‬
‫سؤاالت حساس است‪ ،‬حتي املقدور سؤال باز در پرسشنامه‬
‫نهاده نشود‪ .‬به بيان ديگر پرسشگر ممكن است به اين فكر‬
‫بيفتد كه «از روي دست خطم ممكن است شناخته شوم»‪.‬‬
‫اين توصيه در محيط‌هايي همچون مدرسه‪ ،‬دانشگاه‪ ،‬زندان‬
‫صدق مي كنند‪.‬‬
‫• در صورتي كه احساس مي‌كنيد پاسخ‌هاي مشاركت كنندگان‬
‫مي‌تواند جالب‪ ،‬راهگشا و دور از انتظار باشد‪ ،‬مي‌توانيد از‬
‫سؤال باز استفاده كنيد‪ .‬با توجه به وقت گير بون تحليل‬
‫سؤاالت باز‪ ،‬توصيه مي‌شود در صورتي از سؤاالت باز‬
‫استفاده شود كه حجم نمونه كمتر از ‪ 50‬باشد‪ .‬به هر حال‬
‫مقدار سؤاالت باز بهتر است محدود و كم باشد‪.‬‬
‫• در مورد مدت زمان مصاحبه توصيه مي شود طول مدت‬
‫مصاحبه تلفني حداكثر ‪ 10‬دقيقه‪ ،‬مصاحبه رودر رو حداكثر‬
‫ً‬
‫يك ساعت (ارجحا نيم ساعت) و پرسشنامه خود ايفا‬
‫حداكثر ‪ 100‬سؤال داشته باشد‪.‬‬
‫• بهتر است سؤاالت باز انتهاي پرسشنامه آورده شود‪ ،‬چون هم‬
‫وقت گير هستند و هم جريان پاسخ به سؤاالت را كمي تغيير‬
‫مي‌دهند‪.‬‬
‫• سعي شود‪ ،‬سؤال از پاسخ متمايز شود‪ .‬يا سؤال يا پاسخ‪،‬‬
‫پررنگ شود‪.‬‬
‫• هنگام مرتب نمودن گزينه‌ها‪ ،‬آنها را از كم به زياد قرار دهید‬
‫ً‬
‫(از راست به چپ)‪ .‬مثال (‪ )1‬هرگز‪ )2( ،‬به ندرت (‪)3‬‬
‫گاهگاهي‪ ،‬و (‪ )4‬اكثر اوقات‪.‬‬
‫• عالوه بر اين بهتر است در تنظيم گزينه‌هاي يك سؤال كه‬
‫ً‬
‫مثال در‬
‫مقبوليت اجتماعي دارد‪ ،‬از حداقل آن شروع نماييم‪‌ .‬‬
‫پاسخ به اين سؤال كه «آيا از كمربند ايمني هنگام رانندگي‬
‫استفاده مي‌نماييد» چنين نوشته شود‪ :‬هرگز‪ ،‬بسيار كم‪ ،‬و ‪...‬‬
‫نظر‬
‫در مورد تعداد گزينه‌ها در مقياس ليكرت‪ ،‬الزم است در ‌‬
‫بگيريم آيا در نظر گرفتن گزينه حد وسط كارگشاست يا خير‪.‬‬
‫ً‬
‫مثال در صورتي كه هدف رضايت سنجي باشد‪ ،‬پژوهشگر‬
‫تمايل دارد بين افراد راض ي و ناراض ي تمايز قائل شود‪ ،‬لذا در‬
‫نظر گرفتن گزينه حد وسط الزام چنداني ندارد‪ .‬ولي هنگامي‬
‫كه مي‌خواهيم نگرش افراد را سنجيم‪ ،‬استفاده از گزينه‬
‫حدوسط اهميت بيشتري مي‌يابد‪.‬‬
‫اگرچه مراجع متفاوت در اين خصوص نظرات متفاوتي ارايه‬
‫مي‌هند‪ ،‬ولي غالب پرسشنامه‌ها از مقياس‌هاي پنج درجه‌اي‬
‫يا هفت درجه‌اي استفاده مي‌نمايند‬
‫• در صورت استفاده از گزينه حدوسط بهتر است به جاي‬
‫عبارت «نظري ندارم» ‪ ،‬نوشته شود «نه موافق نه مخالف»‬
‫چون به هر شكل افراد بدون نظر نمي‌توانند باشند‪ ،‬و ابراز‬
‫اينكه «نه موافقم و نه مخالف» خود نوعي اظهارنظر است‪.‬‬
‫الزم به ذكر است نامگذاري مقايسه پنج درجه اي از هفت‬
‫درجه‌اي ساده‌تر است‪ .‬به نظر مي‌رسد فرد بودن تعداد‬
‫گزينه‌ها بر زوج بودن آن اولويت دارد‬
‫• توجه داشته باشيم كه در برخي مواقع ممكن است آزمودني‬
‫به سؤاالتي پاسخ دهد كه حتي با نزديك ترين دوست خود‬
‫هم در ميان نگذاشته باشد‪ .‬با اين ديدگاه كه پرسشگر فرد‬
‫غريبهاي است كه وي را نميشناسد و اطالعات نيز قابل‬
‫ردگيري نمي‌‌باشند‪.‬‬
‫• مشاركت داوطلبانه و آگاهانه در پژوهش صحت پاسخ به‬
‫اينگونه سؤاالت حساس را افزايش ميدهد‪.‬‬
‫• هنگام طراحي يك پرسشنامه جديد مي‌توان از سؤاالت‬
‫ً‬
‫ً‬
‫پرسشنامه‌هاي نسبتا مشابه استفاده نمود‪ .‬مثال براي طراحي‬
‫سؤاالت نگرش سنجي نسبت به قليان مي‌توان از سؤاالتي‬
‫نگرش سنجي نسبت به سيگار كه پيشينه پژوهش ي غني‌تري‬
‫ً‬
‫دارد استفاده نمود‪ .‬معموال استفاده از پرسش ها به صورت‬
‫مگر‬
‫موردي نياز به كسب اجازه از مبدع پرسشنامه ندارد ‌‬
‫هر حال‬
‫آنكه پرسشنامه مورد نظر تحت كپي رايت باشد‪ .‬به ‌‬
‫ذكر مراجع مورد استفاده الزم است‪-‬‬
‫ً‬
‫افراد در‬
‫• مراقب سوگيری مقبولیت اجتماعی باشید‪ .‬معموال ‌‬
‫پاسخ به سؤاالت تمايل دارند كه انساني مثبت و خوب جلوه‬
‫نمايند‪ .‬يكي از داليلي كه سبب مي‌شود در سؤاالت حيطه‌هاي‬
‫متفاوت (دموگرافيك‪ ،‬رفتارسنجي‪ ،‬نگرش سنجي و آگاهي‬
‫سنجي) افراد گزينه‌هاي مثبت و خوب را عالمت بزنند آن‬
‫است كه تمايل دارند خود را به گونه‌اي نشان دهند كه‬
‫جامعه (اخالقي) توقع دارد كه آنان باشند‬
‫• جهت فايق آمدن بر سوگيري از مقبوليت اجتماعي پيشنهاد‬
‫مي‌شود‪ ،‬عالوه بر استفاده از تكنيكهاي طرح سؤاالت‬
‫حساس‪ ،‬از سؤاالت با بار مثبت و منفي هر دو استفاده شود‬
‫و عالوه بر آن در هنگام توزيع پرسشنامه‌ها مصاحبه‪،‬‬
‫توضيح و توجيه الزم در جهت جلب مشاركت صادقانه‬
‫پاسخگويان و غيرقابل شناسايي بودن پرسشنامه‌ها داده‬
‫شود‬
Cross-cultural adaptation
• A previously validated instrument does not
necessarily mean it is valid in another time,
culture or context.
• Instruments that were validated some time
ago may not be valid in the present time due
to changes in society that occur continuously
Stage I: Initial Translation
forward translation
• Bilingual translators whose mother tongue is the
tar-get language.
• The two translators should have different profiles,
or backgrounds.
• Translator 1.One of the translators should be
aware of the concepts being examined (clinical
perspective)
• Translator 2. The other translator should neither
be aware nor informed of the concepts being
quantified and preferably should have no medical
or clinical back-ground. (naïve translator)
Stage II: Synthesis of The Translations
• It is important that consensus rather than one
person’s compromising her or his feelings
resolve issues (third independent person).
Stage III: Back Translation
• Two back-translations are considered a
minimum.
• The back-translations (BT1 and BT2) are
produced by two persons with the source
language (English) as their mother tongue.
The two translators should neither be aware
nor be informed of the concepts explored, and
should preferably be without medical
background.
Stage IV: Expert Committee
• The minimum com-position comprises
methodologists, health professionals,
language professionals, and the translators
(forward and back translators) involved in the
process up to this point.
• The original developers of the questionnaire
are in close contact with the expert committee
during this part of the process.
Equivalence between the source and
target version in four areas
• Semantic equivalence: Do the words mean the
same thing? Are their multiple meanings to a
given item? Are there grammatical difficulties
in the translation?
• Idiomatic Equivalence. Colloquialisms, or
idioms, are difficult to translate.
Equivalence
• Experiential Equivalence. Items are seeking to
capture and experience of daily life; however,
often in a different country or culture, a given
task may simply not be expe-rienced (even if it
is translatable).
• Conceptual Equivalence. Often words hold
different conceptual meaning between
cultures (for instance the meaning of partner.
Stage V: Test of the Prefinal Version
• Ideally, between 30 and 40 persons should be
tested.
• Each subject completes the questionnaire, and
is interviewed to probe about what he or she
thought was meant by each questionnaire
item and the chosen response.
• Equivalence in an applied situation
Pretesting
• Respondents are probed for their
understanding, acceptability and emotional
impact of the items in order to detect
confusing or misleading items.
• Interviews are conducted until a preestablished percentage of under-standing is
achieved for all items (e.g.≥90%).
Stage VI:
• Submission of Documentation to the
Developers or Coordinating Committee for
Appraisal of the Adaptation Process
‫نکته در ترجمه‬
‫ مترجمين همواره يك ترجمه مفهومي‌ را در ذهن داشته باشند‪ .‬به‬‫عبارتي در ترجمه لغات و عبارات به جاي ترجمه تحت اللفظي و‬
‫واژه به واژه‪ ،‬معادل مفهومي آن را در نظر داشته باشند‪.‬‬
‫ سعي شود عبارات ترجمه شده شفاف ‪ ،‬ساده و مختصر باشند‪ .‬از‬‫جمالت طوالني مشتمل بر چند بند پرهيز شود‪.‬‬
‫ مخاطبين متن بايد افراد معمولي باشند‪ ،‬نه افراد حرفه‌اي شاغل در‬‫بخش سالمت‪.‬‬
‫‪ -‬از واژه‌هاي فني‌ استفاده نشود‬
‫پيش آزمون پرسشنامه‬
‫حداقل تعداد الزم ‪ 10‬نفر مي‌باشد‬
‫•‬
‫ِ‬
‫الف) برداشت آنها از هريك از سؤاالت چيست؟‬
‫ب) آيا مي‌توانند سؤال را به زبان خود بازگو نمايند؟‬
‫ج) در صورتي كه كلمه يا عبارت خاص ي را نمي‌فهمند‪ ،‬يا به نظرشان آن‬
‫عبارت یا واژه توهين آميز و حساسیت زاست است‪ ،‬مطرح نمايند؟‬
‫د) اگر در ترجمه جايگزينهاي متفاوتي براي كلمات يا جمالت وجود‬
‫داشته باشد‪ ،‬از مخاطبين پرسيده شود كه كدام را ترجيح مي‌دهند‪.‬‬
‫اين سؤاالت براي تك تك سؤاالت پرسشنامه بايد تكرار شود‬
‫اندازه گيري و مفاهیم آن‬
Alternative definition
Measurement is the process
of linking abstract concepts
to empirical indicants.
Zellar & Carmines
Concepts
•
•
•
•
•
Weight
Distance
Depression
Test anxiety
Marital
satisfaction
Indicants
•
•
•
•
•
Pounds/grams/tons
meters, kilometers
?????
?????
?????
‫متغير‪ :‬خصوصيت قابل اندازه گيري كه مقادير متفاوتي به خود‬
‫مي‌گيرد‪ .‬متغير صفتي است كه به طور مستقيم قابل مشاهده‬
‫باشد يا اينكه بتوان با يك وسيله اندازه گيري ديگر آن را سنجيد‪،‬‬
‫مانند سن و جنس‪.‬‬
‫مفهوم ‪ :‬صفتي است كه به طور مستقيم قابل اندازه گيري نيست‪،‬‬
‫بلكه به طور غيرمستقيم با يك متغير ديگر سنجيده مي‌شود‪ .‬مانند‬
‫طبقه اقتصادي اجتماعي كه با شاخص سطح تحصيالت يا شغل‬
‫به طور غيرمستقيم سنجيده مي‌شود‪.‬‬
‫• سازه ‪ :‬صفتي است كه به طور مستقيم قابل اندازه گيري‬
‫نيست‪ ،‬بلكه به طور غيرمستقيم با چند مفهوم يا متغير‬
‫ديگر سنجيده مي‌شود‪ .‬مانند افسردگي كه مي‌توان آن را با‬
‫پرسشنامه استاندارد بك سنجيد‪ .‬بنابراين پرسشنامه‌ها‪،‬‬
‫ً‬
‫ماهيتا به دنبال اندازهگيري‌ سازه مي‌باشند‪.‬‬
‫• چك ليست‪ :‬فهرستي از سؤاالت عيني و قابل مشاهده كه هر‬
‫سؤال متغيير خاص خود را مي‌سنجد (به طور معمول از نظر‬
‫وجود يا عدم وجود)‪ .‬به عبارتي چك ليست برخالف سازه كه‬
‫«صفتي است كه به طور مستقيم قابل اندازه گيري نيست»‪،‬‬
‫مجموعه‌اي از عبارات و سؤاالت است كه تك تك آنها به‬
‫طور مستقيم قابل اندازه گيري اند (از طریق مشاهده)‪.‬‬
‫مقياس ‪ :‬مجموعه‌اي از سؤاالت است كه نمره آنها با يكديگر قابل جمع‬
‫است (با يا بدون وزن دادن) و در نهايت منجر به يك نمره مي‌شود‪.‬‬
‫ً‬
‫داده سخت‪ :‬داده‌هاي عيني كه به طور مستقيم (غالبا از طریق مشاهده) و‬
‫فشار خو ‌ن‪.‬‬
‫ياند مانند قد‪‌ ،‬‬
‫به واسطه ابزار آزمايشگاهي قابل اندازه گير ‌‬
‫ً‬
‫داده نرم‪ :‬دادههاي ذهني كه معموال در قالب واژه‌ها و نه اعداد و ارقام بيان‬
‫مي‌گردند‪ .‬هنر پرسشنامه آن است كه داده‌هاي نرم را به داده‌هاي سخت‬
‫(عدد و رقم) تبديل مي‌نمايد‪.‬‬
‫‪- scale‬‬
‫‪- score‬‬
‫‪- objective‬‬
‫‪- subjective‬‬
‫چندبعدي بودن ‪ :‬برخي متغيرها يا سازه‌ها تك بعدي‌اند‪ ،‬يعني از اجزاء‬
‫ريزتر تشكيل نشده‌اند‪ .‬مثل تشنگي‪ ،‬قد و ضريب هوش ي‪‌ .‬ولي برخي‬
‫سازه‌ها در ظاهر تك بعدي ولي در عمل از ابعاد متفاوت تشكيل‬
‫ً‬
‫شده‌اند‪ .‬مثال رضايت از بیمارستان اگرچه در ظاهر يك چيز ‌را‬
‫مي‌سنجد ولي در درون از ابعاد متفاوتي از جمله تسهيالت و‬
‫امكانات‪ ،‬هزينه‪ ،‬و نحوه برخورد و مهارت پرسنلي مي‌تواند تشكيل‬
‫شود‪.‬‬
‫ي‪ :‬تخصيص اعداد و ارقام به اشياء و رخدادها بر اساس‬
‫اندازه گير ‌‬
‫قواعدي مشخص‬
‫ي‬
‫عبارت ليكرتي‪ :‬منظور عبارت يا سؤالي است كه با الگو ‌‬
‫ليكرتي گزينه‌هاي آن تنظيم شده‌اند‪ .‬به طور مثال« ميزان‬
‫موافقت خود را با هريك از عبارت زير بيان داريد»‪ .‬که به‬
‫دنبال آن در مقابل هر عبارت چنين نوشته مي‌شود‪:‬‬
‫بسيار مخالفم‪ /‬مخالفم‪ /‬نه موافق نه مخالف‪ /‬موافقم ‪ /‬بسيار‬
‫موافقم‬
‫كه اين حالت ليكرت پنج درجه‌اي است و همانطور كه مالحظه‬
‫مي‌شود شامل يك طيف دوقطبي است‬
‫مقياس ليكرت‪ :‬منظور مجموعه‌اي از سؤاالت با مقياس ليكرت است‪.‬‬
‫يكي از سوگيري‌هايي كه در مقياس ليكرت رخ مي‌هد‪ .‬سوگيري‬
‫فرمانبرداري يا تسليم است‪ .‬به اين شكل كه برخي پاسخگويان‬
‫تمايل دارند كه با تمامي عبارت موافقت نمايند‪ .‬براي همين توصيه‬
‫مي‌شود‪ ،‬سؤاالت نگرش سنجي از هر دو معناي مثبت و منفي‬
‫برخوردار باشند‪.‬‬
‫‪• - Likert scale‬‬
‫‪• - acquiescence bias‬‬
‫مقياس ليكرت رتبه‌اي است يا فاصله‌اي‬
‫• از آنجايي كه مقياس ليكرت حاصل جمع نمره تعدادي‬
‫عبارت ليكرتي است‪ ،‬لذا حاصل جمع سؤاالت‪ ،‬يا ميانگين‬
‫نمره پرسشنامه‌ها به عنوان متغير فاصله‌اي مي‌تواند در نظر‬
‫گرفته شود‪ .‬در مورد مقياس مشابه چشمي‪ ،‬با توجه به‬
‫آنكه فواصل بين ارقام يكسان است‪ ،‬نمره حاصله به عنوان‬
‫متغير فاصله‌اي در نظر گرفته مي‌شود‬
• The debate on Likert scales and how they
should be analysed, therefore, clearly and
strongly goes to the intervalist position, if one
is analysing more than a single Likert item.
• Using means and standard deviations, and it is
perfectly appropriate to use parametric
techniques like Analysis of Variance to analyse
Likert scales.
‫ي) ‪ :‬بر اساس اين تئوري‬
‫• تئوري نمره واقعي (خطاي اندازه گير ‌‬
‫كالسيك نمره‌اي كه از يك پرسشنامه بدست مي‌آيد (نمره مشاهده‬
‫شده) برابر است با مجموع نمره واقعي شخص و نمره حاصل ‌از‬
‫خطا‪ .‬كه اين خطا به دو دسته خطاي تصادفي و خطاي منظم‬
‫تقسيم مي‌شود‪.‬‬
‫• ‪X = T + er + es‬‬
‫‪• - true score theory‬‬
‫)‪- observed score (X‬‬
‫)‪- true score (T‬‬
‫)‪- random error (er‬‬
‫)‪- systematic error (es‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫• خطاي تصادفي‪ :‬اين خطا ناش ي از هر عاملي است كه به طور‬
‫تصادفي اندازه گيري را تحت تأثير قرار مي‌دهد‪ ،‬كه از آن به خطاي‬
‫نمونه گيري نيز ياد مي‌شود و برخي به آن خطاي خصلتي گ ‌ويند‪.‬‬
‫ً‬
‫مثال‌خلق و خوي افراد مي‌تواند پاسخ افراد را به سؤاالت‬
‫قرار دهد‪.‬‬
‫پرسشنامه در لحظه تكميل پرسشنامه تحت تأثير خود ‌‬
‫آنچه كه مهم است خطاي تصادفي ميانگين نمره گروه را جابجا‬
‫انحراف معيار‬
‫نمي‌كند ولي مي‌تواند منجر به به افزايش گوناگوني و ‌‬
‫نمره گردد‬
‫• ‪- sampling error.‬‬
‫• ‪- trait error‬‬
‫• خطاي منظم‪ :‬اين خطا ناش ي از هر عاملي است كه به صورت‬
‫منظم اندازه گيري را تحت تأثير قرار مي‌دهد‪ ،‬كه از آن به عن ‌وان‬
‫ً‬
‫سوگيري نيز ياد مي‌شود‪ .‬مثال ِاشكال در طراحي سؤاالت‪ ،‬یا سوگيري‬
‫مقبوليت اجتماعي كه شخص عالقه دارد خود را خوب و مثبت‬
‫نشان دهد‪ .‬خطاي منظم‪ ،‬ميانگين نمره گروه هدف را جابجا‬
‫ً‬
‫مي‌نمايد‪ .‬خطاي منظم معموال يك سويه است (برخالف خطاي‬
‫تصادفي كه هم منجر به نمره باال و هم نمره پايين مي‌شود ‌و از اين‬
‫رو يكديگر را خنثي نموده و در نهايت ميانگين نمرات گروه یا نمونه‬
‫تفاوتي نمي‌كند)‪.‬‬
‫بنابراين براي تمايز اين دو خطا اگر فكر مي‌كنيم عامل خطا سبب‬
‫مي‌شود نمرات اشخاص به يك سمت (باال يا پايين تر از واقع)‬
‫كشيده شوند‪ ،‬خطاي مربوطه از نوع منظم يا سيستميك است‪.‬‬
‫سایکومتری‌‪ :‬ارزیابی قضاوت های ذهنی پيرامون پدیده هایی که به‬
‫صورت عینی قابل اندازه گيری نیستند‪ .‬پايايي و روایی دو ابزار‬
‫اصلی سایکومتری‬
‫می باشند‪.‬‬
‫‪• - psychometry‬‬
‫‪• - reliability‬‬
‫‪• - validity‬‬
True Score Theory
Observed
Score
X
=
True
Ability
T
+
Random
Error
+ e
The Error Component
X
T
Two Components:
+ e
The Error Component
X
T
Two Components:
er
+ e
The Error Component
X
T
+ e
Two Components:
er
• Random Error
The Error Component
X
T
+ e
Two Components:
er
es
• Random Error
The Error Component
X
T
+ e
Two Components:
er
es
• Random Error
• Systematic Error
What is Random (trait) Error ?
• any factors that randomly affect measurement of the
variable across the sample
• for instance, each person’s mood can inflate or
deflate their performance on any occasion
• random error adds variability to the data but does
not affect average perofrmance for the group
frequency
Random Error
the distribution of X with no
random error
X
Random Error
frequency
the distribution of X with
random error
the distribution of X with no
random error
X
Random Error
frequency
the distribution of X with
random error
Notice that random error doesn’t
affect the average, only the
variability around the average
the distribution of X with no
random error
X
What is Systematic (method) Error?
• any factors that systematically affect
measurement of the variable across the sample
• systematic error = bias
• for instance, asking questions that start “Do you
agree with ...” will tend to yield a systematic lower
agreement rate
• systematic error does affect average performance
for the group
frequency
Systematic Error
the distribution of X with no
systematic error
X
Systematic Error
frequency
the distribution of X with
systematic error
the distribution of X with no
systematic error
X
Systematic Error
frequency
the distribution of X with
systematic error
Notice that systematic error does
affect the average -- we call
this a bias
the distribution of X with no
systematic error
X
Reducing Measurement Error
• pilot test your instruments -- get feedback
from respondents
• train your interviewers or observers
• make observation/measurement as
unobtrusive as possible
• double-check your data
• triangulate across several measures that might
have different biases
• Traditional reliability theory considers only
errors that occur randomly; systematic errors,
or biases, were generally considered under
validity testing.
• Random errors may arise due to inattention,
tiredness, or mechanical inaccuracy that may
equally lead to an overestimation or underestimation of the true quantity.
• In classical test theory, reliability refers to the
extent to which a score is free of random
error.
Reliability and Validity
Reliable but not Valid
Reliability and Validity
Neither Valid not Reliable
Reliability and Validity
Neither Reliable nor Valid
Reliability and Validity
Reliable and Valid
‫پایایی‬
‫پايايي كه از آن با عناوين تكرارپذيري و دقت هم ياد مي‌شود‪ ،‬در ‌واقع‬
‫پاسخ به اين سؤال است كه «در صورت تكرار اندازه‌گيري تا چه حد‬
‫نتايج قبلي بدست مي‌آید»‪- repeatablility‬‬
‫‪- precision‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫هرچه پراكندگي (گوناگوني) نقاط اصابت تير به سيبل بيشتر باشد‬
‫مي‌گوييم پايايي كمتر است‪ .‬منشاء اين گوناگوني‌ها سه چيز است‬
‫ً‬
‫ي‬
‫الف) تغيير در خصوصيت مورد اندازه گيري‪ ،‬مثال در اندازه گير ‌ عاليم‬
‫ترك در يك فرد وابسته به ترياك بسته به زمان سم‌زدايي ارقام بدست‬
‫آمده متفاوت خواهد بود‪.‬‬
‫ً‬
‫ب) نوسان و تغيير در ابزار اندازه گيري كه معموال در مورد پرسشنامه‬
‫در‬
‫یکی از علل آن اشکال در ترجمه پرسشنامه است‪ .‬یا به طور مثال ‌‬
‫مورد دستگاه اندازه گيري فشار خون ‌اگر ستون جيوه دستگاه حباب هوا‬
‫يها دچار خطا خواهد شد‬
‫بگيرد‪ ،‬اندازهگير ‌‬
‫ج) تغيير در شخص اندازه گير (مصاحبهگر‪ ،‬مشاهدهگر)‪ .‬كه ممكن است‬
‫مصاحبه گر در مصاحبه‌هاي بعدي به علت افزايش تجربه و يا بالعكس‬
‫كم حوصلگي كيفيت مصاحبه‌اش تفاوت نمايد‪.‬‬
‫• در واقع ضريب پايايي نسبت واريانس نمره واقعي به واريانس نمره‬
‫مشاهده شده حاصل از پرسشنامه است‪ ،‬لذا اگر ضريب پايایي يك‬
‫پرسشنامه ‪ 85‬صدم بدست آمد‪ ،‬مفهوم اين عدد آن است كه ‪15‬‬
‫درصد واريانس مشاهده شده ناش ي از خطاي اندازه گيري است‬
‫• ‪- reliability coefficient‬‬
–The smaller the error component
in relation to the true score
component, the higher the
reliability of an item, which is the
ratio of the true score to the total
(true + error) score.
‫• با توجه به توضيحات فوق تعريف ديگري از پايايي مي‌توان ارائه‬
‫داد‪« :‬پايايي به ما نشان ميد‌هد كه تا چه حد نتايج بدست آمده‬
‫عاري از خطاي تصادفي است»‪ .‬به بيان ديگر پايايي خطاهايي ‌را‬
‫نشان ميد‌هد كه از نوع تصادفي است و روایی متناظر به خطاي‬
‫سيستماتيك يا منظم است‪.‬‬
:‫چهار نوع پايايي مي‌توان متصور شد‬
)‫ پايايي دروني (يا سازگاري دروني‬-1
‌‫ بازآزمون‬- ‫ پايايي آزمون‬-2
‫ پايايي بين اندازه گيري ها‬-3
‫ي‬
‌ ‫ پايايي آزمون مواز‬-4
•
•
•
•
•
- internal reliability
- internal consistency
- test-retest reliability
- inter-observer (inter-rater) reliability
- parallel test reliability
•
•
•
•
•
‫پايايي دورني‬
‫• يكي از راههاي پي بردن به پايايي آن است كه پرسشنامه را به دو نيم‬
‫كنيم و همبستگي بين نمره دو نيمه را محاسبه نماييم‪ ،‬كه از آن به روش‬
‫ً‬
‫دو نيمه كردن ياد مي‌كنند‪ .‬اين روش معموال‌منجر به كم تخميني ضريب‬
‫پايايي پرسشنامه مي‌شود‪ ،‬و لذا روش پركاربردتر استفاده از آلفاي‬
‫كرونباخ است‪ .‬فلسفه محاسباتي اين ضريب آن است كه بيان مي‌دارد‬
‫وقتي كه چند سؤال قرار است يك چيز را اندازه گيري نمايند‪ ،‬الزم است‬
‫اين سؤاالت با يكديگر همبستگي داشته باشند‬
‫• ‪- split-halves method‬‬
‫• ‪- Cronbach's alpha‬‬
‫ً‬
‫• ‪ .‬شرط استفاده از اين شاخص آن است كه اوال گزينه‌هاي‬
‫ً‬
‫سؤاالت از يك شكل تبعيت نمايند (مثال همگي ‪ 5‬درجه‌اي ليكرت‬
‫باشند) و دوم آنكه تعداد سؤاالت حداقل دو تا باشد‪ .‬اگرچه‬
‫آلفاي كرونباخ براي داده‌هاي كمي در نظر گرفته شده است ولي‬
‫محاسبه آن براي داده‌هاي رتبه‌اي (ليكرتي) در تمامي متون‬
‫متداول است‪ .‬آلفاي كرونباخ عددي است بين صفر و يك‪ ،‬كه‬
‫صفر به مفهوم آن است كه عبارات يا سؤاالت يك پرسشنامه‬
‫هيچ ربطي به يكديگر ندارند و يك به مفهوم همبستگي كامل‬
‫است‪.‬‬
‫• اگرچه حداقل عدد قابل قبول آلفاي كرونباخ در مراجع متفاوت تا‬
‫حدي با يكديگر فرق مي‌كند‪ ،‬ولي چنين مي‌توان گفت كه ضريب‬
‫‪ 7/0‬تا ‪ 8/0‬حداقل قابل قبول براي يك پرسشنامه پژوهشگر‬
‫ساخته است ‪ ،‬ولي براي پرسشنامه‌هايي كه جهت تشخيص باليني‬
‫بكار مي‌روند‪ ،‬حداقل قابل قبول عدد ‪ 9/0‬مي‌باشد ‪.‬‬
‫• در نظر داشته باشيم كه آلفاي كرونباخ باال نشانه تك بعدي بودن‬
‫يك پرسشنامه نيست‪ ،‬چرا كه بسياري مواقع پيش مي‌آيد كه‬
‫پرسشنامه شامل دو يا چند بعد است ولي آلفاي كرونباخ تمامي‬
‫سؤاالت باز هم از حداقل ‪ 8/0‬بيشتر مي‌شود‪.‬‬
‫از چه راه‌هايي مي‌توان آلفاي كرونباخ يك پرسشنامه را‬
‫افزايش داد؟‬
‫ افزودن تعداد سؤاالت (عبارات) پرسشنامه‪ ،‬كه البته تا حد ‪10‬‬‫پرسش آلفا به طور واضحي افزايش مي‌نمايد ولي پس از آن‪ ،‬ميزان‬
‫افزايش بطئي است ‪ .‬با اين حساب شايد بتوان گفت با افزايش‬
‫تعداد سؤاالت يك پرسشنامه پايايي آن نيز افزايش مي‌يابد‪ .‬لذا چنين‬
‫می توان گفت که مقايسه آلفاي كرونباخ دو پرسشنامه با تعداد‬
‫سؤال متفاوت امر معقولي نيست‪.‬‬
‫ متجانس‌تر و همگون‌تر نمودن سؤاالت سبب افزايش آلفاي كرونباخ‬‫مي‌شود‪.‬‬
‫ناهمگون بودن افراد مورد بررس ي و آزمودني‌ها سبب افزايش آلفاي‬
‫كرونباخ مي‌‌شود‪ ،‬چون ضريب پايايي به واريانس اندازه گيري‌‬
‫وابسته است‪.‬‬
‫ اگر اكثر آزمودني‌ها تمام عبارات پرسشنامه را پاسخ ندهند‪ ،‬به‬‫صورت كاذب آلفاي كرونباخ افزايش مي‌يابد ‪ .‬توصيه ميشود اگر‬
‫بيش از ‪ 15‬درصد آزمودني‌ها پاسخ كامل به كل پرسشنامه نداده‬
‫باشند‪،‬آلفا محاسبه نشود‪.‬‬
‫ آلفاي كرونباخ به شكل توزيع نمرات نيز ارتباط دارد‪ ،‬به طور‌ي كه‬‫هرچه چولگي نمره كل پرسشنامه بيشتر باشد (به عبارتي ميانگين‬
‫نمرات به بجاي آنكه به مركز مقياس ليكرت نزديك باشد به طرفين‬
‫تمايل يابد)‪ ،‬آلفاي كرونباخ كمتر مي‌شود‪.‬‬
‫ن‬
‫پايايي آزمون ‪ -‬باز آزمو ‌‬
‫• اين روش ثبات اندازهگيري در طول زمان را مي‌سنجد‪ .‬به اين ترتيب‬
‫ً‬
‫كه یک پرسشنامه به همان افراد‪ ،‬و به فاصله زماني كوتاهي مجددا‬
‫داده مي‌شود‪ .‬مدت زمان حد فاصل اين دو اندازه گيري نه بايد به‬
‫حدي كوتاه باشد كه به علت يادآوري پاسخ‌ها‪ ،‬نتايج مخدوش‬
‫گردند و نه به حدي طوالني باشد كه به علت عوامل متفاوت‪،‬‬
‫تغييرات ناخواسته صورت بپذيرد‪.‬‬
‫• ‪- stability over time‬‬
‫ً‬
‫• معموال منابع‪ ،‬عددي براي فاصله زماني بين دو اندازه‌گيري ذكر‬
‫دار‬
‫نمي‌نمايند‪ ،‬چون صفت مورد بررس ي نيز خود از اهميت برخور ‌‬
‫است‪ ،‬به طوري كه اگر پرسشنامه مربوط به سنجش شخصيت‬
‫فرد باشد در مقايسه با پرسشنامه‌اي كه به اندازه گيري س ‌المت‬
‫عمومي وي مي پردازد از نوسانات كمتري در طول زمان برخوردار‬
‫خواهد بود‪ .‬در مجموع فاصله زماني ‪ 2‬هفته در پژوهش‌هاي‬
‫پرسشنامهاي متداول است‪ .‬الزم به ذكر است برخي صاحبنظران به‬
‫علت تأثيرپذيري اين روش از عوامل مختلف‪ ،‬استفاده از آزمون –‬
‫بازآمون در سنجش پايايي را معتبر ندانسته و به هيچ وجه توصيه‬
‫نمي‌نمايند‬
‫پايايي بين اندازه گيرها‬
‫• اين نوع پايايي‪ ،‬توافق بين اندازه گيري‌ها يا هموژنيني بين آنان را‬
‫مي‌سنجد‪ .‬در واقع ‪ 2‬نفر يا بيشتر‪ ،‬يك اندازه گيري يا مصاحبه ‌را بر‬
‫روي يك گروه انجام مي‌دهند و از طريق اين روش همبستگی یا‬
‫توافق بين آنان محاسبه مي‌شود‬
‫پايايي آزمون موازي‌‬
‫• در اين روش دو پرسشنامه مشابه به يك گروه داده مي‌شود‬
‫و براي اثبات اين تشابه بايد همبستگي بين نمرات حاصل از‬
‫ً‬
‫اين دو پرسشنامه باال باشد‪ .‬اين روش معموال در‬
‫پژوهش‌هاي آموزش ي مورد استفاده بيشتري دارد‪- .‬‬
‫‪educational research‬‬
‫• توصيه صاحبنظران آن است كه براي محاسبه پايايي پرسشنامه‬
‫ً‬
‫حتما از دو روش استفاده شود‪.‬‬
‫• در مجموع اگرچه تقسيم بندي فوق براي انواع پايايي ارائه گرديد‪،‬‬
‫ولي محاسبه پايايي توسط نرم افزار به شيوه‌هاي متفاوت قابل‬
‫انجام است‪ .‬دقت نماييم توصيه به محاسبه پايايي از حداقل دو‬
‫روش را با انواع پايايي اشتباه نكنيم‪ ،‬چرا که دو روش معموال دو‬
‫ً‬
‫روش متفاوت نرم افزاری برای محاسبه پایایی می باشند‪ ،‬و نه الزاما‬
‫دو نوع پایایی از انواع پایایی که توضیح داده شدند‬
validity
‫روایی‬
‫تعریف‬
• The extent to which a test measures that
which it is intended to measure.
• This conception of validity, which reflects the
idea of agreement with a criterion, is
commonly used in epidemiology and underlies
the notions of sensitivity and specificity.
• It is a limited conception
‫تعریف‬
• Hence, a more general definition holds that
validity describes the range of interpretations
that can be appropriately placed on a
measurement score: What do the results
mean? What can we conclude about a person
who produced a particular score on the test?
‫معاین روایی‬
‫• ‪ Rava‬جایز‪ ،‬زساوار‬
‫• ‪ Reva‬ریسامن پشت س تور‬
‫• ‪ Rova‬زیبا رو‬
Types of validity
(Nunnally)
• Content (intrinsic, relevance, representative)
validity
• Construct (trait, factorial) validity
• Predictive (empirical, statistical, criterion
related) validity
Types of validity
(Survey methods in community medicine, Abramson)
•
•
•
•
Based on judgment:
Face validity
Content validity
Consensual validity
Types of validity
(Survey methods in community medicine, Abramson)
• Based on checks against data:
‫• س نگ تراوزوی هر یک داخل پرانزت نوش ته شده است‬
• Criterion (better measurement)
• Convergent & Discriminant (different
measure)
• Construct (related variable)
• Predictive (an event)
• Responsiveness (change)
Sensibility
• Feinstein: Does it make sense?
‫• آای به دملون می چس به؟‬
• Abramson: Face (logical) validity is a sine
qua non
Content validity
Content validity
Content validity
‫تعریف روایی حمتوا‬
• The extent to which an instrument
adequately samples the research domain of
interest when attempting to measure
phenomena.
• Content validity concerns the degree to which
a scale has an appropriate sample of items to
represent the construct of interest
‫روش اندازه گریی‬
• A common procedure is to ask patients and
experts in the field to critically review the
content of the scale.
• Alternatively, more formal focus groups and
in-depth interviews may be arranged to
explore whether the questionnaire is covering
all aspects of the topic relevant to patients.
‫روش اندازه گریی‬
• There is “no agreed upon criterion for
determining the extent to which a measure
has attained content validity” (Carmines and
Zeller (1979), p. 22).
• An editorial in Research in Nursing & Health
indicated that authors submitting an
instrument development manuscript to that
journal should include a content validity
assessment (Froman & Schmitt, 2003).
Sample size
CVI
• A CVI value can be computed for each item on a
scale (which h we refer to as I-CVI) as well as for
the overall scale (which we call an S-CVI). To
calculate e an item -level CVI (I-C VI), experts are
asked to rate the relevance of each item, usually
on a 4-point scale.
• There are several variations of labeling the 4
ordinal points, but the scale that seems to be
used most t often is 1 = not relevant , 2 =
somewhat relevant ,3= quite relevant ,4=highly
relevant
‫• لطفا مشخص فرمایید هر یک از عبارات زیر ات چه حد اب موضوع مورد اندازه گریی‬
‫(نگرش نسبت به اخذ زیرمزیی توسط پزشاکن) مرتبط است؟‬
• Then, for each item, the I-CVI (item -level CVI)
is computed as the number of experts giving a
rating of either 3 or 4, divided by the number
of experts—that is, the proportion in
agreement about relevance.
• Items with an I-CVI of .78 or
higher for three or more experts
could be considered evidence of
good content validity
Criterion Validity
• Criterion validity considers whether scores on
the instrument agree with a definitive, “gold
standard” measurement of the same theme.
• This option for validating a measure typically
occurs when a new instrument is being
developed as a simpler, more convenient
alternative to an accepted measurement: can
a self-report of anxiety replicate what a
psychiatrist would have diagnosed?
• Criterion validity may be divided into concurrent and predictive validity, depending on
whether the criterion refers to a current or
future state.
• To illustrate the former, results from a
questionnaire on hearing difficulties might be
compared with the results of audiometric
testing.
Concurrent validity
• The threshold score that divides these two
categories is known as the cutting-point or
cutting-score.
• For clarity cutting-points will be expressed as
two numbers, such as 23/24.
• Choosing a cutting-point is challenging.
• If the goal is to rule out a diagnosis, a cuttingpoint will be chosen that enhances sensitivity,
whereas if the clinical goal is to rule in a
disease the cutting-point will be chosen to
enhance specificity.
• Many times , it is awkward to compare the
validity of two tests in terms of both
sensitivity and specificity: AUC
‫حساسيت و ویژگي‬
‫‪Disease‬‬
‫‪No‬‬
‫‪Yes‬‬
‫‪b‬‬
‫‪a‬‬
‫‪Pos.‬‬
‫‪d‬‬
‫‪c‬‬
‫‪Neg.‬‬
‫‪Test‬‬
‫‪b+d‬‬
‫‪a+c‬‬
‫مثبت حقيقي‬
‫حساسيت =‬
‫=‬
‫بيماران‬
‫‪a‬‬
‫‪a+c‬‬
‫مفهوم حساسيت‬
‫‪ ‬اگر شخص ی بیمار باشد چند درصد تستش مثبت می‬
‫شود؟‬
‫‪ True positive rate‬‬
‫‪ ‬کاربرد تست حساس در رد کردن بیماری است‪.‬‬
‫‪ ‬وقتی بکار می رود که هدفمان غربال گری باشد‪.‬‬
‫حساسيت و ویژگي‬
Disease
Yes
No
Pos.
a
b
Neg.
c
d
Test
a+c
d
b+d
b+d
‫منفي حقيقي‬
=
‫سالم ها‬
= ‫ويژگي‬
‫مفهوم ویژگی‬
‫‪ ‬اگر شخص ی سالم باشد تستش چند درصد‬
‫منفی می شود؟‬
‫‪ True negative rate‬‬
‫‪ ‬کاربرد تست در اثبات بیماری است‪.‬‬
‫‪ ‬وقتی بکار می رود که زدن مارک بیماری (به‬
‫اشتباه) به شخص تبعات منفی قابل توجهی‬
‫برای وی دارد‪.‬‬
Positive Likelihood Ratio
Positive Likelihood Ratio:
LR+ =
In our example:
sensitivity
-----------------------1 - specificity
0.8
= ------------ = 8.0
1 - 0.9
Indicates:
- How much odds of disease is increased if test is positive
- A ratio of something that is desirable (true positives)
divided by something undesirable (false positives)
General Guidelines:
1
=>
Test is Useless
1-2
=>
Rarely important change in pre- to post test odds
2-5
=>
Small Change
5 - 10
=>
Moderate Change
>10
=>
Large Change
A Measure of Overall Usefulness of a Test:
AUC = Area Under (ROC) Curve
AUC of Four ROC Curves
100%
100%
Sensitivity
Sensitivity
100%
50%
0
%
0
%
0
%
1 - Specificity
0
%
100
%
100%
100
%
100%
65%
Sensitivity
Sensitivity
90%
0
%
1 - Specificity
0
%
1 - Specificity
100
%
0
%
0
%
1 - Specificity
100
%
AUC: Interpretation
Randomly select a diseased patient and get a score of Y.
Now, randomly select a healthy patient and get a score of X.
then,
AUC = Probability that Y is bigger than X
(assume larger test values associated with disease)
Rough AUC Guidelines:
0.50 - 0.60 - Not So Good
0.60 - 0.75 Fair
0.75 - 0.90 - Good
0.90 - 0.97 - Very Good
0.97 - 1.00 - Excellent
Swets, J.A. (1988)
Science, 1285 - 1993
At cut-off of 7/8, the sensitivity and specificity were
100% and 93%, respectively.
The area under the curve was 0.99 and statistically
significant (P < 0 .001).
Item Analysis
• To identify poor items in
Knowledge tests
200
Item Analysis
• The group of statistical techniques applied to
items on multiple choice exams in order to
improve the assessment.
• Generally, item statistics will be somewhat
unstable for small groups of students. Perhaps
fifty students might be considered a minimum
number if item statistics are to be stable.
201
Item-Objective Congruency
• This task is to determine whether each
item is accurate and the answer correct
based on current understanding in the
field. The experts also evaluate the
grammar and suggest wording changes
to improve the items.
Item-Objective Congruency
• The experts read each item and then rate
each item on every objective. Experts
suggest assigning -1 for an item that is a
poor match with an objective, 0 for a
moderate or uncertain match, and +1 for
a strong match.
Item-Objective Congruency
• For an item to be retained, the number
of experts who agree should be equal to
n - 1. Thus, if there are four experts,
three of them (n - 1) must give a rating of
+1 to the intended objective for an item
to be retained.
Determining Item Difficulty
• In order to know how difficult an item is, an
experienced instructor might use professional
judgment initially and then use an item
analysis in which the difficulty and
discrimination of an item is calculated.
Reducing Guessing:
The more difficult the item, the greater the effect of
guessing
Item Difficulty/IF
• Tells you the % of students who correctly
answered any given item
IF=
N number of students answering correctly
N number of students taking the test
Range will be .00 to 1.00, multiply by 100 (move the
decimal place two places to the right) to read as a
percentage correct
207
‫‪ -1‬ضريب دشواری‌‬
‫‪Difficulty Index‬‬
‫تعريف‪:‬‬
‫درصد کل آزمون شوندگا ني که به‬
‫يک سؤال جواب درست مي دهند‪.‬‬
• The average difficulty of a test is the average
of the individual item difficulties. For
maximum discrimination among students, an
average difficulty of .60 is ideal.
• If 243 students answered item no. 1 correctly
and 9 students answered incorrectly, the
difficulty level of the item would be 243/252
or .96.
‫‪ ‬اگر تعدادآزمون شوندگان‪≥ 20‬نفرباشد‪،‬برگه هاي‬
‫آزمون را کال به دو دسته باال و پايين تقسيم مي‬
‫کنيم‪.‬‬
‫‪‬اگر تعداد بيش از ‪ 40‬نفرباشد‪،‬بهترين رقم براي گروه‬
‫باال و پايين ‪%27‬است‪.‬‬
‫‪‬بطور کلي مي توان‪ ،‬از ‪ 25‬تا ‪ 33‬درصد راانتخاب‬
‫نمود‪.‬‬
‫تعدادافرادي که از گروه باال جواب درست داده اند‬
‫‪+‬‬
‫تعدادافرادي که از گروه پايين جواب درست داده اند‬
‫کل تعداد افراد گروه باال ‪ +‬کل تعدادافراد گروه پايين‬
‫مثال‬
‫ن‬
‫نتايج يک سؤال ازيک آزمو ‌‬
‫(تعدادآزمون شوندگان=‪89‬نفر)‬
‫گزينه‬
‫‪%27‬باال‬
‫‪%27‬پايين‬
‫‪%46‬متوسط‬
‫الف‬
‫‪2‬‬
‫‪11‬‬
‫‪20‬‬
‫ب‬
‫‪4‬‬
‫‪4‬‬
‫‪5‬‬
‫ج‬
‫‪18‬‬
‫‪9‬‬
‫‪15‬‬
‫د‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫جمع‬
‫‪24‬نفر‬
‫‪24‬نفر‬
‫‪41‬نفر‬
18  9  48  0.5
‫بنابراين هرچه ضريب دشواري‬
‫باالتر باشد ‪،‬سؤال آسان تر‬
‫‌‬
‫است‪.‬‬
‫‪ ‬ضريب دشواري مناسب آن است که به ‪5/0‬نزديک‬
‫باشد‪.‬‬
‫‪‬بطورکلي ضريب هاي دشواري بين ‪3/0‬تا‬
‫‪7/0‬حداکثر اطالع را در باره تفاوت بين آزمون‬
‫شوندگان به دست مي دهند‪.‬‬
‫‪‬شاخص هاي ‪ 4/0‬و باالتر = سؤاالت بسيار خوب‬
‫‪ ‬شاخص هاي ‪3/0‬تا ‪ =39/0‬تقريبا خوب ولي احتماال بايد‬
‫بهتر شود‪.‬‬
‫‪ ‬شاخص هاي ‪2/0‬تا ‪ =29/0‬سؤاالت لب مرزي كه به‬
‫نوعي تجديد نظر نياز داشته و يابايد حذف شوند‪.‬‬
‫‪ ‬شاخص هاي زير ‪ = 19/0‬سؤاالت ضعيف كه به‬
‫تجديدنظراساس ي نيازداشته و يابايد حذف شوند‪.‬‬
‫‪Ebel,R.L.,and Frisbie ,D.A.(1986).Essentials of educational‬‬
‫‪measurement (4Th ed).‬‬
‫‪KlineP (1993): The Handbookof Psycho logical Testing : London, Rou‬‬‫‪tledge.‬‬
The index of discrimination
• is a numerical indicator of how the poorer
students answered the item as compared to
how the better students answered the item.
‫‪-2‬ضريب تميز‬
‫‪Discrimination index‬‬
‫انتخاب های درست گروه باال‪ -‬انتخاب های درست گروه پايين‬
‫تعدادافراد يک گروه(باال يا پايين)‬
Item/Index Discrimination
• The degree to which an item separates the
students who did well from those who did poorly
• Divide the class into groups (probably thirds) by
ranking scores
ID= IF upper- IF lower
• You will have an ID for each item ranging from 1.00 to +1.00
• Values of 0.30- 0.70 and are quite good
discriminators
220
Calculation
• Sixty students take a test. The top 16 scores
and the bottom 16 scores are the upper and
lower groups.
• For item no. 1, twelve of the sixteen students
in the upper group answered the item
correctly while seven students in the lower
group answered correctly.
Point Biserial Correlation
• Is a coefficient that represents the 1, 0
(correct, incorrect) correlation between the
item response for each student and the
student's total test score.
• Conceptually, the point biserial is similar to
the discrimination index, but the point
biserial includes the data for the middle
group of students from the score
distribution.
222
• Correlations can range between +1 & -1
• A pbsc above .20 means the item is behaving
as expected (.30-.70 are recommended)
• One would expect that higher scoring
students would get each item correct.
• If lower scoring students got a particular item
correct more often than did higher scoring
students, then that item would have a
negative point biserial correlation
The point biserial correlation
• The column “Corrected Item-Total
Correlation.” This column displays the
corrected point biserial correlation.
• Items with pbs below 0.1 should be examined
for a possible incorrect key.
The point biserial correlation
• A positive point biserial tells us that higher
scoring students were likely to get the item
correct
• A negative point biserial tells us high scoring
Ss answered incorrectly more times than
lower scoring Ss
SPSS
• Despite the horrible name, it’s really quite
easy to do!
• This is simply a Pearson correlation when the
dichotomous variable is coded with 0 for one
category and 1 for the other.
• The sign of the correlation will depend
entirely on which way the coding of the
dichotomous variable was made.
• The first item is too easy to discriminate.
• The second item operates very well,
• and the third item should be revised to
improve the a and b foils as well as its
discrimination.
‫چه رسم جالبی است !!!‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪...‬محبتت را می گذارند پای احتیاجت …‬
‫‪...‬صداقتت را می گذارند پای سادگیت …‬
‫‪...‬سکوتت را می گذارند پای نفهمیت …‬
‫‪...‬نگرانیت را می گذارند پای تنهاییت …‬
‫‪...‬و وفاداریت را پای بی کسیت …‬
‫و آن قدر تکرار می کنند که خودت باورت می شود که تنهایی ‌و بی‬
‫کس و محتاج‪...‬‬
‫‪...‬آدم ها آن قدر زود عوض می شوند …‬
‫ی‪...‬‬
‫بینداز ‌‬
‫‌‬
‫آن قدر زود که تو فرصت نمی کنی به ساعتت نگاهی‬
‫‪...‬و ببینی چند دقیقه بين دوستی ها تا دشمنی ها فاصله افتاده‬
‫است …‬
Reliability
• A random error occurs when the
answer to a test—the opinion, belief,
or feeling that is selected—is
different from what one would have
selected under ideal test conditions.
Waterpipe.sav
• An item-to-total score correlation of 0.2 has
been cited as the cut-off point below which
items should be discarded.
Negative alphas
• One situation in which negative reliability
might occur is when the scale items represent
more than one dimension of meaning, and
these dimensions are negatively correlated.
Negative alphas
• values less than 0 or greater than 1.0 may
occur, especially when the number of cases
and/or items is small.
• a negative Cronbach's alpha indicates
inconsistent coding (see assumptions) or a
mixture of items measuring different
dimensions, leading to negative inter-item
correlations.
The squared multiple correlation, R2
is the R2 for an item when it is predicted from all
other items in the scale. The larger the R2, the more
the item is contributing to internal consistency.
 The lower the R2, the more the researcher should
consider dropping it.
 Note the R2 of some items may be low even on a
scale which has an acceptable Cronbach's alpha
overall.

Standardized item alpha
• Is the average inter-item correlation when
item variances are equal.
What are the main measures of
reliability?
• What if the data are dichotomous or
polychotomous?
– Reliability should be assessed with some type of Kappa
coefficient
• What if the data are quantitative (interval or ratio
scale?
– Reliability should be measured with the Intraclass
Correlation Coefficient (ICC)
– The various types of ICC and their use is what we will
talk about here.
Interclass vs Intraclass Correlation Coefficients:
What is a class?
• What is a class of variables? Variables that share a:
– metric (scale), and
– variance
• Height and Weight are different classes of variables.
• There is only 1 Interclass correlation coefficient –
Pearson’s r.
• When one is interested in the relationship between
variables of a common class, one uses an Intraclass
Correlation Coefficient.
Big Picture:
What is the Intraclass Correlation Coefficient?
• It is, as a general matter, the ratio of two variances:
Variance due to rated subjects (patients)
ICC = -------------------------------------------------------------------(Variance due to subjects + Variance due to Judges + Residual
Variance)
Test-retest reliability
(Intra-rater reliability)
• As a measure of agreement, the intraclass
correlation (ICC) is now normally used to
indicate reliability instead of Pearson or rankorder coefficients.
• Like the Pearson correlation, the ICC ranges
from −1 to +1, but it measures the average
similarity of the subjects’ actual scores on the
two ratings, not merely the similarity of their
relative standings on the two
A simple example to how misleading
interrater correlations
• Computing the interrater r (pearson
correlation) between raters 1 and 2, we get
1.00 .
• The Intraclass r (Shrout and Fleiss model 2) is
0.056.
• Computing the interrater r (pearson
correlation) between raters 1 and 4, we also
get 1.00 . The Intraclass r for these data is
also 1.00
Intraclass Correlation reliability
designs
• Model 1: Each patient to be rated is rated by a
unique rater, with each rater randomly selected
from a larger population (a one-way ANOVA
random effects model).
• Each rater makes only one rating decision. This
model assumes you have a large pool of raters,
who are randomly assigned to make one rating
per patient per variable. So, for a study in which
we rate 10 patients on 5 variables, we would
need 50 raters.
• Model 2: Every patient is rated by each rater.
We assume the raters are randomly selected
from some population of raters (a two-way
random effects model). In essence, each rater
rates all patients on all variables. This is the
efault model that covers most rating
situations.
• For example, for a study in which we rate 10
patients on 5 variables, we would need at
least 2 raters in order to assess interrater
reliability. Each rater would make (10*5)=50
rating judgements.
Model 3
• Model 3: Every patient is rated by each rater,
BUT, in contrast to Model 2, we assume the
raters are THE population of raters (a two-way,
fixed-effects model).
• However, it is assumed that these are the only
two raters who will ever make ratings – no
generalizability assumed to other raters.
ICC Model Decision Tree (Consideration 1:
Raters)
Were raters drawn
from larger pool?
Yes
No
Did the same subset of
raters rate each target?
No
One-way Random
Two-way mixed
Yes
Two-way random
For two-way models you must choose TYPE as well (Consideration 2:
Individual rater variability):
 consistency (interested in whether targets ranked the same)
 absolute agreement (interested in whether targets got exact same
scores)
247
What type of score?
• Are you interested in the reliability of an
individual rater or the reliability of the mean of
all raters?
• Typically, if you have more than one rating, you
would average them for your analyses, since the
average will always be a more reliable measure.
• SPSS gives you both, all the time.
– Single Measure Intraclass Correlation = reliability of an
individual rater
– Average Measure Intraclass Correlation = reliability of
the mean of the raters
248
• Fleiss, J.L. (1981) Statistical Methods for Rates
and Proportions, 2 nd . Edition. New York:
Wiley.
‫حساسيت و ویژگي‬
‫‪Disease‬‬
‫‪No‬‬
‫‪Yes‬‬
‫‪b‬‬
‫‪a‬‬
‫‪Pos.‬‬
‫‪d‬‬
‫‪c‬‬
‫‪Neg.‬‬
‫‪Test‬‬
‫‪b+d‬‬
‫‪a+c‬‬
‫مثبت حقيقي‬
‫حساسيت =‬
‫=‬
‫بيماران‬
‫‪a‬‬
‫‪a+c‬‬
‫مفهوم حساسيت‬
‫‪ ‬اگر شخص ی بیمار باشد چند درصد تستش مثبت می‬
‫شود؟‬
‫‪ True positive rate‬‬
‫‪ ‬کاربرد تست حساس در رد کردن بیماری است‪.‬‬
‫‪ ‬وقتی بکار می رود که هدفمان غربال گری باشد‪.‬‬
‫حساسيت و ویژگي‬
Disease
Yes
No
Pos.
a
b
Neg.
c
d
Test
a+c
d
b+d
b+d
‫منفي حقيقي‬
=
‫سالم ها‬
= ‫ويژگي‬
‫مفهوم ویژگی‬
‫‪ ‬اگر شخص ی سالم باشد تستش چند درصد‬
‫منفی می شود؟‬
‫‪ True negative rate‬‬
‫‪ ‬کاربرد تست در اثبات بیماری است‪.‬‬
‫‪ ‬وقتی بکار می رود که زدن مارک بیماری (به‬
‫اشتباه) به شخص تبعات منفی قابل توجهی‬
‫برای وی دارد‪.‬‬
Positive Likelihood Ratio
Positive Likelihood Ratio:
LR+ =
In our example:
sensitivity
-----------------------1 - specificity
0.8
= ------------ = 8.0
1 - 0.9
Indicates:
- How much odds of disease is increased if test is positive
- A ratio of something that is desirable (true positives)
divided by something undesirable (false positives)
General Guidelines:
1
=>
Test is Useless
1-2
=>
Rarely important change in pre- to post test odds
2-5
=>
Small Change
5 - 10
=>
Moderate Change
>10
=>
Large Change
A Measure of Overall Usefulness of a Test:
AUC = Area Under (ROC) Curve
AUC of Four ROC Curves
100%
100%
Sensitivity
Sensitivity
100%
50%
0
%
0
%
0
%
1 - Specificity
0
%
100
%
100%
100
%
100%
65%
Sensitivity
Sensitivity
90%
0
%
1 - Specificity
0
%
1 - Specificity
100
%
0
%
0
%
1 - Specificity
100
%
AUC: Interpretation
Randomly select a diseased patient and get a score of Y.
Now, randomly select a healthy patient and get a score of X.
then,
AUC = Probability that Y is bigger than X
(assume larger test values associated with disease)
Rough AUC Guidelines:
0.50 - 0.60 - Not So Good
0.60 - 0.75 Fair
0.75 - 0.90 - Good
0.90 - 0.97 - Very Good
0.97 - 1.00 - Excellent
Swets, J.A. (1988)
Science, 1285 - 1993
At cut-off of 7/8, the sensitivity and specificity were
100% and 93%, respectively.
The area under the curve was 0.99 and statistically
significant (P < 0 .001).
Construct validity
• For many years, criterion validity was the
mainstay of validity assessment. Researchers
recognized, however, that for many constructs
for which they were developing measures,
there were no suitable criteria for comparison
‫• براي اندازه گيري مفاهيم ذهني همچون درد‪ ،‬رضايت و‬
‫نگرش معيار طاليي وجود ندارد و لذا براي پي بردن به ‌روايي‬
‫پرسشنامه‌اي كه به اندازه‌‌گيري آنها مي‌پردازد (صحت اندازه‬
‫ي) با مشكل نبود يك سنگ ترازو مواجه مي‌شويم‪.‬‬
‫گير ‌‬
‫• روايي سازه از طريق مشخص نمودن ساختار دروني يك‬
‫پرسشنامه و تعيين ارتباط آن با ساير سازه‌ها‪ ،‬نبود معيار‬
‫طاليي را جبران مي‌نمايد‬
Three common approachs
• Cronbach and Meehl (1955) reasoned that if
an instrument measured what it was intended
to measure, its relationships with other
constructs would conform to the relationships
dictated by the theory.
‫• در صورتي كه ضريب همبستگي بين دو پرسشنامه باالي ‪ 0/6‬باشد‪،‬‬
‫نشانه همبستگي قوي بين دو ابزار است اگرچه رقم باالي ‪ 0/4‬قابل‬
‫قبول است‪ .‬البته بايد در نظر داشت در انتخاب ابزار و پرسشنامه‬
‫براي محاسبه ضريب همبستگي بايد توجيه تئوريك براي انتخاب‬
‫پرسشنامه وجود داشته باشد‪ ،‬يعني فلسفه انتخاب پرسشنامه بر‬
‫اساس تجربه پژوهش‌هاي مشابه و بررس ي متون باشد‪.‬‬
‫•‬
‫‪McDowell I. Measuring health : a guide to rating scales and‬‬
‫‪questionnaires 3rd ed, , Oxford University Press, 2006‬‬
• Another way to assess construct validity is to
examine differences between groups
• using the known-groups approach. In this
approach, participants are selected based on
their membership in one of two or more
groups that are expected to differ on the
construct of interest.
‫• در يك مطالعه براي پي بردن به روايي سازه پرسشنامه ‪CTQ‬‬
‫(پرسشنامه‌اي كه به بررس ي سوء رفتارهاي دوران كودكي مي‌پردازد)‪،‬‬
‫انتظار بر آن بود نمره پرسشنامه در افراد وابسته به مواد با افراد‬
‫سالم متفاوت باشد‪.‬‬
‫‪• - Childhood Trauma Questionnaire‬‬
‫• اين انتظار تلویحی الزم است به استناد بررس ي متون مورد تأييد قرار‬
‫گرفته باشد‪ ،‬كما اينكه در اين مطالعه نيز شواهد دال بر صحيح‬
‫بودن اين پیش فرض ارائه گرديد‪.‬‬
‫تحليل عامل يا روايي عاملي‬
‫• تحليل عامل بر دو نوع است‪ :‬اكتشافي و تأييدي در روش اكتشافي كه‬
‫روش متداول‌تر است‪ ،‬پژوهشگر پيش فرض قبلي در مورد عوامل يا‬
‫سازه‌هاي تشكيل دهنده يك پرسشنامه را ندارد و فقط هدفش اين‬
‫است كه ببيند ساختار اين پرسشنامه چگونه است و هريك ‌از‬
‫سؤاالت در كدام فاكتور يا گروه قرار مي‌گيرد‪ .‬در حالي كه در تحليل‬
‫ً‬
‫عامل تأييدي‪ ،‬پژوهشگر پيش فرض قبلي دارد مثال مي‌داند نسخه‬
‫اصلي پرسشنامه مورد نظر به طور مثال شامل ‪ 20‬سؤال است كه‬
‫ً‬
‫فرضا سؤاالت‪ 17 ،16 ،15 ،10 ،18 ،6 ،1‬و ‪ 20‬در يك عامل و بقيه‬
‫در عامل ديگر قرار مي‌گيرند‪ .‬حال سؤال وي اين است آيا نسخه‬
‫فارس ي شده كه بريك نمونه ايراني كار شده است همان عوامل با‬
‫همان اجزا (گویه‌ها) را به ما مي‌دهد‬
‫مراحل انجام‬
‫‪ -1‬تحليل ابتدايي‬
‫‪ -2‬استخراج عوامل‬
‫‪ -3‬گردش‬
‫‪ -4‬تفسير‬
‫مفروضات و پيش نيازهاي انجام تحليل عامل‬
Costello AB, Osborne JW. Best Practices in Exploratory Factor Analysis: Four Recommendations for Getting the Most From Your Analysis. Practical Assessment Research &
‫• حجم نمونه‬
Evaluation 2005;10( 7):1-9.
‫نرماليتي‬
‫داده‌هاي پرت‬
‫همبستگي بين گويه‌ها‬
Sampling adequacy - ‫عامل پذير بودن سؤاالت و ارزيابي‬
•
•
•
•
‫استخراج عوامل‬
‫قرار‬
‫در بين روش هاي استخراج عامل‪ ،‬دو روش بيشتر مورد استفاده ‌‬
‫مي‌گيرند‪:‬‬
‫‪(PCA) prinicipal component analysis – 1‬‬
‫‪(PAF) principal axis factoring & principal -2‬‬
‫‪factor analysis‬‬
‫‪ PCA‬روش ‪ default‬اكثر نرم افزارهاي آماري است‪.‬‬
‫چند فاکتور؟‬
‫• استفاده از ‪Eigenvalue‬‬
‫• مقدار وارياسيون مرتبط با يك فاكتور كه در ‪ SPSS‬عالوه بر نشان‬
‫دادن مقدار‪ ،‬درصدي از كل واريانس كه توسط يك فاكتور تبيين‬
‫مي شود نيز نشان داده مي شود‪.‬‬
‫نمودار سنگريزه ‪Scree Plot‬‬
‫گردش‬
‫هدف از ‪ rotation‬قابل فهم تر نمودن ‪ output‬است‪rotation .‬‬
‫سبب تغيير در جمع ‪ eigenvalue‬نميشود ولي مقادير و به تبع آن‬
‫درصد ‪ eigenvaaue‬مربوط به فاكتورها را تغيير ميدهد و به‬
‫همان شكل لودينگ فاكتورها را نيز تغيير ميدهد‪Factor .‬‬
‫‪ loading‬كه در روش ‪ PCA‬به آن ‪Component loading‬‬
‫گفته مي شود در واقع ضريب همبستگي بين فاكتور و متغيرها ست‪.‬‬
‫• ‪ Rotation‬مانند استخراج عامل از مسيرهاي گوناگون قابل انجام‬
‫است و به دو نوع كلي ‪ orthogonal‬و ‪ oblique‬تقسيم مي‪-‬‬
‫شود‪.‬‬
‫• در روش ‪orthogonal‬فاكتورهايي كه توليد ميشوند با يكديگر‬
‫همبستگي ندارند‪ .‬ولي در روش ‪ oblique‬فرض بر آن است كه‬
‫فاكتورها با يكديگر مرتبطتند‪ .‬روش هاي ‪،Varimax‬‬
‫‪ equamax ،quartimax‬از نوع ‪ orthogonal‬و روش هاي‬
‫‪ direct oblimin‬و ‪ promax‬در زير مجموعه ‪ oblique‬قرار‬
‫مي‌گيرند‪.‬‬

similar documents