کاپای کوهن
ضریب کاپای کوهن (به انگلیسی: Cohen's kappa coefficient) یک معیار آماری توافق درون ارزیاب یا توافق درون نویس[۱] برای موارد کیفیتی (مطلق) است. بهطور عمومی یک معیار قوی تر از قرارداد محاسبه ساده درصد بهشمار میرود چون K بهطور تصادفی در قرارداد در حال رخ دادن، محاسبه میشود.
برخی محققان[۲][نیازمند منبع] در مورد احتمال اینکه K بسامدهای طبقهبندیهای مشاهده شده را بهطور دلخواه اختیار کند، نگرانیهایی عنوان کردهاند که میتواند تأثیر قرارداد دست کم گرفته شده را برای یک طبقهبندی که بهطور معمول استفاده میگردد، داشته باشد، K یک معیار قرارداد بیش از حد محافظه کار لحاظ میگردد.
دیگران،[۳][نیازمند منبع] این ادعا را که کاپا در قرارداد بهطور تصادفی «به حساب آورده میشود»، به چالش میکشند. برای انجام مؤثر این کار نیاز به یک طرح واضح از چگونگی تأثیر شانس بر روی تصمیمات ارزیاب خواهد بود. اصطلاحاً نظام تصادفی آمار کاپا عنوان میکند که وقتی اطمینان کامل وجود ندارد، ارزیاب در واقع حدس میزند – یک سناریوی به شدت غیر واقعی.
محاسبات
کاپای کوهن قرارداد را بین دو ارزیاب که هر کدام N مورد را در C طبقهٔ متقابلاً انحصاری مرتب کردهاند، اندازهگیری میکند. اولین استفاده از آمار شبیه به کاپا مربوط به گالتون (۱۸۹۲) است،[۴] اسمیتون را ببینید (1985).[۵]
معادله برای K عبارتست از:
که در آن Pr(a) قرارداد نسبی مشاهده شده بین ارزیابها است و Pr(e) احتمال فرضی قرارداد شانس است، با استفاده از دادهٔ مشاهده شده برای محاسبهٔ احتمالهای هر مشاهدهکننده که به صورت اتفاقی بیانگر یکی از دستهها هستند. اگر که ارزیابها در قرارداد کامل باشند آنگاه K=۱ است. اگر هیچ قراردادی بین ارزیابها به غیر از آنکه توسط تصادف قابل دست یابی باشد (که توسط Pr(e) تعریف شد)، وجود نداشته باشد، آنگاه K=۰ است. اولین مقالهای که کاپا را به عنوان روشی جدید معرفی کرد توسط جیکوب کوهن در مجلهٔ سنجش آموزشی و روانشناسی در ۱۹۶۰ منتشر شد.[۶] یک رقم مشابه، به نام پی توسط اسکوت در ۱۹۵۵ مطرح شد. کاپای کوهن و پی اسکوت در روش محاسبهٔ عبارت Pr(e) با هم متفاوتند. توجه کنید که کاپای کوهن فقط قرارداد بین دو ارزیاب را اندازه میگیرد. برای یک اندازهگیری قرارداد مشابه (کاپای فلیس) که وقتی بیش از دو ارزیاب باشند، مورد استفاده قرار میگیرد، جوزف فلیس (۱۹۷۱) را ببینید. البته، کاپای فلیس تعمیم چند ارزیاب رقم پی اسکوت است، نه کاپای کوهن.
مثال
فرض کنید که شما در حال بررسی دادههای مربوط به یک گروه از ۵۰ نفر که برای یک وام درخواست میکنند، هستید. هر درخواست وام توسط دو خواننده خوانده شدهاند و هر خواننده یا جواب «بله» یا جواب «نه» به درخواست داده است. فرض کنید که دادهٔ شمارندهٔ قبول/رد به شکل زیر است که A و B خوانندهها هستند، دادههای روی قطر چپ به راست نشانگر تعداد قبولیها و دادههای روی قطر راست به چپ نشانگر تعداد ردیها است:
B | |||
---|---|---|---|
بله | نه | ||
A | بله | ۲۰ | ۵ |
نه | ۱۰ | ۱۵ |
توجه کنید که ۲۰ درخواست توسط هر خواننده (A و B) قبول شده و۱۵ درخواست توسط هرکدام رد شدهاند. پس، درصد قرارداد مشاهده شده میشود Pr(a) = (۲۰ +۱۵)/۵۰ = ۰٫۷۰ برای محاسبه Pr(e) (احتمال قرارداد تصادفی) به نکات زیر باید توجه کنیم:
- خواننده A به ۲۵ متقاضی «بله» گفته و به ۲۵ متقاضی «نه» گفتهاست. پس خواننده A در ۵۰٪ مدت زمان «بله» گفتهاست.
- خواننده B به ۳۰ متقاضی «بله» گفته و به ۲۰ متقاضی «نه» گفتهاست. پس خواننده B در ۶۰٪ مدت زمان «بله» گفتهاست.
بنابراین احتمال اینکه با هم «بله» بگویند ۰٫۵۰ . ۰٫۶۰ = ۰٫۳۰ است و احتمال اینکه باهم «نه» بگویند ۰٫۵۰ . ۰٫۴۰ = ۰٫۲۰ میباشد. پس احتمال کل قرارداد تصادفی برابر است با Pr(e) = ۰٫۳ +۰٫۲ = ۰٫۵. پس اکنون با محاسبهٔ رابطهٔ مربوط به کاپای کوهن داریم:
منابع
- ↑ Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. بایگانیشده در ۲۷ مارس ۲۰۱۴ توسط Wayback Machine Computational Linguistics, 22(2), pp. 249–254.
- ↑ Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). "Content analysis: What are they talking about?". Computers & Education. 46: 29–48. doi:10.1016/j.compedu.2005.04.002.
- ↑ Uebersax, JS. (1987). "Diversity of decision-making models and the measurement of interrater agreement" (PDF). Psychological Bulletin. 101: 140–146. doi:10.1037/0033-2909.101.1.140. Archived from the original (PDF) on 3 March 2016. Retrieved 14 December 2014.
{{cite journal}}
: Cite has empty unknown parameter:|author-name-separator=
(help); Unknown parameter|author-separator=
ignored (help) - ↑ Galton, F. (1892). Finger Prints Macmillan, London.
- ↑ Smeeton, N.C. (1985). "Early History of the Kappa Statistic". Biometrics. 41: 795.
- ↑ Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104