F Score
F Score
ﺣﺴﺎم ﮐﺮﺑﺎﺳﯿﺎن
٩٨١١١١٩٠٣١
ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ
ﻣﻘﺪﻣﻪ ٢ ..........................................................................
ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی دﺳﺘﻪ ﺑﻨﺪی ٢ .............................................
ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی ﺧﻮﺷﻪ ﺑﻨﺪی ۶ .............................................
اﻧﺪازه٧ ......................................................................... F
ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی ﮐﺸﻒ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ٧ ....................................
ﻧﺤﻮه رﺳﻢ ﻧﻤﻮدار١۴ ........................................................ ROC
ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار)١۶ ................................ AUC(Area Under Curve
ﻣﻨﺎﺑﻊ و ﻣﺮاﺟﻊ ١٨ ................................................................. :
ﻣﻘﺪﻣﻪ
داﻧﺸﯽ ﮐﻪ در ﻣﺮﺣﻠﻪ ﯾﺎدﮔﯿﺮي ﻣﺪل ﺗﻮﻟﯿﺪ ﻣﯽ ﺷﻮد ،ﻣﯽ ﺑﺎﯾﺴﺖ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ ﻣﻮرد ﺗﺤﻠﯿﻞ ﻗﺮار ﮔﯿﺮد ﺗﺎ ﺑﺘﻮان ارزش آن را
ﺗﻌﯿﯿﻦ ﻧﻤﻮد و در ﭘﯽ آن ﮐﺎراﺋﯽ اﻟﮕﻮرﯾﺘﻢ ﯾﺎد ﮔﯿﺮﻧﺪه ﻣﺪل را ﻧﯿﺰ ﻣﺸﺨﺺ ﮐﺮد .اﯾﻦ ﻣﻌﯿﺎرﻫﺎ را ﻣﯽ ﺗﻮان ﻫﻢ ﺑﺮاي ﻣﺠﻤﻮﻋﻪ داده
ﻫﺎي آﻣﻮزﺷﯽ در ﻣﺮﺣﻠﻪ ﯾﺎدﮔﯿﺮي و ﻫﻢ ﺑﺮاي ﻣﺠﻤﻮﻋﻪ رﮐﻮرد ﻫﺎي آزﻣﺎﯾﺸﯽ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ ﻣﺤﺎﺳﺒﻪ ﻧﻤﻮد .ﻫﻤﭽﻨﯿﻦ ﻻزﻣﻪ
ﻣﻮﻓﻘﯿﺖ در ﺑﻬﺮه ﻣﻨﺪي از ﻋﻠﻢ داده ﮐﺎوي ﺗﻔﺴﯿﺮ داﻧﺶ ﺗﻮﻟﯿﺪ و ارزﯾﺎﺑﯽ ﺷﺪه اﺳﺖ].[1
ﺑﺮاي ﺳﺎدﮔﯽ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي ،آﻧﻬﺎ را ﺑﺮاي ﯾﮏ ﻣﺴﺌﻠﻪ ﺑﺎ دو دﺳﺘﻪ اراﺋﻪ ﺧﻮاﻫﯿﻢ ﻧﻤﻮد .در اﺑﺘﺪا ﺑﺎ
ﻣﻔﻬﻮم ﻣﺎﺗﺮﯾﺲ درﻫﻢ رﯾﺨﺘﮕﯽ ) (Classification Matrixآﺷﻨﺎ ﻣﯽ ﺷﻮﯾﻢ .اﯾﻦ ﻣﺎﺗﺮﯾﺲ ﭼﮕﻮﻧﮕﯽ ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ
ﺑﻨﺪي را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﺠﻤﻮﻋﻪ داده ورودي ﺑﻪ ﺗﻔﮑﯿﮏ اﻧﻮاع دﺳﺘﻪ ﻫﺎي ﻣﺴﺎﻟﻪ دﺳﺘﻪ ﺑﻨﺪي ،ﻧﻤﺎﯾﺶ ﻣﯽ دﻫﺪ.
ﻫﺮ ﯾﮏ از ﻋﻨﺎﺻﺮ ﻣﺎﺗﺮﯾﺲ ﺑﻪ ﺷﺮح ذﯾﻞ ﻣﯽﺑﺎﺷﺪ:
:TNﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﻨﻔﯽ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي ﻧﯿﺰ دﺳﺘﻪ آﻧﻬﺎ را ﺑﺪرﺳﺘﯽ ﻣﻨﻔﯽ
ﺗﺸﺨﯿﺺ داده اﺳﺖ.
:TPﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﺜﺒﺖ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي ﻧﯿﺰ دﺳﺘﻪ آﻧﻬﺎ را ﺑﺪرﺳﺘﯽ ﻣﺜﺒﺖ
ﺗﺸﺨﯿﺺ داده اﺳﺖ.
:FPﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﻨﻔﯽ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﺳﺘﻪ آﻧﻬﺎ را ﺑﻪ اﺷﺘﺒﺎه ﻣﺜﺒﺖ ﺗﺸﺨﯿﺺ
داده اﺳﺖ.
:FNﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﺜﺒﺖ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﺳﺘﻪ آﻧﻬﺎ را ﺑﻪ اﺷﺘﺒﺎه ﻣﻨﻔﯽ ﺗﺸﺨﯿﺺ
داده اﺳﺖ.
ﻣﻬﻤﺘﺮﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي ﺗﻌﯿﻦ ﮐﺎراﯾﯽ ﯾﮏ اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﻗﺖ ﯾﺎ ﻧﺮخ دﺳﺘﻪ ﺑﻨﺪي )(Classification Accuracy Rate
اﺳﺖ ﮐﻪ اﯾﻦ ﻣﻌﯿﺎر دﻗﺖ ﮐﻞ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ را ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﺪ .در واﻗﻊ اﯾﻦ ﻣﻌﯿﺎر ﻣﺸﻬﻮرﺗﺮﯾﻦ و ﻋﻤﻮﻣﯽﺗﺮﯾﻦ ﻣﻌﯿﺎر ﻣﺤﺎﺳﺒﻪ
ﮐﺎراﯾﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي اﺳﺖ ﮐﻪ ﻧﺸﺎن ﻣﯽدﻫﺪ ،دﺳﺘﻪ ﺑﻨﺪ ﻃﺮاﺣﯽ ﺷﺪه ﭼﻨﺪ درﺻﺪ از ﮐﻞ ﻣﺠﻤﻮﻋﻪ رﮐﻮردﻫﺎي آزﻣﺎﯾﺸﯽ
را ﺑﺪرﺳﺘﯽ دﺳﺘﻪ ﺑﻨﺪي ﮐﺮده اﺳﺖ.
دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي ﺑﺎ اﺳﺘﻔﺎده از راﺑﻄﻪ Iﺑﺪﺳﺖ ﻣﯽآﯾﺪ ﮐﻪ ﺑﯿﺎن ﻣﯽﮐﻨﺪ دو ﻣﻘﺪار TPو TNﻣﻬﻤﺘﺮﯾﻦ ﻣﻘﺎدﯾﺮي ﻫﺴﺘﻨﺪ ﮐﻪ در ﯾﮏ
ﻣﺴﺌﻠﻪ دودﺳﺘﻪ اي ﺑﺎﯾﺪ ﺑﯿﺸﯿﻨﻪ ﺷﻮﻧﺪ) .در ﻣﺴﺎﺋﻞ ﭼﻨﺪ دﺳﺘﻪ اي ﻣﻘﺎدﯾﺮ ﻗﺮار ﮔﺮﻓﺘﻪ روي ﻗﻄﺮ اﺻﻠﯽ اﯾﻦ ﻣﺎﺗﺮﯾﺲ – ﮐﻪ در ﺻﻮرت
ﮐﺴﺮ ﻣﺤﺎﺳﺒﻪ CAﻗﺮار ﻣﯽﮔﯿﺮﻧﺪ – ﺑﺎﯾﺪ ﺑﯿﺸﯿﻨﻪ ﺑﺎﺷﻨﺪ(.
ﻣﻌﯿﺎر ﺧﻄﺎي دﺳﺘﻪ ﺑﻨﺪي ) (Error Rateدﻗﯿﻘﺎً ﺑﺮﻋﮑﺲ ﻣﻌﯿﺎر دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي اﺳﺖ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از راﺑﻄﻪ IIﺑﺪﺳﺖ ﻣﯽآﯾﺪ.
ﮐﻤﺘﺮﯾﻦ ﻣﻘﺪار آن ﺑﺮاﺑﺮ ﺻﻔﺮ اﺳﺖ زﻣﺎﻧﯽ ﮐﻪ ﺑﻬﺘﺮﯾﻦ ﮐﺎراﯾﯽ را دارﯾﻢ و ﺑﻄﻮر ﻣﺸﺎﺑﻪ ﺑﯿﺸﺘﺮﯾﻦ ﻣﻘﺪار آن ﺑﺮاﺑﺮ ﯾﮏ اﺳﺖ زﻣﺎﻧﯽ ﮐﻪ
ﮐﻤﺘﺮﯾﻦ ﮐﺎراﺋﯽ را دارﯾﻢ.
ذﮐﺮ اﯾﻦ ﻧﮑﺘﻪ ﺿﺮوري اﺳﺖ ﮐﻪ در ﻣﺴﺎﺋﻞ واﻗﻌﯽ ،ﻣﻌﯿﺎر دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي ﺑﻪ ﻫﯿﭻ ﻋﻨﻮان ﻣﻌﯿﺎر ﻣﻨﺎﺳﺒﯽ ﺑﺮاي ارزﯾﺎﺑﯽ ﮐﺎراﯾﯽ
اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي ﻧﻤﯽﺑﺎﺷﺪ ،ﺑﻪ اﯾﻦ دﻟﯿﻞ ﮐﻪ در راﺑﻄﻪ دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي ،ارزش رﮐﻮردﻫﺎي دﺳﺘﻪﻫﺎي ﻣﺨﺘﻠﻒ ﯾﮑﺴﺎن در
ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮﻧﺪ .ﺑﻨﺎﺑﺮاﯾﻦ در ﻣﺴﺎﺋﻠﯽ ﮐﻪ ﺑﺎ دﺳﺘﻪﻫﺎي ﻧﺎﻣﺘﻌﺎدل ﺳﺮوﮐﺎر دارﯾﻢ ،ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ در ﻣﺴﺎﺋﻠﯽ ﮐﻪ ارزش دﺳﺘﻪ اي
در ﻣﻘﺎﯾﺴﻪ ﺑﺎ دﺳﺘﻪ دﯾﮕﺮ ﻣﺘﻔﺎوت اﺳﺖ ،از ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي اﺳﺘﻔﺎده ﻣﯽﺷﻮد.
ﻫﻤﭽﻨﯿﻦ در ﻣﺴﺎﺋﻞ واﻗﻌﯽ ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي ﻧﻈﯿﺮ DRو FARﮐﻪ ﺑﻪ ﺗﺮﺗﯿﺐ از رواﺑﻂ IIIو IVﺑﺪﺳﺖ ﻣﯽآﯾﻨﺪ ،اﻫﻤﯿﺖ وﯾﮋه اي
دارﻧﺪ .اﯾﻦ ﻣﻌﯿﺎرﻫﺎ ﮐﻪ ﺗﻮﺟﻪ ﺑﯿﺸﺘﺮي ﺑﻪ دﺳﺘﻪ ﺑﻨﺪ ﻣﺜﺒﺖ ﻧﺸﺎن ﻣﯽدﻫﻨﺪ ،ﺗﻮاﻧﺎﯾﯽ دﺳﺘﻪ ﺑﻨﺪ را در ﺗﺸﺨﯿﺺ دﺳﺘﻪ ﻣﺜﺒﺖ و ﺑﻄﻮر
ﻣﺸﺎﺑﻪ ﺗﺎوان اﯾﻦ ﺗﻮاﻧﺎﯾﯽ ﺗﺸﺨﯿﺺ را ﺗﺒﯿﯿﻦ ﻣﯽﮐﻨﻨﺪ .ﻣﻌﯿﺎر DRﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ دﻗﺖ ﺗﺸﺨﯿﺺ دﺳﺘﻪ ﻣﺜﺒﺖ ﭼﻪ ﻣﻘﺪار اﺳﺖ و
ﻣﻌﯿﺎر FARﻧﺮخ ﻫﺸﺪار ﻏﻠﻂ را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ دﺳﺘﻪ ﻣﻨﻔﯽ ﺑﯿﺎن ﻣﯽﮐﻨﺪ.
ﻣﻌﯿﺎر ﻣﻬﻢ دﯾﮕﺮي ﮐﻪ ﺑﺮاي ﺗﻌﯿﯿﻦ ﻣﯿﺰان ﮐﺎراﯾﯽ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ اﺳﺘﻔﺎده ﻣﯽ ﺷﻮد ﻣﻌﯿﺎر ) AUC (Area Under Curveاﺳﺖ.
AUCﻧﺸﺎن دﻫﻨﺪه ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار ) ROC (Receiver Operating Characteristicﻣﯽﺑﺎﺷﺪ ﮐﻪ ﻫﺮ ﭼﻪ ﻣﻘﺪار اﯾﻦ ﻋﺪد
ﻣﺮﺑﻮط ﺑﻪ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﮐﺎراﯾﯽ ﻧﻬﺎﯾﯽ دﺳﺘﻪ ﺑﻨﺪ ﻣﻄﻠﻮبﺗﺮ ارزﯾﺎﺑﯽ ﻣﯽﺷﻮد .ﻧﻤﻮدار ROCروﺷﯽ ﺑﺮاي ﺑﺮرﺳﯽ ﮐﺎراﯾﯽ
دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻣﯽﺑﺎﺷﺪ .در واﻗﻊ ﻣﻨﺤﻨﯽﻫﺎي ROCﻣﻨﺤﻨﯽﻫﺎي دو ﺑﻌﺪي ﻫﺴﺘﻨﺪ ﮐﻪ در آﻧﻬﺎ DRﯾﺎ ﻫﻤﺎن ﻧﺮخ ﺗﺸﺨﯿﺺ ﺻﺤﯿﺢ
دﺳﺘﻪ ﻣﺜﺒﺖ ) (True Positive Rate – TPRروي ﻣﺤﻮر Yو ﺑﻄﻮر ﻣﺸﺎﺑﻪ FARﯾﺎ ﻫﻤﺎن ﻧﺮخ ﺗﺸﺨﯿﺺ ﻏﻠﻂ دﺳﺘﻪ ﻣﻨﻔﯽ
)(False Positive Rate – FPRروي ﻣﺤﻮر Xرﺳﻢ ﻣﯽﺷﻮﻧﺪ .ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﯾﮏ ﻣﻨﺤﻨﯽ ROCﻣﺼﺎﻟﺤﻪ ﻧﺴﺒﯽ ﻣﯿﺎن ﺳﻮدﻫﺎ و
ﻫﺰﯾﻨﻪﻫﺎ را ﻧﺸﺎن ﻣﯽدﻫﺪ.
ﺑﺴﯿﺎري از دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻫﻤﺎﻧﻨﺪ روشﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ درﺧﺖ ﺗﺼﻤﯿﻢ و ﯾﺎ روشﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ ﻗﺎﻧﻮن ،ﺑﻪ ﮔﻮﻧﻪ اي ﻃﺮاﺣﯽ ﺷﺪه اﻧﺪ
ﮐﻪ ﺗﻨﻬﺎ ﯾﮏ ﺧﺮوﺟﯽ دودوﯾﯽ )ﻣﺒﻨﯽ ﺑﺮ ﺗﻌﻠﻖ ورودي ﺑﻪ ﯾﮑﯽ از دو دﺳﺘﻪ ﻣﻤﮑﻦ( ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ .ﺑﻪ اﯾﻦ ﻧﻮع دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﮐﻪ ﺗﻨﻬﺎ
ﯾﮏ ﺧﺮوﺟﯽ ﻣﺸﺨﺺ ﺑﺮاي ﻫﺮ ورودي ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ ،دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﮔﺴﺴﺘﻪ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ اﯾﻦ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﺗﻨﻬﺎ ﯾﮏ ﻧﻘﻄﻪ
در ﻓﻀﺎي ROCﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ.
ﺑﻄﻮر ﻣﺸﺎﺑﻪ دﺳﺘﻪ ﺑﻨﺪﻫﺎي دﯾﮕﺮي ﻧﻈﯿﺮ دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ روش ﺑﯿﺰ و ﯾﺎ ﺷﺒﮑﻪﻫﺎي ﻋﺼﺒﯽ ﻧﯿﺰ وﺟﻮد دارﻧﺪ ﮐﻪ ﯾﮏ اﺣﺘﻤﺎل
و ﯾﺎ اﻣﺘﯿﺎز ﺑﺮاي ﻫﺮ ورودي ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ ،ﮐﻪ اﯾﻦ ﻋﺪد ﺑﯿﺎﻧﮕﺮ درﺟﻪ ﺗﻌﻠﻖ ورودي ﺑﻪ ﯾﮑﯽ از دو دﺳﺘﻪ ﻣﻮﺟﻮد ﻣﯽﺑﺎﺷﺪ .اﯾﻦ دﺳﺘﻪ
ﺑﻨﺪﻫﺎ ﭘﯿﻮﺳﺘﻪ ﻧﺎﻣﯿﺪه ﻣﯽﺷﻮﻧﺪ و ﺑﺪﻟﯿﻞ ﺧﺮوﺟﯽ ﺧﺎص اﯾﻦ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﯾﮏ آﺳﺘﺎﻧﻪ ﺟﻬﺖ ﺗﻌﯿﯿﻦ ﺧﺮوﺟﯽ ﻧﻬﺎﯾﯽ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ
ﻣﯽﺷﻮد.
ﯾﮏ ﻣﻨﺤﻨﯽ ROCاﺟﺎزه ﻣﻘﺎﯾﺴﻪ ﺗﺼﻮﯾﺮي ﻣﺠﻤﻮﻋﻪ اي از دﺳﺘﻪ ﺑﻨﺪي ﮐﻨﻨﺪهﻫﺎ را ﻣﯽدﻫﺪ ،ﻫﻤﭽﻨﯿﻦ ﻧﻘﺎط ﻣﺘﻌﺪدي در ﻓﻀﺎي
ROCﻗﺎﺑﻞ ﺗﻮﺟﻪ اﺳﺖ .ﻧﻘﻄﻪ ﭘﺎﯾﯿﻦ ﺳﻤﺖ ﭼﭗ ) (0,0اﺳﺘﺮاﺗﮋي را ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ در ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﻣﺜﺒﺖ ﺗﻮﻟﯿﺪ ﻧﻤﯽﺷﻮد.
اﺳﺘﺮاﺗﮋي ﻣﺨﺎﻟﻒ ،ﮐﻪ ﺑﺪون ﺷﺮط دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺜﺒﺖ ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﺪ ،ﺑﺎ ﻧﻘﻄﻪ ﺑﺎﻻ ﺳﻤﺖ راﺳﺖ ) (1,1ﻣﺸﺨﺺ ﻣﯽﺷﻮد .ﻧﻘﻄﻪ
) (0,1دﺳﺘﻪ ﺑﻨﺪي ﮐﺎﻣﻞ و ﺑﯽ ﻋﯿﺐ را ﻧﻤﺎﯾﺶ ﻣﯽدﻫﺪ .ﺑﻄﻮر ﮐﻠﯽ ﯾﮏ ﻧﻘﻄﻪ در ﻓﻀﺎي ROCﺑﻬﺘﺮ از دﯾﮕﺮي اﺳﺖ اﮔﺮ در ﺷﻤﺎل
ﻏﺮﺑﯽﺗﺮ اﯾﻦ ﻓﻀﺎ ﻗﺮار ﮔﺮﻓﺘﻪ ﺑﺎﺷﺪ .ﻫﻤﭽﻨﯿﻦ در ﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﺪ ﻣﻨﺤﻨﯽﻫﺎي ROCرﻓﺘﺎر ﯾﮏ دﺳﺘﻪ ﺑﻨﺪي ﮐﻨﻨﺪه را ﺑﺪون ﺗﻮﺟﻪ
ﺑﻪ ﺗﻮزﯾﻊ دﺳﺘﻪﻫﺎ ﯾﺎ ﻫﺰﯾﻨﻪ ﺧﻄﺎ ﻧﺸﺎن ﻣﯽدﻫﻨﺪ ،ﺑﻨﺎﺑﺮاﯾﻦ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪي را از اﯾﻦ ﻋﻮاﻣﻞ ﺟﺪا ﻣﯽﮐﻨﻨﺪ .ﻓﻘﻂ زﻣﺎﻧﯽ ﮐﻪ ﯾﮏ
دﺳﺘﻪ ﺑﻨﺪ در ﮐﻞ ﻓﻀﺎي ﮐﺎراﯾﯽ ﺑﻪ وﺿﻮح ﺑﺮ دﺳﺘﻪ دﯾﮕﺮي ﺗﺴﻠﻂ ﯾﺎﺑﺪ ،ﻣﯽﺗﻮان ﮔﻔﺖ ﮐﻪ ﺑﻬﺘﺮ از دﯾﮕﺮي اﺳﺖ .ﺑﻪ ﻫﻤﯿﻦ دﻟﯿﻞ
ﻣﻌﯿﺎر AUCﮐﻪ ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار ROCرا ﻧﺸﺎن ﻣﯽدﻫﺪ ﻣﯽﺗﻮاﻧﺪ ﻧﻘﺶ ﺗﻌﯿﯿﻦ ﮐﻨﻨﺪه اي در ﻣﻌﺮﻓﯽ دﺳﺘﻪ ﺑﻨﺪ ﺑﺮﺗﺮ اﯾﻔﺎ ﮐﻨﺪ .ﺑﺮاي
درك ﺑﻬﺘﺮ ﻧﻤﻮدار ROCزﯾﺮ را ﻣﺸﺎﻫﺪه ﮐﻨﯿﺪ.
ﻣﻘﺪار AUCﺑﺮاي ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﮐﻪ ﺑﻄﻮر ﺗﺼﺎدﻓﯽ ،دﺳﺘﻪ ﻧﻤﻮﻧﻪ ﻣﻮرد ﺑﺮرﺳﯽ را ﺗﻌﯿﯿﻦ ﻣﯽﮐﻨﺪ ﺑﺮاﺑﺮ 0٫5اﺳﺖ .ﻫﻤﭽﻨﯿﻦ ﺑﯿﺸﺘﺮﯾﻦ
ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاﺑﺮ ﯾﮏ ﺑﻮده و ﺑﺮاي وﺿﻌﯿﺘﯽ رخ ﻣﯽدﻫﺪ ﮐﻪ دﺳﺘﻪ ﺑﻨﺪ اﯾﺪه آل ﺑﻮده و ﺑﺘﻮاﻧﺪ ﮐﻠﯿﻪ ﻧﻤﻮﻧﻪﻫﺎي ﻣﺜﺒﺖ را ﺑﺪون
ﻫﺮﮔﻮﻧﻪ ﻫﺸﺪار ﻏﻠﻄﯽ ﺗﺸﺨﯿﺺ دﻫﺪ .ﻣﻌﯿﺎر AUCﺑﺮﺧﻼف دﯾﮕﺮ ﻣﻌﯿﺎرﻫﺎي ﺗﻌﯿﯿﻦ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻣﺴﺘﻘﻞ از آﺳﺘﺎﻧﻪ ﺗﺼﻤﯿﻢ
ﮔﯿﺮي دﺳﺘﻪ ﺑﻨﺪ ﻣﯽﺑﺎﺷﺪ .ﺑﻨﺎﺑﺮاﯾﻦ اﯾﻦ ﻣﻌﯿﺎر ﻧﺸﺎن دﻫﻨﺪه ﻣﯿﺰان ﻗﺎﺑﻞ اﻋﺘﻤﺎد ﺑﻮدن ﺧﺮوﺟﯽ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﻣﺸﺨﺺ ﺑﻪ ازاي
ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﻣﺘﻔﺎوت اﺳﺖ ﮐﻪ اﯾﻦ ﻣﻔﻬﻮم ﺗﻮﺳﻂ ﺳﺎﯾﺮ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻗﺎﺑﻞ ﻣﺤﺎﺳﺒﻪ ﻧﻤﯽﺑﺎﺷﺪ .در
ﺑﺮﺧﯽ از ﻣﻮاﻗﻊ ﺳﻄﺢ زﯾﺮ ﻣﻨﺤﻨﯽﻫﺎي ROCﻣﺮﺑﻮط ﺑﻪ دو دﺳﺘﻪ ﺑﻨﺪ ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺑﺮاﺑﺮ اﺳﺖ وﻟﯽ ارزش آﻧﻬﺎ ﺑﺮاي ﮐﺎرﺑﺮدﻫﺎي ﻣﺨﺘﻠﻒ
ﯾﮑﺴﺎن ﻧﯿﺴﺖ ﮐﻪ ﺑﺎﯾﺪ در ﻧﻈﺮ داﺷﺖ در اﯾﻦ ﮔﻮﻧﻪ ﻣﺴﺎﺋﻞ ﮐﻪ ارزش دﺳﺘﻪﻫﺎ ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺑﺮاﺑﺮ ﻧﯿﺴﺖ ،اﺳﺘﻔﺎده از ﻣﻌﯿﺎر AUCﻣﻄﻠﻮب
ﻧﻤﯽﺑﺎﺷﺪ .ﺑﻪ ﻫﻤﯿﻦ دﻟﯿﻞ در اﯾﻦ ﮔﻮﻧﻪ ﻣﺴﺎﺋﻞ اﺳﺘﻔﺎده از ﻣﻌﯿﺎر دﯾﮕﺮي ﺑﻪ ﺟﺰء ﻫﺰﯾﻨﻪ ) (Cost Matrixﻣﻨﻄﻘﯽ ﺑﻪ ﻧﻈﺮ ﻧﻤﯽرﺳﺪ.
در اﻧﺘﻬﺎ ﺑﺎﯾﺪ ﺗﻮﺟﻪ ﻧﻤﻮد در ﮐﻨﺎر ﻣﻌﯿﺎرﻫﺎي ﺑﺮرﺳﯽ ﺷﺪه ﮐﻪ ﻫﻤﮕﯽ ﺑﻪ ﻧﻮﻋﯽ دﻗﺖ دﺳﺘﻪ ﺑﻨﺪ را ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﺮدﻧﺪ ،در دﺳﺘﻪ
ﺑﻨﺪﻫﺎي ﻗﺎﺑﻞ ﺗﻔﺴﯿﺮ ﻧﻈﯿﺮ دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ ﻗﺎﻧﻮن و ﯾﺎ درﺧﺖ ﺗﺼﻤﯿﻢ ،ﭘﯿﭽﯿﺪﮔﯽ ﻧﻬﺎﯾﯽ و ﻗﺎﺑﻞ ﺗﻔﺴﯿﺮ ﺑﻮدن ﻣﺪل ﯾﺎد ﮔﺮﻓﺘﻪ
ﺷﺪه ﻧﯿﺰ از اﻫﻤﯿﺖ ﺑﺎﻻﯾﯽ ﺑﺮﺧﻮردار اﺳﺖ.
از روشﻫﺎي ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي )ﮐﻪ در اﯾﻦ اﻟﮕﻮرﯾﺘﻢ روال ﮐﺎري ﺑﺪﯾﻦ ﺻﻮرت اﺳﺖ ﮐﻪ ﻣﺪل دﺳﺘﻪ ﺑﻨﺪي ﺗﻮﺳﻂ
ﻣﺠﻤﻮﻋﻪ داده آﻣﻮزﺷﯽ ﺳﺎﺧﺘﻪ ﺷﺪه و ﺑﻮﺳﯿﻠﻪ ﻣﺠﻤﻮﻋﻪ داده آزﻣﺎﯾﺸﯽ ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﻣﯽﮔﯿﺮد (.ﻣﯽﺗﻮان ﺑﻪ
روش Holdoutاﺷﺎره ﮐﺮد ﮐﻪ در اﯾﻦ روش ﭼﮕﻮﻧﮕﯽ ﻧﺴﺒﺖ ﺗﻘﺴﯿﻢ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎ )ﺑﻪ دو ﻣﺠﻤﻮﻋﻪ داده آﻣﻮزﺷﯽ و ﻣﺠﻤﻮﻋﻪ
داده آزﻣﺎﯾﺸﯽ( ﺑﺴﺘﮕﯽ ﺑﻪ ﺗﺸﺨﯿﺺ ﺗﺤﻠﯿﮕﺮ دارد ﮐﻪ ﻣﻌﻤﻮﻻً دو ﺳﻮم ﺑﺮاي آﻣﻮزش و ﯾﮏ ﺳﻮم ﺑﺮاي ارزﯾﺎﺑﯽ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮد.
ﻣﻬﻤﺘﺮﯾﻦ ﻣﺰﯾﺖ اﯾﻦ روش ﺳﺎدﮔﯽ و ﺳﺮﻋﺖ ﺑﺎﻻي ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ اﺳﺖ وﻟﯿﮑﻦ روش Holdoutﻣﻌﺎﯾﺐ زﯾﺎدي دارد از ﺟﻤﻠﻪ
اﯾﻨﮑﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ و آزﻣﺎﯾﺸﯽ ﺑﻪ ﯾﮑﺪﯾﮕﺮ واﺑﺴﺘﻪ ﺧﻮاﻫﻨﺪ ﺷﺪ ،در واﻗﻊ ﺑﺨﺸﯽ از ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ ﮐﻪ ﺑﺮاي
آزﻣﺎﯾﺶ ﺟﺪا ﻣﯽﺷﻮد ،ﺷﺎﻧﺴﯽ ﺑﺮاي ﺣﻀﻮر ﯾﺎﻓﺘﻦ در ﻣﺮﺣﻠﻪ آﻣﻮزش ﻧﺪارد و ﺑﻄﻮر ﻣﺸﺎﺑﻪ در ﺻﻮرت اﻧﺘﺨﺎب ﯾﮏ رﮐﻮرد ﺑﺮاي آﻣﻮزش
دﯾﮕﺮ ﺷﺎﻧﺴﯽ ﺑﺮاي اﺳﺘﻔﺎده از اﯾﻦ رﮐﻮرد ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه وﺟﻮد ﻧﺨﻮاﻫﺪ داﺷﺖ .ﻫﻤﭽﻨﯿﻦ ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه ﺑﺴﺘﮕﯽ
ﻓﺮاواﻧﯽ ﺑﻪ ﭼﮕﻮﻧﮕﯽ ﺗﻘﺴﯿﻢ ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ ﺑﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ و آزﻣﺎﯾﺸﯽ دارد .ﭼﻨﺎﻧﭽﻪ روش Holdoutرا ﭼﻨﺪﯾﻦ
ﺑﺎر اﺟﺮا ﮐﻨﯿﻢ و از ﻧﺘﺎﯾﺞ ﺣﺎﺻﻞ ﻣﯿﺎﻧﮕﯿﻦ ﮔﯿﺮي ﮐﻨﯿﻢ از روﺷﯽ ﻣﻮﺳﻮم ﺑﻪ Random Sub-samplingاﺳﺘﻔﺎده ﻧﻤﻮده اﯾﻢ .ﮐﻪ
ﻣﻬﻤﺘﺮﯾﻦ ﻋﯿﺐ اﯾﻦ روش ﻧﯿﺰ ﻋﺪم ﮐﻨﺘﺮل ﺑﺮ روي ﺗﻌﺪاد دﻓﻌﺎﺗﯽ ﮐﻪ ﯾﮏ رﮐﻮرد ﺑﻪ ﻋﻨﻮان ﻧﻤﻮﻧﻪ آﻣﻮزﺷﯽ و ﯾﺎ ﻧﻤﻮﻧﻪ آزﻣﺎﯾﺸﯽ ﻣﻮرد
اﺳﺘﻔﺎده ﻗﺮار ﻣﯽﮔﯿﺮد ،اﺳﺖ .ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ در اﯾﻦ روش ﻣﻤﮑﻦ اﺳﺖ ﺑﺮﺧﯽ رﮐﻮردﻫﺎ ﺑﯿﺶ از ﺳﺎﯾﺮﯾﻦ ﺑﺮاي ﯾﺎدﮔﯿﺮي و ﯾﺎ ارزﯾﺎﺑﯽ
ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮﻧﺪ.
ﭼﻨﺎﻧﭽﻪ در روش Random Sub-samplingﺑﻪ ﺷﮑﻞ ﻫﻮﺷﻤﻨﺪاﻧﻪﺗﺮي ﻋﻤﻞ ﮐﻨﯿﻢ ﺑﻪ ﺻﻮرﺗﯽ ﮐﻪ ﻫﺮ ﮐﺪام از رﮐﻮردﻫﺎ ﺑﻪ ﺗﻌﺪاد
ﻣﺴﺎوي ﺑﺮاي ﯾﺎدﮔﯿﺮي و ﺗﻨﻬﺎ ﯾﮑﺒﺎر ﺑﺮاي ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﺷﻮﻧﺪ ،روش ﻣﺰﺑﻮر در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺎ ﻧﺎم Cross Validationﺷﻨﺎﺧﺘﻪ
ﻣﯽﺷﻮد.
ﻫﻤﭽﻨﯿﻦ در روش ﺟﺎﻣﻊ k-Fold Cross Validationﮐﻞ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎ ﺑﻪ kﻗﺴﻤﺖ ﻣﺴﺎوي ﺗﻘﺴﯿﻢ ﻣﯽﺷﻮﻧﺪ .از k-1
ﻗﺴﻤﺖ ﺑﻪ ﻋﻨﻮان ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ اﺳﺘﻔﺎده ﻣﯽﺷﻮد و ﺑﺮاﺳﺎس آن ﻣﺪل ﺳﺎﺧﺘﻪ ﻣﯽﺷﻮد و ﺑﺎ ﯾﮏ ﻗﺴﻤﺖ ﺑﺎﻗﯽ ﻣﺎﻧﺪه
ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ اﻧﺠﺎم ﻣﯽﺷﻮد .ﻓﺮآﯾﻨﺪ ﻣﺰﺑﻮر ﺑﻪ ﺗﻌﺪاد kﻣﺮﺗﺒﻪ ﺗﮑﺮار ﺧﻮاﻫﺪ ﺷﺪ ،ﺑﻪ ﮔﻮﻧﻪ اي ﮐﻪ از ﻫﺮ ﮐﺪام از kﻗﺴﻤﺖ ﺗﻨﻬﺎ ﯾﮑﺒﺎر
ﺑﺮاي ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﺷﺪه و در ﻫﺮ ﻣﺮﺗﺒﻪ ﯾﮏ دﻗﺖ ﺑﺮاي ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه ،ﻣﺤﺎﺳﺒﻪ ﻣﯽﺷﻮد .در اﯾﻦ روش ارزﯾﺎﺑﯽ دﻗﺖ ﻧﻬﺎﯾﯽ
دﺳﺘﻪ ﺑﻨﺪ ﺑﺮاﺑﺮ ﺑﺎ ﻣﯿﺎﻧﮕﯿﻦ kدﻗﺖ ﻣﺤﺎﺳﺒﻪ ﺷﺪه ﺧﻮاﻫﺪ ﺑﻮد .ﻣﻌﻤﻮلﺗﺮﯾﻦ ﻣﻘﺪاري ﮐﻪ در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺮاي kدر ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮد
ﺑﺮاﺑﺮ ﺑﺎ 10ﻣﯽﺑﺎﺷﺪ .ﺑﺪﯾﻬﯽ اﺳﺖ ﻫﺮ ﭼﻪ ﻣﻘﺪار kﺑﺰرﮔﺘﺮ ﺷﻮد ،دﻗﺖ ﻣﺤﺎﺳﺒﻪ ﺷﺪه ﺑﺮاي دﺳﺘﻪ ﺑﻨﺪ ﻗﺎﺑﻞ اﻋﺘﻤﺎدﺗﺮ ﺑﻮده و داﻧﺶ
ﺣﺎﺻﻞ ﺷﺪه ﺟﺎﻣﻊﺗﺮ ﺧﻮاﻫﺪ ﺑﻮد و اﻟﺒﺘﻪ اﻓﺰاﯾﺶ زﻣﺎن ارزﯾﺎﺑﯽ دﺳﺘﻪ ﺑﻨﺪ ﻧﯿﺰ ﻣﻬﻤﺘﺮﯾﻦ ﻣﺸﮑﻞ آن ﻣﯽﺑﺎﺷﺪ .ﺣﺪاﮐﺜﺮ ﻣﻘﺪار kﺑﺮاﺑﺮ
ﺑﺎ ﺗﻌﺪاد رﮐﻮردﻫﺎي ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ اﺳﺖ ﮐﻪ اﯾﻦ روش ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎم Leaving One Outﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد.
در روش ﻫﺎﯾﯽ ﮐﻪ ﺗﺎﮐﻨﻮن ﺑﻪ آن اﺷﺎره ﺷﺪه ،ﻓﺮض ﺑﺮ آن اﺳﺖ ﮐﻪ ﻋﻤﻠﯿﺎت اﻧﺘﺨﺎب ﻧﻤﻮﻧﻪﻫﺎي آﻣﻮزﺷﯽ ﺑﺪون ﺟﺎﯾﮕﺬاري ﺻﻮرت
ﻣﯽﮔﯿﺮد .ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﯾﮏ رﮐﻮرد ﺗﻨﻬﺎ ﯾﮑﺒﺎر در ﯾﮏ ﻓﺮآﯾﻨﺪ آﻣﻮزﺷﯽ ﻣﻮرد ﺗﻮﺟﻪ واﻗﻊ ﻣﯽﺷﻮد .ﭼﻨﺎﻧﭽﻪ ﻫﺮ رﮐﻮرد در ﺻﻮرت
اﻧﺘﺨﺎب ﺷﺪن ﺑﺮاي ﺷﺮﮐﺖ در ﻋﻤﻠﯿﺎت ﯾﺎدﮔﯿﺮي ﻣﺪل ﺑﺘﻮاﻧﺪ ﻣﺠﺪداً ﺑﺮاي ﯾﺎدﮔﯿﺮي ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮد روش ﻣﺰﺑﻮر ﺑﺎ
ﻧﺎم Bootstrapو ﯾﺎ Bootstrap 0.632ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد) .از آﻧﺠﺎ ﮐﻪ ﻫﺮ Bootstrapﻣﻌﺎدل 0٫632ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ
اﺳﺖ(
ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ ،ﮐﻪ ﮔﺎﻫﯽ در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺎ ﻧﺎم ﻣﻌﯿﺎرﻫﺎي داﺧﻠﯽ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮﻧﺪ ،ﺑﻪ آن دﺳﺘﻪ از ﻣﻌﯿﺎرﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد
ﮐﻪ ﺗﻌﯿﯿﻦ ﮐﯿﻔﯿﺖ ﻋﻤﻠﯿﺎت ﺧﻮﺷﻪ ﺑﻨﺪي را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻃﻼﻋﺎت ﻣﻮﺟﻮد در ﻣﺠﻤﻮﻋﻪ داده ﺑﺮ ﻋﻬﺪه دارﻧﺪ .در ﻣﻘﺎﺑﻞ ،ﻣﻌﯿﺎرﻫﺎي
ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ ﺑﺎ ﻧﺎم ﻣﻌﯿﺎرﻫﺎي ﺧﺎرﺟﯽ ﻧﯿﺰ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮﻧﺪ ،ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از اﻃﻼﻋﺎﺗﯽ ﺧﺎرج از ﺣﯿﻄﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﻣﻮرد
ﺑﺮرﺳﯽ ،ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي را ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﻣﯽدﻫﻨﺪ.
از آﻧﺠﺎ ﮐﻪ ﻣﻬﻤﺘﺮﯾﻦ وﻇﯿﻔﻪ ﯾﮏ اﻟﮕﻮرﯾﺘﻢ ﺧﻮﺷﻪ ﺑﻨﺪي آن اﺳﺖ ﮐﻪ ﺑﺘﻮاﻧﺪ ﺑﻪ ﺑﻬﺘﺮﯾﻦ ﺷﮑﻞ ﻣﻤﮑﻦ ﻓﺎﺻﻠﻪ درون ﺧﻮﺷﻪ اي را ﮐﻤﯿﻨﻪ
و ﻓﺎﺻﻠﻪ ﺑﯿﻦ ﺧﻮﺷﻪ اي را ﺑﯿﺸﯿﻨﻪ ﻧﻤﺎﯾﺪ ،ﮐﻠﯿﻪ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ ﺳﻌﯽ در ﺳﻨﺠﺶ ﮐﯿﻔﯿﺖ ﻋﻤﻠﯿﺎت ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﺎ
ﺗﻮﺟﻪ ﺑﻪ دو ﻓﺎﮐﺘﻮر ﺗﺮاﮐﻢ ﺧﻮﺷﻪ اي و ﺟﺪاﺋﯽ ﺧﻮﺷﻪ اي دارﻧﺪ .ﺑﺮآورده ﺷﺪن ﻫﺪف ﮐﻤﯿﻨﻪ ﺳﺎزي درون ﺧﻮﺷﻪ اي و ﺑﯿﺸﯿﻨﻪ ﺳﺎزي
ﻣﯿﺎن ﺧﻮﺷﻪ اي ﺑﻪ ﺗﺮﺗﯿﺐ در ﮔﺮو ﺑﯿﺸﯿﻨﻪ ﻧﻤﻮدن ﺗﺮاﮐﻢ ﻫﺮ ﺧﻮﺷﻪ و ﻧﯿﺰ ﺑﯿﺸﯿﻨﻪ ﺳﺎزي ﺟﺪاﯾﯽ ﻣﯿﺎن ﺧﻮﺷﻪﻫﺎ ﻣﯽﺑﺎﺷﺪ .ﻃﯿﻒ
وﺳﯿﻌﯽ از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ وﺟﻮد دارد ﮐﻪ ﻫﻤﮕﯽ در اﺑﺘﺪا ﺗﻌﺮﯾﻔﯽ ﺑﺮاي ﻓﺎﮐﺘﻮرﻫﺎي ﺗﺮاﮐﻢ و ﺟﺪاﺋﯽ اراﺋﻪ ﻣﯽدﻫﻨﺪ
ﺳﭙﺲ ﺗﻮﺳﻂ ﺗﺎﺑﻊ (F(Cohesion, Separationﻣﺮﺗﺒﻂ ﺑﺎ ﺧﻮد ،ﺑﻪ ﺗﺮﮐﯿﺐ اﯾﻦ دو ﻓﺎﮐﺘﻮر ﻣﯽﭘﺮدازﻧﺪ .ذﮐﺮ اﯾﻦ ﻧﮑﺘﻪ ﺿﺮوري
اﺳﺖ ﮐﻪ ﻧﻤﯽﺗﻮان ﻫﯿﭻ ﮐﺪام از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺧﻮﺷﻪ ﺑﻨﺪي را ﺑﺮاي ﺗﻤﺎﻣﯽ ﮐﺎرﺑﺮدﻫﺎ ﻣﻨﺎﺳﺐ داﻧﺴﺖ.
ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ،ﺑﺎ ﻫﺪف آزﻣﺎﯾﺶ و ﻣﻘﺎﯾﺴﻪ ﻋﻤﻠﮑﺮد روشﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺣﻘﺎﯾﻖ ﻣﺮﺑﻮط
ﺑﻪ رﮐﻮردﻫﺎ ﺻﻮرت ﻣﯽﭘﺬﯾﺮد .ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﻫﻨﮕﺎﻣﯽ ﮐﻪ اﻃﻼﻋﺎﺗﯽ از ﺑﺮﭼﺴﺐ رﮐﻮردﻫﺎي ﻣﺠﻤﻮﻋﻪ داده ﻣﻮرد ﺑﺮرﺳﯽ در اﺧﺘﯿﺎر
داﺷﺘﻪ ﺑﺎﺷﯿﻢ ،ﻣﯽﺗﻮاﻧﯿﻢ از آﻧﻬﺎ در ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﻬﺮه ﺑﺮﯾﻢ .ﻻزم اﺳﺖ در ﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﺪ
در اﯾﻦ ﺑﺨﺶ از ﺑﺮﭼﺴﺐ رﮐﻮردﻫﺎ ﺗﻨﻬﺎ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﻣﯽﺷﻮد و ﻫﺮ ﮔﻮﻧﻪ ﺑﻬﺮه ﺑﺮداري از اﯾﻦ ﺑﺮﭼﺴﺐﻫﺎ در ﻣﺮﺣﻠﻪ
ﯾﺎدﮔﯿﺮي ﻣﺪل ،ﻣﻨﺠﺮ ﺑﻪ ﺗﺒﺪﯾﻞ ﺷﺪن روش ﮐﺎوش داده از ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﻪ دﺳﺘﻪ ﺑﻨﺪي ﺧﻮاﻫﺪ ﺷﺪ.
اﻧﺪازهF
ﻫﻤﺎﻧﻄﻮر ﮐﻪ دﯾﺪه ﺷﺪه ،اﺳﺘﻔﺎده از ﻣﻔﺎﻫﯿﻢ ﻣﺜﺒﺖ ﮐﺎذب ،ﻣﺜﺒﺖ ﺻﺤﯿﺢ ،ﻣﻨﻔﯽ ﮐﺎذب و ﻣﻨﻔﯽ ﺻﺤﯿﺢ در ﻣﺤﺎﺳﺒﻪ ﺷﺎﺧﺺ ارزﯾﺎﺑﯽ
ﻧﺘﺎﯾﺞ ﺧﻮﺷﻪﺑﻨﺪي اﻫﻤﯿﺖ زﯾﺎدي دارد .ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﻣﻔﺎﻫﯿﻢ ﻣﯽﺗﻮان ﺷﺎﺧﺺ رﻧﺪ را ﺑﻪ ﺻﻮرت زﯾﺮ ﻧﯿﺰ ﻣﺤﺎﺳﺒﻪ ﮐﺮد:
ﻣﺸﺎﺑﻪ ﺑﺎ روشﻫﺎي ﺑﺪون ﻧﺎﻇﺮ ﻃﯿﻒ وﺳﯿﻌﯽ از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ ﻧﯿﺰ وﺟﻮد دارد ﮐﻪ در اﯾﻦ ﻗﺴﻤﺖ ﺑﺎ اﺳﺘﻔﺎده از رواﺑﻂ
زﯾﺮ ﺑﻪ ﻣﺤﺎﺳﺒﻪ ﻣﻌﯿﺎرﻫﺎي Rand Indexو Jaccardﻣﯽ ﭘﺮدازﯾﻢ ﺑﻪ ﺗﺮﺗﯿﺐ در راﺑﻄﻪ Iو IIﻧﺤﻮه ﻣﺤﺎﺳﺒﻪ آﻧﻬﺎ ﻧﻤﺎﯾﺶ داده ﺷﺪه
اﺳﺖ:
Rand Indexرا ﻣﯿﺘﻮان ﺑﻪ ﻋﻨﻮان ﺗﻌﺪاد ﺗﺼﻤﯿﻤﺎت درﺳﺖ در ﺧﻮﺷﻪ ﺑﻨﺪي در ﻧﻈﺮ ﮔﺮﻓﺖ.
:TPﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ ،و ﻗﺮار ﮔﺮﻓﺘﻪ اﻧﺪ.
:TNﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ ﻗﺮار داده ﻣﯽﺷﺪﻧﺪ و ﺑﻪ درﺳﺘﯽ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ
ﺟﺎي داده ﺷﺪه اﻧﺪ.
:FNﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ وﻟﯽ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ ﻗﺮار داده ﺷﺪه اﻧﺪ.
:FPﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ اﺷﺎره دارد ﮐﻪ ﺑﺎﯾﺪ در ﺧﻮﺷﻪﻫﺎي ﻣﺘﻔﺎوت ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ وﻟﯽ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﮔﺮﻓﺘﻪ اﻧﺪ.
ﻣﻘﺎدﯾﺮ ﻧﺰدﯾﮏ ﺑﻪ ﻋﺪد ﯾﮏ ﻣﻌﺮف اﯾﻦ ﻫﺴﺘﻨﺪ ﮐﻪ Aو Bﻣﺴﺘﻘﻞ از ﯾﮑﺪﯾﮕﺮ ﻣﯽﺑﺎﺷﻨﺪ ،ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﻧﺸﺎن دﻫﻨﺪه ﻗﺎﻧﻮن ﺟﺬاﺑﯽ
ﻧﻤﯽﺑﺎﺷﻨﺪ .ﭼﻨﺎﻧﭽﻪ اﯾﻦ ﻣﻌﯿﺎر از ﻋﺪد ﯾﮏ ﮐﻤﺘﺮ ﺑﺎﺷﺪ ،ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ Aو Bﺑﺎ ﯾﮑﺪﯾﮕﺮ راﺑﻄﻪ ﻣﻨﻔﯽ دارﻧﺪ .ﻫﺮ ﭼﻪ
ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﯿﺸﺘﺮ از ﻋﺪد ﯾﮏ ﺑﺎﺷﺪ ،ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ Aاﻃﻼﻋﺎت ﺑﯿﺸﺘﺮي درﺑﺎره Bﻓﺮاﻫﻢ ﻣﯽﮐﻨﺪ ﮐﻪ در اﯾﻦ ﺣﺎﻟﺖ
ﺟﺬاﺑﯿﺖ ﻗﺎﻧﻮن A=>Bﺑﺎﻻﺗﺮ ارزﯾﺎﺑﯽ ﻣﯽﺷﻮد .در ﺿﻤﻦ اﯾﻦ ﻣﻌﯿﺎر ﻧﺴﺒﺖ ﺑﻪ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن ﻣﺘﻘﺎرن اﺳﺖ در واﻗﻊ اﮔﺮ
ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن را ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺟﺎﺑﺠﺎ ﮐﻨﯿﻢ ،ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺗﻐﯿﯿﺮي ﻧﻤﯽﮐﻨﺪ .از آﻧﺠﺎﺋﯽ ﮐﻪ اﯾﻦ ﻣﻌﯿﺎر ﻧﻤﯽﺗﻮاﻧﺪ ﺑﻪ ﺗﻨﻬﺎﯾﯽ
ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮد ،و ﺣﺘﻤﺎً ﺑﺎﯾﺪ در ﮐﻨﺎر ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮ ﺑﺎﺷﺪ ،ﺑﺎﯾﺪ ﻣﻘﺎدﯾﺮ آن ﺑﯿﻦ ﺑﺎزه ﺻﻔﺮ و ﯾﮏ ﻧﺮﻣﺎل ﺷﻮد.
ﺗﺮﮐﯿﺐ اﯾﻦ ﻣﻌﯿﺎر ﺑﻪ ﻫﻤﺮاه Supportو Confidenceﺟﺰو ﺑﻬﺘﺮﯾﻦ روشﻫﺎي ﮐﺎوش ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ اﺳﺖ .ﻣﺸﮑﻞ اﯾﻦ ﻣﻌﯿﺎر
ﺣﺴﺎس ﺑﻮدن ﺑﻪ ﺗﻌﺪاد ﻧﻤﻮﻧﻪﻫﺎي ﻣﺠﻤﻮﻋﻪ داده ،ﺑﻪ وﯾﮋه ﺑﺮاي ﻣﺠﻤﻮﻋﻪ ﺗﺮاﮐﻨﺶﻫﺎي ﮐﻮﭼﮏ ﻣﯽﺑﺎﺷﺪ .از اﯾﻦ رو ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي
ﺑﺮاي ﺟﺒﺮان اﯾﻦ ﻧﻘﺺ ﻣﻌﺮﻓﯽ ﺷﺪه اﻧﺪ.
ﻣﻌﯿﺎر Convictionﺑﺮﺧﯽ ﺿﻌﻒﻫﺎي ﻣﻌﯿﺎرﻫﺎي Confidenceو Liftرا ﺟﺒﺮان ﻣﯽﻧﻤﺎﯾﺪ .ﻣﺤﺪوده ﻗﺎﺑﻞ ﺗﻌﺮﯾﻒ ﺑﺮاي اﯾﻦ ﻣﻌﯿﺎر
در ﺣﻮزه 0٫5ﺗﺎ ﺑﯽ ﻧﻬﺎﯾﺖ ﻗﺮار ﻣﯽﮔﯿﺮد ﮐﻪ ﻫﺮ ﭼﻪ اﯾﻦ ﻣﻘﺪار ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ،ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ آن ﻗﺎﻧﻮن ﺟﺬابﺗﺮ ﻣﯽﺑﺎﺷﺪ.
ﺑﺮ ﺧﻼف Liftاﯾﻦ ﻣﻌﯿﺎر ﻣﺘﻘﺎرن ﻧﻤﯽﺑﺎﺷﺪ و ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي دﻻﻟﺖﻫﺎي ﻣﻨﻄﻘﯽ ﯾﻌﻨﯽ در ﺟﺎﯾﯽ ﮐﻪ Confidenceﻗﺎﻧﻮن
ﯾﮏ ﻣﯽﺑﺎﺷﺪ ﺑﺮاﺑﺮ ﺑﺎ ﺑﯽ ﻧﻬﺎﯾﺖ اﺳﺖ و ﭼﻨﺎﻧﭽﻪ Aو Bﻣﺴﺘﻘﻞ از ﻫﻢ ﺑﺎﺷﻨﺪ ،ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاﺑﺮ ﺑﺎ ﻋﺪد ﯾﮏ ﺧﻮاﻫﺪ ﺑﻮد.
ﻣﻌﯿﺎر Leverageﮐﻪ در ﺑﺮﺧﯽ ﻣﺘﻮن ﺑﺎ ﻧﺎم ) Noveltyﺟﺪﯾﺪ ﺑﻮدن( ﻧﯿﺰ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد ،داراي ﻣﻘﺪاري ﺑﯿﻦ -0٫25و +0٫25
ﻣﯽﺑﺎﺷﺪ .اﯾﺪه ﻣﺴﺘﺘﺮ در اﯾﻦ ﻣﻌﯿﺎر آن اﺳﺖ ﮐﻪ اﺧﺘﻼف ﺑﯿﻦ ﻣﯿﺰان ﻫﻢ اﺗﻔﺎﻗﯽ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن ﺑﺎ آن ﻣﻘﺪاري ﮐﻪ ﻣﻮرد
اﻧﺘﻈﺎر اﺳﺖ ﺑﻪ ﭼﻪ اﻧﺪازه ﻣﯽﺑﺎﺷﺪ.
ﻣﻌﯿﺎر Jaccardﮐﻪ داراي ﻣﻘﺪاري ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ و ﯾﮏ اﺳﺖ ،ﻋﻼوه ﺑﺮ اﯾﻨﮑﻪ ﻧﺸﺎن دﻫﻨﺪه وﺟﻮد ﻧﺪاﺷﺘﻦ اﺳﺘﻘﻼل آﻣﺎري ﻣﯿﺎن
Aو Bﻣﯽﺑﺎﺷﺪ ،درﺟﻪ ﻫﻤﭙﻮﺷﺎﻧﯽ ﻣﯿﺎن ﻧﻤﻮﻧﻪﻫﺎي ﭘﻮﺷﺶ داده ﺷﺪه ﺗﻮﺳﻂ ﻫﺮ ﮐﺪام از آﻧﻬﺎ را ﻧﯿﺰ اﻧﺪازه ﮔﯿﺮي ﻣﯽﮐﻨﺪ .ﺑﻪ ﺑﯿﺎن
دﯾﮕﺮ اﯾﻦ ﻣﻌﯿﺎر ﻓﺎﺻﻠﻪ ﺑﯿﻦ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن را ﺑﻮﺳﯿﻠﻪ ﺗﻘﺴﯿﻢ ﺗﻌﺪاد ﻧﻤﻮﻧﻪ ﻫﺎﯾﯽ ﮐﻪ ﺗﻮﺳﻂ ﻫﺮ دو ﻗﺴﻤﺖ ﭘﻮﺷﺶ داده
ﺷﺪه اﻧﺪ ﺑﺮ ﻧﻤﻮﻧﻪ ﻫﺎﯾﯽ ﮐﻪ ﺗﻮﺳﻂ ﯾﮑﯽ از آﻧﻬﺎ ﭘﻮﺷﺶ داده ﺷﺪه اﺳﺖ ،ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﺪ .ﻣﻘﺎدﯾﺮ ﺑﺎﻻي اﯾﻦ ﻣﻌﯿﺎر ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ
اﺳﺖ ﮐﻪ Aو Bﺗﻤﺎﯾﻞ دارﻧﺪ ،ﻧﻤﻮﻧﻪﻫﺎي ﻣﺸﺎﺑﻬﯽ را ﭘﻮﺷﺶ دﻫﻨﺪ .ﻻزم اﺳﺖ ﺑﻪ اﯾﻦ ﻧﮑﺘﻪ اﺷﺎره ﺷﻮد از اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي ﻓﻬﻤﯿﺪن
ﻣﯿﺰان ﻫﻤﺒﺴﺘﮕﯽ ﻣﯿﺎن ﻣﺘﻐﯿﺮﻫﺎ اﺳﺘﻔﺎده ﻣﯽﺷﻮد ﮐﻪ از آن ﻣﯽﺗﻮان ﺑﺮاي ﯾﺎﻓﺘﻦ ﻗﻮاﻧﯿﻨﯽ ﮐﻪ داراي ﻫﻤﺒﺴﺘﮕﯽ ﺑﺎﻻ وﻟﯽ Support
ﮐﻢ ﻫﺴﺘﻨﺪ ،اﺳﺘﻔﺎده ﻧﻤﻮد .ﺑﺮاي ﻧﻤﻮﻧﻪ در ﻣﺠﻤﻮﻋﻪ داده ﺳﺒﺪ ﺧﺮﯾﺪ ،ﻗﻮاﻧﯿﻦ ﻧﺎدري ﮐﻪ Supportﮐﻤﯽ دارﻧﺪ وﻟﯽ ﻫﻤﺒﺴﺘﮕﯽ
ﺑﺎﻻﯾﯽ دارﻧﺪ ،ﺗﻮﺳﻂ اﯾﻦ ﻣﻌﯿﺎر ﻣﯽﺗﻮاﻧﻨﺪ ﮐﺸﻒ ﺷﻮﻧﺪ.
ﻣﻌﯿﺎر ) Coefficient (φﻧﯿﺰ ﺑﻪ ﻣﻨﻈﻮر اﻧﺪازه ﮔﯿﺮي راﺑﻄﻪ ﻣﯿﺎن Aو Bﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﯽﮔﯿﺮد ﮐﻪ ﻣﺤﺪوده اﯾﻦ ﻣﻌﯿﺎر
ﺑﯿﻦ -1و +1ﻣﯽﺑﺎﺷﺪ.
از دﯾﮕﺮ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﮐﯿﻔﯿﺖ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ،ﻃﻮل ﻗﻮاﻧﯿﻦ ﺑﺪﺳﺖ آﻣﺪه ﻣﯽﺑﺎﺷﺪ .ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﺑﺎ ﺛﺎﺑﺖ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﻌﯿﺎرﻫﺎي
دﯾﮕﺮ ﻧﻈﯿﺮConfidence ، Supportو Liftﻗﺎﻧﻮﻧﯽ ﺑﺮﺗﺮ اﺳﺖ ﮐﻪ ﻃﻮل آن ﮐﻮﺗﺎهﺗﺮ ﺑﺎﺷﺪ ،ﺑﺪﻟﯿﻞ ﻓﻬﻢ آﺳﺎﻧﺘﺮ آن.
در ﻧﻬﺎﯾﺖ ﺑﺎ اﺳﺘﻔﺎده از ﻣﺎﺗﺮﯾﺲ واﺑﺴﺘﮕﯽ ) ،(Dependency Matrixﻣﯽﺗﻮان اﻗﺪام ﺑﻪ ﺗﻌﺮﯾﻒ ﻣﻌﯿﺎرﻫﺎي ﻣﺘﻨﻮع ارزﯾﺎﺑﯽ
روشﻫﺎي ﺗﻮﻟﯿﺪ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﭘﺮداﺧﺖ .در ﻋﻤﻞ ﻣﻌﯿﺎرﻫﺎي ﻣﺘﻌﺪدي ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﺠﻤﻮﻋﻪ ﻗﻮاﻧﯿﻦ ﺑﺪﺳﺖ آﻣﺪه وﺟﻮد دارد و
ﻻزم اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺗﺠﺎرب ﮔﺬﺷﺘﻪ در ﻣﻮرد ﻣﯿﺰان ﻣﻄﻠﻮب ﺑﻮدن آﻧﻬﺎ ﺗﺼﻤﯿﻢ ﮔﯿﺮي ﺷﻮد .ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﮐﻪ اﺑﺘﺪا ﻣﻌﯿﺎرﻫﺎي ﺑﺮﺗﺮ
در ﻣﺴﺌﻠﻪ ﻣﻮرد ﮐﺎوش ﭘﺲ از ﻣﺸﻮرت ﺑﺎ ﺧﺒﺮﮔﺎن ﺣﻮزه ﺷﻨﺎﺳﺎﺋﯽ ﺷﻮﻧﺪ ،ﭘﺲ از آن ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﺑﺪﺳﺖ آﻣﺪه از ﺣﻮزه ﮐﺎوش،
ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﮔﯿﺮﻧﺪ.
ﻓﺮض ﮐﻨﯿﺪ ﻗﺮار اﺳﺖ ﻣﺪﻟﯽ ﺑﺴﺎزﯾﻢ ﮐﻪ ﺗﻌﯿﯿﯿﻦ ﮐﻨﺪ ﯾﮏ ﺷﺨﺺ ﺧﺎص ،ﻓﻼن ﺑﯿﻤﺎري را دارد ﯾﺎ ﻧﻪ .ﯾﻌﻨﯽ اﮔﺮ ﻣﺪل ﻣﺎ ،ﯾﮏ ﺷﺨﺺ
را ﻣﺜﺒﺖ ارزﯾﺎﺑﯽ ﮐﺮد ،ﯾﻌﻨﯽ آن ﺷﺨﺺ ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد داراي آن ﺑﯿﻤﺎري ﺧﻮاﻫﺪ ﺑﻮد.از ﻃﺮﻓﯽ ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ اﯾﻦ ﺑﯿﻤﺎري ﻓﺮاﮔﯿﺮ
ﺷﺪه اﺳﺖ و ﺣﺪود ﻧﺼﻒ ﻣﺮدم ﯾﮏ ﻣﻨﻄﻘﻪ را درﮔﯿﺮ ﻧﻤﻮده اﺳﺖ.
ﻣﺪﻟﯽ ﮐﻪ ﺑﺮاي ﺗﺸﺨﯿﺺ ﺑﯿﻤﺎري ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﺸﺎﻧﻪﻫﺎ و آزﻣﺎﯾﺸﺎت ﺑﺎﻟﯿﻨﯽ ﺧﻮاﻫﯿﻢ ﺳﺎﺧﺖ ،ﺑﻪ ﻫﺮ ﻓﺮد اﺣﺘﻤﺎﻟﯽ ﺑﯿﻦ 0ﺗﺎ 1اﺧﺘﺼﺎص
ﻣﯽدﻫﺪ ﮐﻪ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ آن ،ﺑﯿﻤﺎر ﺑﻮدن ﯾﺎ ﺳﺎﻟﻢ ﺑﻮدن ﺷﺨﺺ را ﺣﺪس ﺧﻮاﻫﯿﻢ زد .اﮔﺮ ﻧﻤﻮدار ﺗﻮزﯾﻊ اﯾﻦ اﺣﺘﻤﺎل را ﺑﺮ اﺳﺎس درﺻﺪ
اﺣﺘﻤﺎل ﻣﺎ ﺑﻪ ﻋﻀﻮﯾﺖ در ﮔﺮوه ﺑﯿﻤﺎران ﯾﺎ اﻓﺮاد ﺳﺎﻟﻢ رﺳﻢ ﮐﻨﯿﻢ ﺑﻪ ﻧﻤﻮدار ﺳﺎده زﯾﺮ ﻣﯽ رﺳﯿﻢ ﮐﻪ در آن ﻧﻤﻮدار ﺳﺒﺰرﻧﮓ ،اﺣﺘﻤﺎل
ﺑﯿﻤﺎر ﺑﻮدن و ﻧﻤﻮدار ﻗﺮﻣﺰ رﻧﮓ ،اﺣﺘﻤﺎل ﺳﺎﻟﻢ ﺑﻮدن ﯾﮏ ﺷﺨﺺ را ﻧﺸﺎن ﻣﯽدﻫﺪ.
ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﺸﺨﺺ اﺳﺖ اﮔﺮ ﺧﺮوﺟﯽ ﻣﺪل ﻣﺎ زﯾﺮ ﻋﺪد 0.4ﺑﺎﺷﺪ ،ﺷﺨﺺ ﻣﻮرد ﻧﻈﺮ ﻗﻄﻌﺎ ﺳﺎﻟﻢ اﺳﺖ و اﮔﺮ ﻋﺪد ﺧﺮوﺟﯽ ﻣﺪل
ﻣﺎ ﺑﺎﻻي 0.6ﺑﺎﺷﺪ ،ﻧﺸﺎن دﻫﻨﺪه ﺑﯿﻤﺎر ﺑﻮدن ﺷﺨﺺ اﺳﺖ اﻣﺎ اﮔﺮ ﻋﺪدي ﺑﯿﻦ اﯾﻦ دو ﺗﻮﻟﯿﺪ ﺷﺪ ،ﻣﺜﻼً ﻋﺪد ، 0٫5ﺑﺎ ﻗﻄﻌﯿﺖ
ﻧﻤﯽﺗﻮاﻧﯿﻢ ﺑﯿﺎن ﮐﻨﯿﻢ ﮐﻪ ﺷﺨﺺ ﺑﺮرﺳﯽ ﺷﺪه ،ﺳﺎﻟﻢ اﺳﺖ ﯾﺎ ﻧﻪ .اﮔﺮ ﺑﯿﻦ 0٫4ﺗﺎ 0٫5ﺑﺎﺷﺪ ،اﺣﺘﻤﺎل ﺳﺎﻟﻢ ﺑﻮدن ﺷﺨﺺ ﺑﯿﺸﺘﺮ
اﺳﺖ و اﮔﺮ ﺑﯿﻦ 0٫5ﺗﺎ 0٫6ﺑﺎﺷﺪ ،اﺣﺘﻤﺎل ﺑﯿﻤﺎر ﺑﻮدن ﺷﺨﺺ ،ﻗﻮت ﻣﯽﮔﯿﺮد ﮐﻪ اﯾﻦ اﻣﺮ ،ﺑﺎﻋﺚ ﻣﯽﺷﻮد دﻗﺖ ﻣﺪل ﮐﻤﯽ ﭘﺎﯾﯿﻦ
ﺑﯿﺎﯾﺪ و ﻧﺎﺧﻮاﺳﺘﻪ ،ﻧﺘﺎﯾﺞ اﺷﺘﺒﺎﻫﯽ ﺣﺎﺻﻞ ﺷﻮد.
در ﻫﺮ ﺻﻮرت ،ﻣﺎ ﻧﯿﺎز دارﯾﻢ ﻧﻘﻄﻪ ﺑﺮﺷﯽ را ﺗﻌﯿﯿﻦ ﮐﻨﯿﻢ ﮐﻪ از آﻧﺠﺎ ﺑﻪ ﺑﺎﻻ را ﺑﯿﻤﺎر و از آﻧﺠﺎ ﺑﻪ ﭘﺎﯾﯿﻦ را ﺳﺎﻟﻢ ﻓﺮض ﮐﻨﯿﻢ.
ﺗﻌﯿﯿﻦ اﯾﻦ ﻧﻘﻄﻪ در اﯾﻦ ﻣﺜﺎل ،ﻋﺪد 0٫5و در ﻣﺜﺎﻟﻬﺎي واﻗﻌﯽ ﮐﺎﻣﻼ ﺑﺴﺘﻪ ﺑﻪ ﺷﺮاﯾﻂ ﻋﺪدي ﺑﯿﻦ 0ﺗﺎ 1ﺧﻮاﻫﺪ ﺑﻮد ،ﺑﺎﻋﺚ اﯾﺠﺎد
ﺧﻄﺎﻫﺎﯾﯽ ﻧﺎﺧﻮاﺳﺘﻪ ﺧﻮاﻫﺪ ﺷﺪ:
ﻧﺎﺣﯿﻪ زرد رﻧﮓ ﺑﯿﺎﻧﮕﺮ اﻓﺮادي اﺳﺖ ﮐﻪ اﺷﺘﺒﺎﻫﺎً ﺑﯿﻤﺎر ﺗﺸﺨﯿﺺ داده ﺧﻮاﻫﻨﺪ ﺷﺪ ) – False Positiveﻧﺎدرﺳﺖ ﻣﺜﺒﺖ( و ﻧﺎﺣﯿﻪ
ﻧﺎرﻧﺠﯽ رﻧﮓ ﻫﻢ ﮐﻪ ﺑﻪ اﺷﺘﺒﺎه ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪه اﻧﺪ )ﻧﺎدرﺳﺖ ﻣﻨﻔﯽ – (False Negative
ﻫﺮ ﭼﻪ ﻣﺪل ﻣﺎ دﻗﯿﻖﺗﺮ ﺑﺎﺷﺪ ،اﯾﻦ دو ﺧﻂ ﻗﺮﻣﺰ و ﺳﺒﺰ ﺑﺎﯾﺪ اﺷﺘﺮاك ﮐﻤﺘﺮي داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﯾﻌﻨﯽ ﺑﺘﻮاﻧﯿﻢ ﺑﺎ ﻗﻄﻌﯿﺖ ﺑﯿﺸﺘﺮي
دﺳﺘﻪﺑﻨﺪي دادهﻫﺎ را اﻧﺠﺎم دﻫﯿﻢ و ﻧﺘﯿﺠﺘﺎ ﺧﻄﺎي ﮐﻤﺘﺮي ﻫﻢ ﺗﻮﻟﯿﺪ ﺷﻮد.
اﻧﺘﺨﺎب درﺳﺖ ﻧﻘﻄﻪ ﺗﻘﺴﯿﻢ ﯾﺎ ﺗﻌﯿﯿﻦ آﺳﺘﺎﻧﻪ ﺗﻘﺴﯿﻢ در ﯾﮏ ﻣﺪل ،ﺗﺼﻤﯿﻢ ﻣﻬﻤﯽ اﺳﺖ ﭼﻮن ﺗﻐﯿﯿﺮ آن ﺑﺎﻋﺚ اﻓﺰاﯾﺶ ﯾﺎ ﮐﺎﻫﺶ
ﺧﻄﺎ ﺧﻮاﻫﺪ ﺷﺪ .ﺑﺮاي ﺳﻨﺠﺶ ﺧﻄﺎﻫﺎي ﺗﻮﻟﯿﺪ ﺷﺪه ،دو ﻣﻌﯿﺎر ) Sensitivity (Recallو Specificityرا ﺑﻪ ﺻﻮرت
زﯾﺮ ﺗﻌﺮﯾﻒ ﻣﯽ ﮐﻨﯿﻢ:
ﻣﻌﯿﺎر ﺑﺎزﺧﻮاﻧﯽ ﯾﺎ ﻫﻤﺎن )Sensitivityﺣﺴﺎﺳﯿﺖ( را ﻗﺒﻼً ﺗﺸﺮﯾﺢ ﮐﺮدهاﯾﻢ ،ﻣﻌﯿﺎري ﮐﻪ ﻧﺸﺎن ﻣﯽدﻫﺪ ﭼﻘﺪر از ﺑﯿﻤﺎران واﻗﻌﯽ
)دﺳﺘﻪ ﻣﺜﺒﺖ( را ﻧﺴﺒﺖ ﺑﻪ ﮐﻞ ﺟﺎﻣﻌﻪ ﺑﯿﻤﺎران ،ﺷﻨﺎﺳﺎﯾﯽ ﮐﺮدهاﯾﻢ .ﯾﻌﻨﯽ ﻧﺴﺒﺖ آﻧﻬﺎﯾﯽ ﮐﻪ درﺳﺖ ﺷﻨﺎﺳﺎﯾﯽ ﺷﺪهاﻧﺪ ﺑﻪ ﻣﺠﻤﻮع
ﺗﻤﺎم ﺑﯿﻤﺎران )آﻧﻬﺎﯾﯽ ﮐﻪ ﺑﻪ درﺳﺘﯽ ﺑﯿﻤﺎر ﺷﻨﺎﺧﺘﻪ ﺷﺪه اﻧﺪ +آﻧﻬﺎﯾﯽ ﮐﻪ اﺷﺘﺒﺎﻫﺎً ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ( .ﻫﺪف ﻣﺎ اﯾﻦ اﺳﺖ
ﮐﻪ ﺣﺴﺎﺳﯿﺖ ﻣﺪل ﻣﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ﯾﻌﻨﯽ ﺗﻌﺪاد ﺑﯿﺸﺘﺮي از ﺑﯿﻤﺎران را ﺷﻨﺎﺳﺎﯾﯽ ﮐﻨﺪ.
ﻣﻌﯿﺎر Specificityﻫﻤﯿﻦ ﻣﻔﻬﻮم را ﺑﺮاي اﻓﺮاد ﺳﺎﻟﻢ )ﯾﺎ دﺳﺘﻪ ﻣﻨﻔﯽ( ﻧﺸﺎن ﻣﯽدﻫﺪ ﯾﻌﻨﯽ ﭼﻨﺪ ﻧﻔﺮ از اﻓﺮاد واﻗﻌﺎ ﺳﺎﻟﻢ را از
ﮐﻞ اﻓﺮاد ﺳﺎﻟﻢ ،درﺳﺖ ﺗﺸﺨﯿﺺ دادهاﯾﻢ:
ﻣﯿﺰان اﻓﺮادي ﮐﻪ ﺑﯿﻤﺎر ﻧﯿﺴﺘﻨﺪ( درﺳﺖ ﻣﻨﻔﯽ ) – TNﺑﻪ ﮐﻞ اﻓﺮاد ﺳﺎﻟﻢ )آﻧﻬﺎﯾﯽ ﮐﻪ ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ و آﻧﻬﺎﯾﯽ ﮐﻪ
اﺷﺘﺒﺎﻫﺎً ﺑﯿﻤﺎر ﻓﺮض ﺷﺪهاﻧﺪ(Specificity ،ﻣﺪل را ﺗﺸﮑﯿﻞ ﻣﯽدﻫﺪ.
ﺣﺎل ﻣﯽﺧﻮاﻫﯿﻢ ﺑﺎ ﺗﻐﯿﯿﺮ ﺣﺪ آﺳﺘﺎﻧﻪ در دﺳﺘﻪﺑﻨﺪي ،ﺗﻐﯿﯿﺮات اﯾﻦ دو ﻣﻌﯿﺎر را ﺑﺎ ﻫﻢ ﺑﺴﻨﺠﯿﻢ .اﮔﺮ ﺣﺪ آﺳﺘﺎﻧﻪ را ﭘﺎﯾﯿﻦ ﺑﯿﺎورﯾﻢ ﻣﺜﻼ
در ﻣﺜﺎل ﻓﻮق آﻧﺮا روي 0٫4ﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ و ﺑﺎﻻﺗﺮ از آﻧﺮا ﺑﯿﻤﺎر اﻋﻼم ﮐﻨﯿﻢ ،ﻃﺒﻖ ﺷﮑﻞ ﻣﺘﻮﺟﻪ ﻣﯽﺷﻮﯾﻢ ﮐﻪ ﺗﻤﺎم ﺑﯿﻤﺎران را ﺗﺸﺨﯿﺺ
ﺧﻮاﻫﯿﻢ داد ﯾﻌﻨﯽ ﺣﺴﺎﺳﯿﺖ ﻣﺪل ﺑﺎﻻﺳﺖ اﻣﺎ ﻣﯿﺰان زﯾﺎدي از اﻓﺮاد ﺳﺎﻟﻢ را ﻫﻢ ﺑﯿﻤﺎر اﻋﻼم ﺧﻮاﻫﯿﻢ ﮐﺮد ﯾﻌﻨﯽ Specificityﻣﺎ
ﭘﺎﯾﯿﻦ ﺧﻮاﻫﺪ آﻣﺪ .ﺑﺎﻟﻌﮑﺲ اﮔﺮ ﺣﺪ آﺳﺘﺎﻧﻪ را ﺑﺎﻻ ﺑﺒﺮﯾﻢ ،ﻣﺜﻼ آﻧﺮا روي 0٫6ﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ ،ﺗﻤﺎم اﻓﺮاد ﺳﺎﻟﻢ را درﺳﺖ ﺗﺸﺨﯿﺺ
ﺧﻮاﻫﯿﻢ داد اﻣﺎ ﺑﯿﻤﺎران زﯾﺎدي را ﻫﻢ ﺑﻪ اﺷﺘﺒﺎه ،ﺳﺎﻟﻢ اﻋﻼم ﺧﻮاﻫﯿﻢ ﮐﺮد ﯾﻌﻨﯽ Specificityﻣﺪل ﺑﺎﻻ و ﺣﺴﺎﺳﯿﺖ آن ﮐﻢ
ﺧﻮاﻫﺪ ﺷﺪ .ﺑﺎ ﺗﻐﯿﯿﺮ اﯾﻦ آﺳﺘﺎﻧﻪ ﺑﻪ ﺷﮑﻞ زﯾﺮ ﺑﺮاي ﺑﯿﺎن ﻧﺴﺒﺖ ﻣﯿﺎن ﺣﺴﺎﺳﯿﺖ و Specificityﺧﻮاﻫﯿﻢ رﺳﯿﺪ:
ﺑﺮاي اﯾﻨﮑﻪ ﺑﻬﺘﺮ ﺑﺘﻮاﻧﯿﻢ از اﯾﻦ ﻧﻤﻮدار اﺳﺘﻔﺎده ﮐﻨﯿﻢ و ﻣﻘﺎدﯾﺮ ﻫﺮ دو ﻣﺤﻮر ﺑﺎ ﻫﻢ رﺷﺪ ﯾﺎ ﮐﺎﻫﺶ ﭘﯿﺪا ﮐﻨﻨﺪ ﺑﻪ
ﺟﺎي Specificityاز 1ﻣﻨﻬﺎي Specificityاﺳﺘﻔﺎده ﻣﯽﮐﻨﯿﻢ:
ﺑﺎ اﯾﻦ ﺗﺮﺗﯿﺐ ،ﻧﻤﻮداري ﺣﺎﺻﻞ ﻣﯽﺷﻮد ﮐﻪ ﺑﻪ آن ﻧﻤﻮدار ROC - Receiver Operating Characteristicsو
ﯾﺎ ﻣﻨﺤﻨﯽ ROCﻣﯽﮔﻮﯾﯿﻢ.
اﮔﺮ ﺑﺨﻮاﻫﯿﻢ دﻗﯿﻖﺗﺮ ﺑﻪ اﯾﻦ ﻧﻤﻮدار ﮐﻪ ﻣﯿﺰان ﺟﺪاﮐﻨﻨﺪﮔﯽ و دﻗﺖ ﮐﺎر ﻣﺪل ﻣﺎ را ﻧﺸﺎن ﻣﯽدﻫﺪ ،ﻧﮕﺎه ﮐﻨﯿﻢ ﻣﺘﻮﺟﻪ اﯾﻦ راﺑﻄﻪ
ﺧﻮاﻫﯿﻢ ﺷﺪ:
در ﻧﻤﻮدار ROCﻧﺮخ ﺗﻮﻟﯿﺪ دادهﻫﺎي درﺳﺖ ﯾﻌﻨﯽ، TPRﻣﺤﻮر Yرا ﻧﺸﺎن ﻣﯽدﻫﺪ و ﻧﺮخ ﺗﻮﻟﯿﺪ ﺧﻄﺎ ﺑﺮاي دادهﻫﺎي ﻣﺜﺒﺖ ﻫﻢ
)(FPRﻣﺤﻮر Xرا ﺗﺸﮑﯿﻞ ﻣﯽدﻫﺪ .ﺑﺎ اﯾﻦ ﺗﻮﺻﯿﻒ ﻧﻤﻮداري ﻣﻨﺎﺳﺐ ﺗﺮ ﺧﻮاﻫﺪ ﺑﻮد ﮐﻪ ﻣﺤﻮر Yآن ﺑﻪ ﯾﮏ ﻧﺰدﯾﮏ ﺑﺎﺷﺪ و ﻣﺤﻮر
Xآن ﯾﻌﻨﯽ ﻣﯿﺰان ﺗﻮﻟﯿﺪ ﺧﻄﺎي آن ،ﺑﻪ ﺻﻔﺮ ﻧﺰدﯾﮏ ﺑﺎﺷﺪ:
اﻣﺎ در دﻧﯿﺎي واﻗﻌﯽ ،ﻧﻤﻮدار ﻣﺎ ﺑﯿﺸﺘﺮ ﺷﺒﯿﻪ ﺷﮑﻞ زﯾﺮ ﺧﻮاﻫﺪ ﺑﻮد:
ﮐﻪ اﮔﺮ آﻧﺮا ﻧﺴﺒﺖ ﺑﻪ ﺣﺎﻟﺖ ﺗﺼﺎدﻓﯽ ﯾﻌﻨﯽ ﺣﺎﻟﺘﯽ ﮐﻪ ﮐﺎﻣﻼ ﺗﺼﺎدﻓﯽ اﺷﺨﺎص را ﺑﻪ دو دﺳﺘﻪ ﺑﯿﻤﺎر و ﺳﺎﻟﻢ ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ )ﻧﻤﻮدار
زﯾﺮ( ،ﺑﻬﺒﻮد ﻣﺪل ﮐﺎﻣﻼً ﻣﺸﺨﺺ اﺳﺖ:
ﻣﻄﻤﺌﻨﺎ اﯾﺠﺎد ﻧﻤﻮداري ﺑﻪ ﺷﮑﻞ زﯾﺮ ﻧﺸﺎن دﻫﻨﺪه ﺧﻄﺎي ﻣﺤﺮز در ﻣﺪل اﺳﺖ ﭼﻮن ﺣﺘﯽ از ﺣﺎﻟﺖ ﺗﺼﺎدﻓﯽ ﻫﻢ ﺑﺪﺗﺮ ﻋﻤﻞ ﮐﺮده
اﺳﺖ[2] :
ﺑﺎ اﻋﺪاد ﻓﻮق ﺑﺮاي ﺣﺪ آﺳﺘﺎﻧﻪ 0٫5ﺳﻪ ﻣﻌﯿﺎر ﺻﺤﺖ ،ﺑﺎزﺧﻮاﻧﯽ و F1را ﺑﻪ ﺻﻮرت زﯾﺮ ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﯿﻢ:
ﻧﺮخ ﺗﻮﻟﯿﺪ ﺧﻄﺎ و ﻧﺮخ ﺗﻮﻟﯿﺪ دادهﻫﺎي درﺳﺖ ﻫﻢ ﺑﻪ ﺻﻮرت زﯾﺮ ﻣﺤﺎﺳﺒﻪ ﻣﯽﺷﻮد:
ﺣﺎل ﺑﺎ ﻣﺤﺎﺳﺒﻪ اﯾﻦ اﻋﺪاد ﺑﺮاي ﻣﻘﺎدﯾﺮ ﻣﺨﺘﻠﻒ ﺣﺪ آﺳﺘﺎﻧﻪ ،ﺟﺪول زﯾﺮ را ﺧﻮاﻫﯿﻢ داﺷﺖ:
ﺑﻪ ﮐﻤﮏ درونﯾﺎﺑﯽ ﯾﺎ اﻓﺰاﯾﺶ ﻧﻘﺎط ،ﻣﯽﺗﻮاﻧﯿﻢ ﻧﻤﻮدار زﯾﺮ را ﺑﺮاي ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه ﺑﻪ دﺳﺖ آورﯾﻢ:
ﺑﻪ ﻫﻤﯿﻦ ﺗﺮﺗﯿﺐ ﺑﺮاي ﻣﺪلﻫﺎي ﺑﻌﺪي ﻫﻢ ﺑﺎ ﺗﻐﯿﯿﺮ ﺣﺪ آﺳﺘﺎﻧﻪ و ﻣﺤﺎﺳﺒﻪ اﻋﺪاد ﻓﻮق ،ﻧﻤﻮدار ROCﻗﺎﺑﻞ رﺳﻢ ﺧﻮاﻫﺪ ﺑﻮد[3].