0% found this document useful (0 votes)
63 views19 pages

F Score

Uploaded by

Hessam Karbasian
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
63 views19 pages

F Score

Uploaded by

Hessam Karbasian
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 19

‫روش ﻫﺎ و ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ‬

‫اﻟﮕﻮرﯾﺘﻢ ﻫﺎي ﻫﻮش ﻣﺼﻨﻮﻋﯽ‪ ،‬ﻣﺪل‬


‫ﻫﺎي داده ﮐﺎوي و ﯾﺎدﮔﯿﺮي ﻣﺎﺷﯿﻦ‬

‫ﺣﺴﺎم ﮐﺮﺑﺎﺳﯿﺎن‬
‫‪٩٨١١١١٩٠٣١‬‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬
‫ﻣﻘﺪﻣﻪ ‪٢ ..........................................................................‬‬
‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی دﺳﺘﻪ ﺑﻨﺪی ‪٢ .............................................‬‬
‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی ﺧﻮﺷﻪ ﺑﻨﺪی ‪۶ .............................................‬‬
‫اﻧﺪازه‪٧ ......................................................................... F‬‬
‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎی ﮐﺸﻒ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ‪٧ ....................................‬‬
‫ﻧﺤﻮه رﺳﻢ ﻧﻤﻮدار‪١۴ ........................................................ ROC‬‬
‫ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار)‪١۶ ................................ AUC(Area Under Curve‬‬
‫ﻣﻨﺎﺑﻊ و ﻣﺮاﺟﻊ ‪١٨ ................................................................. :‬‬
‫ﻣﻘﺪﻣﻪ‬
‫داﻧﺸﯽ ﮐﻪ در ﻣﺮﺣﻠﻪ ﯾﺎدﮔﯿﺮي ﻣﺪل ﺗﻮﻟﯿﺪ ﻣﯽ ﺷﻮد‪ ،‬ﻣﯽ ﺑﺎﯾﺴﺖ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ ﻣﻮرد ﺗﺤﻠﯿﻞ ﻗﺮار ﮔﯿﺮد ﺗﺎ ﺑﺘﻮان ارزش آن را‬
‫ﺗﻌﯿﯿﻦ ﻧﻤﻮد و در ﭘﯽ آن ﮐﺎراﺋﯽ اﻟﮕﻮرﯾﺘﻢ ﯾﺎد ﮔﯿﺮﻧﺪه ﻣﺪل را ﻧﯿﺰ ﻣﺸﺨﺺ ﮐﺮد‪ .‬اﯾﻦ ﻣﻌﯿﺎرﻫﺎ را ﻣﯽ ﺗﻮان ﻫﻢ ﺑﺮاي ﻣﺠﻤﻮﻋﻪ داده‬
‫ﻫﺎي آﻣﻮزﺷﯽ در ﻣﺮﺣﻠﻪ ﯾﺎدﮔﯿﺮي و ﻫﻢ ﺑﺮاي ﻣﺠﻤﻮﻋﻪ رﮐﻮرد ﻫﺎي آزﻣﺎﯾﺸﯽ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ ﻣﺤﺎﺳﺒﻪ ﻧﻤﻮد‪ .‬ﻫﻤﭽﻨﯿﻦ ﻻزﻣﻪ‬
‫ﻣﻮﻓﻘﯿﺖ در ﺑﻬﺮه ﻣﻨﺪي از ﻋﻠﻢ داده ﮐﺎوي ﺗﻔﺴﯿﺮ داﻧﺶ ﺗﻮﻟﯿﺪ و ارزﯾﺎﺑﯽ ﺷﺪه اﺳﺖ]‪.[1‬‬

‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي‬

‫ﺑﺮاي ﺳﺎدﮔﯽ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي‪ ،‬آﻧﻬﺎ را ﺑﺮاي ﯾﮏ ﻣﺴﺌﻠﻪ ﺑﺎ دو دﺳﺘﻪ اراﺋﻪ ﺧﻮاﻫﯿﻢ ﻧﻤﻮد‪ .‬در اﺑﺘﺪا ﺑﺎ‬
‫ﻣﻔﻬﻮم ﻣﺎﺗﺮﯾﺲ درﻫﻢ رﯾﺨﺘﮕﯽ )‪ (Classification Matrix‬آﺷﻨﺎ ﻣﯽ ﺷﻮﯾﻢ‪ .‬اﯾﻦ ﻣﺎﺗﺮﯾﺲ ﭼﮕﻮﻧﮕﯽ ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ‬
‫ﺑﻨﺪي را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﺠﻤﻮﻋﻪ داده ورودي ﺑﻪ ﺗﻔﮑﯿﮏ اﻧﻮاع دﺳﺘﻪ ﻫﺎي ﻣﺴﺎﻟﻪ دﺳﺘﻪ ﺑﻨﺪي‪ ،‬ﻧﻤﺎﯾﺶ ﻣﯽ دﻫﺪ‪.‬‬
‫ﻫﺮ ﯾﮏ از ﻋﻨﺎﺻﺮ ﻣﺎﺗﺮﯾﺲ ﺑﻪ ﺷﺮح ذﯾﻞ ﻣﯽﺑﺎﺷﺪ‪:‬‬

‫‪ :TN‬ﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﻨﻔﯽ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي ﻧﯿﺰ دﺳﺘﻪ آﻧﻬﺎ را ﺑﺪرﺳﺘﯽ ﻣﻨﻔﯽ‬
‫ﺗﺸﺨﯿﺺ داده اﺳﺖ‪.‬‬

‫‪ :TP‬ﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﺜﺒﺖ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي ﻧﯿﺰ دﺳﺘﻪ آﻧﻬﺎ را ﺑﺪرﺳﺘﯽ ﻣﺜﺒﺖ‬
‫ﺗﺸﺨﯿﺺ داده اﺳﺖ‪.‬‬

‫‪ :FP‬ﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﻨﻔﯽ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﺳﺘﻪ آﻧﻬﺎ را ﺑﻪ اﺷﺘﺒﺎه ﻣﺜﺒﺖ ﺗﺸﺨﯿﺺ‬
‫داده اﺳﺖ‪.‬‬

‫‪ :FN‬ﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد رﮐﻮردﻫﺎﯾﯽ اﺳﺖ ﮐﻪ دﺳﺘﻪ واﻗﻌﯽ آﻧﻬﺎ ﻣﺜﺒﺖ ﺑﻮده و اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﺳﺘﻪ آﻧﻬﺎ را ﺑﻪ اﺷﺘﺒﺎه ﻣﻨﻔﯽ ﺗﺸﺨﯿﺺ‬
‫داده اﺳﺖ‪.‬‬

‫ﻣﻬﻤﺘﺮﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي ﺗﻌﯿﻦ ﮐﺎراﯾﯽ ﯾﮏ اﻟﮕﻮرﯾﺘﻢ دﺳﺘﻪ ﺑﻨﺪي دﻗﺖ ﯾﺎ ﻧﺮخ دﺳﺘﻪ ﺑﻨﺪي )‪(Classification Accuracy Rate‬‬
‫اﺳﺖ ﮐﻪ اﯾﻦ ﻣﻌﯿﺎر دﻗﺖ ﮐﻞ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ را ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﺪ‪ .‬در واﻗﻊ اﯾﻦ ﻣﻌﯿﺎر ﻣﺸﻬﻮرﺗﺮﯾﻦ و ﻋﻤﻮﻣﯽﺗﺮﯾﻦ ﻣﻌﯿﺎر ﻣﺤﺎﺳﺒﻪ‬
‫ﮐﺎراﯾﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي اﺳﺖ ﮐﻪ ﻧﺸﺎن ﻣﯽدﻫﺪ‪ ،‬دﺳﺘﻪ ﺑﻨﺪ ﻃﺮاﺣﯽ ﺷﺪه ﭼﻨﺪ درﺻﺪ از ﮐﻞ ﻣﺠﻤﻮﻋﻪ رﮐﻮردﻫﺎي آزﻣﺎﯾﺸﯽ‬
‫را ﺑﺪرﺳﺘﯽ دﺳﺘﻪ ﺑﻨﺪي ﮐﺮده اﺳﺖ‪.‬‬

‫دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي ﺑﺎ اﺳﺘﻔﺎده از راﺑﻄﻪ ‪ I‬ﺑﺪﺳﺖ ﻣﯽآﯾﺪ ﮐﻪ ﺑﯿﺎن ﻣﯽﮐﻨﺪ دو ﻣﻘﺪار ‪ TP‬و ‪ TN‬ﻣﻬﻤﺘﺮﯾﻦ ﻣﻘﺎدﯾﺮي ﻫﺴﺘﻨﺪ ﮐﻪ در ﯾﮏ‬
‫ﻣﺴﺌﻠﻪ دودﺳﺘﻪ اي ﺑﺎﯾﺪ ﺑﯿﺸﯿﻨﻪ ﺷﻮﻧﺪ‪) .‬در ﻣﺴﺎﺋﻞ ﭼﻨﺪ دﺳﺘﻪ اي ﻣﻘﺎدﯾﺮ ﻗﺮار ﮔﺮﻓﺘﻪ روي ﻗﻄﺮ اﺻﻠﯽ اﯾﻦ ﻣﺎﺗﺮﯾﺲ – ﮐﻪ در ﺻﻮرت‬
‫ﮐﺴﺮ ﻣﺤﺎﺳﺒﻪ ‪ CA‬ﻗﺮار ﻣﯽﮔﯿﺮﻧﺪ – ﺑﺎﯾﺪ ﺑﯿﺸﯿﻨﻪ ﺑﺎﺷﻨﺪ‪(.‬‬

‫ﻣﻌﯿﺎر ﺧﻄﺎي دﺳﺘﻪ ﺑﻨﺪي )‪ (Error Rate‬دﻗﯿﻘﺎً ﺑﺮﻋﮑﺲ ﻣﻌﯿﺎر دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي اﺳﺖ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از راﺑﻄﻪ ‪ II‬ﺑﺪﺳﺖ ﻣﯽآﯾﺪ‪.‬‬
‫ﮐﻤﺘﺮﯾﻦ ﻣﻘﺪار آن ﺑﺮاﺑﺮ ﺻﻔﺮ اﺳﺖ زﻣﺎﻧﯽ ﮐﻪ ﺑﻬﺘﺮﯾﻦ ﮐﺎراﯾﯽ را دارﯾﻢ و ﺑﻄﻮر ﻣﺸﺎﺑﻪ ﺑﯿﺸﺘﺮﯾﻦ ﻣﻘﺪار آن ﺑﺮاﺑﺮ ﯾﮏ اﺳﺖ زﻣﺎﻧﯽ ﮐﻪ‬
‫ﮐﻤﺘﺮﯾﻦ ﮐﺎراﺋﯽ را دارﯾﻢ‪.‬‬

‫ذﮐﺮ اﯾﻦ ﻧﮑﺘﻪ ﺿﺮوري اﺳﺖ ﮐﻪ در ﻣﺴﺎﺋﻞ واﻗﻌﯽ‪ ،‬ﻣﻌﯿﺎر دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي ﺑﻪ ﻫﯿﭻ ﻋﻨﻮان ﻣﻌﯿﺎر ﻣﻨﺎﺳﺒﯽ ﺑﺮاي ارزﯾﺎﺑﯽ ﮐﺎراﯾﯽ‬
‫اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي ﻧﻤﯽﺑﺎﺷﺪ‪ ،‬ﺑﻪ اﯾﻦ دﻟﯿﻞ ﮐﻪ در راﺑﻄﻪ دﻗﺖ دﺳﺘﻪ ﺑﻨﺪي‪ ،‬ارزش رﮐﻮردﻫﺎي دﺳﺘﻪﻫﺎي ﻣﺨﺘﻠﻒ ﯾﮑﺴﺎن در‬
‫ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮﻧﺪ‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ در ﻣﺴﺎﺋﻠﯽ ﮐﻪ ﺑﺎ دﺳﺘﻪﻫﺎي ﻧﺎﻣﺘﻌﺎدل ﺳﺮوﮐﺎر دارﯾﻢ‪ ،‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ در ﻣﺴﺎﺋﻠﯽ ﮐﻪ ارزش دﺳﺘﻪ اي‬
‫در ﻣﻘﺎﯾﺴﻪ ﺑﺎ دﺳﺘﻪ دﯾﮕﺮ ﻣﺘﻔﺎوت اﺳﺖ‪ ،‬از ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي اﺳﺘﻔﺎده ﻣﯽﺷﻮد‪.‬‬

‫ﻫﻤﭽﻨﯿﻦ در ﻣﺴﺎﺋﻞ واﻗﻌﯽ ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي ﻧﻈﯿﺮ ‪ DR‬و ‪ FAR‬ﮐﻪ ﺑﻪ ﺗﺮﺗﯿﺐ از رواﺑﻂ ‪ III‬و ‪ IV‬ﺑﺪﺳﺖ ﻣﯽآﯾﻨﺪ‪ ،‬اﻫﻤﯿﺖ وﯾﮋه اي‬
‫دارﻧﺪ‪ .‬اﯾﻦ ﻣﻌﯿﺎرﻫﺎ ﮐﻪ ﺗﻮﺟﻪ ﺑﯿﺸﺘﺮي ﺑﻪ دﺳﺘﻪ ﺑﻨﺪ ﻣﺜﺒﺖ ﻧﺸﺎن ﻣﯽدﻫﻨﺪ‪ ،‬ﺗﻮاﻧﺎﯾﯽ دﺳﺘﻪ ﺑﻨﺪ را در ﺗﺸﺨﯿﺺ دﺳﺘﻪ ﻣﺜﺒﺖ و ﺑﻄﻮر‬
‫ﻣﺸﺎﺑﻪ ﺗﺎوان اﯾﻦ ﺗﻮاﻧﺎﯾﯽ ﺗﺸﺨﯿﺺ را ﺗﺒﯿﯿﻦ ﻣﯽﮐﻨﻨﺪ‪ .‬ﻣﻌﯿﺎر ‪ DR‬ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ دﻗﺖ ﺗﺸﺨﯿﺺ دﺳﺘﻪ ﻣﺜﺒﺖ ﭼﻪ ﻣﻘﺪار اﺳﺖ و‬
‫ﻣﻌﯿﺎر ‪ FAR‬ﻧﺮخ ﻫﺸﺪار ﻏﻠﻂ را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ دﺳﺘﻪ ﻣﻨﻔﯽ ﺑﯿﺎن ﻣﯽﮐﻨﺪ‪.‬‬
‫ﻣﻌﯿﺎر ﻣﻬﻢ دﯾﮕﺮي ﮐﻪ ﺑﺮاي ﺗﻌﯿﯿﻦ ﻣﯿﺰان ﮐﺎراﯾﯽ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ اﺳﺘﻔﺎده ﻣﯽ ﺷﻮد ﻣﻌﯿﺎر )‪ AUC (Area Under Curve‬اﺳﺖ‪.‬‬

‫‪ AUC‬ﻧﺸﺎن دﻫﻨﺪه ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار )‪ ROC (Receiver Operating Characteristic‬ﻣﯽﺑﺎﺷﺪ ﮐﻪ ﻫﺮ ﭼﻪ ﻣﻘﺪار اﯾﻦ ﻋﺪد‬
‫ﻣﺮﺑﻮط ﺑﻪ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﮐﺎراﯾﯽ ﻧﻬﺎﯾﯽ دﺳﺘﻪ ﺑﻨﺪ ﻣﻄﻠﻮبﺗﺮ ارزﯾﺎﺑﯽ ﻣﯽﺷﻮد‪ .‬ﻧﻤﻮدار ‪ ROC‬روﺷﯽ ﺑﺮاي ﺑﺮرﺳﯽ ﮐﺎراﯾﯽ‬
‫دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻣﯽﺑﺎﺷﺪ‪ .‬در واﻗﻊ ﻣﻨﺤﻨﯽﻫﺎي ‪ ROC‬ﻣﻨﺤﻨﯽﻫﺎي دو ﺑﻌﺪي ﻫﺴﺘﻨﺪ ﮐﻪ در آﻧﻬﺎ ‪ DR‬ﯾﺎ ﻫﻤﺎن ﻧﺮخ ﺗﺸﺨﯿﺺ ﺻﺤﯿﺢ‬
‫دﺳﺘﻪ ﻣﺜﺒﺖ )‪ (True Positive Rate – TPR‬روي ﻣﺤﻮر ‪ Y‬و ﺑﻄﻮر ﻣﺸﺎﺑﻪ ‪ FAR‬ﯾﺎ ﻫﻤﺎن ﻧﺮخ ﺗﺸﺨﯿﺺ ﻏﻠﻂ دﺳﺘﻪ ﻣﻨﻔﯽ‬
‫)‪(False Positive Rate – FPR‬روي ﻣﺤﻮر ‪ X‬رﺳﻢ ﻣﯽﺷﻮﻧﺪ‪ .‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﯾﮏ ﻣﻨﺤﻨﯽ ‪ ROC‬ﻣﺼﺎﻟﺤﻪ ﻧﺴﺒﯽ ﻣﯿﺎن ﺳﻮدﻫﺎ و‬
‫ﻫﺰﯾﻨﻪﻫﺎ را ﻧﺸﺎن ﻣﯽدﻫﺪ‪.‬‬

‫ﺑﺴﯿﺎري از دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻫﻤﺎﻧﻨﺪ روشﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ درﺧﺖ ﺗﺼﻤﯿﻢ و ﯾﺎ روشﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ ﻗﺎﻧﻮن‪ ،‬ﺑﻪ ﮔﻮﻧﻪ اي ﻃﺮاﺣﯽ ﺷﺪه اﻧﺪ‬
‫ﮐﻪ ﺗﻨﻬﺎ ﯾﮏ ﺧﺮوﺟﯽ دودوﯾﯽ )ﻣﺒﻨﯽ ﺑﺮ ﺗﻌﻠﻖ ورودي ﺑﻪ ﯾﮑﯽ از دو دﺳﺘﻪ ﻣﻤﮑﻦ( ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ‪ .‬ﺑﻪ اﯾﻦ ﻧﻮع دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﮐﻪ ﺗﻨﻬﺎ‬
‫ﯾﮏ ﺧﺮوﺟﯽ ﻣﺸﺨﺺ ﺑﺮاي ﻫﺮ ورودي ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ‪ ،‬دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﮔﺴﺴﺘﻪ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ اﯾﻦ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﺗﻨﻬﺎ ﯾﮏ ﻧﻘﻄﻪ‬
‫در ﻓﻀﺎي ‪ ROC‬ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ‪.‬‬

‫ﺑﻄﻮر ﻣﺸﺎﺑﻪ دﺳﺘﻪ ﺑﻨﺪﻫﺎي دﯾﮕﺮي ﻧﻈﯿﺮ دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ روش ﺑﯿﺰ و ﯾﺎ ﺷﺒﮑﻪﻫﺎي ﻋﺼﺒﯽ ﻧﯿﺰ وﺟﻮد دارﻧﺪ ﮐﻪ ﯾﮏ اﺣﺘﻤﺎل‬
‫و ﯾﺎ اﻣﺘﯿﺎز ﺑﺮاي ﻫﺮ ورودي ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﻨﺪ‪ ،‬ﮐﻪ اﯾﻦ ﻋﺪد ﺑﯿﺎﻧﮕﺮ درﺟﻪ ﺗﻌﻠﻖ ورودي ﺑﻪ ﯾﮑﯽ از دو دﺳﺘﻪ ﻣﻮﺟﻮد ﻣﯽﺑﺎﺷﺪ‪ .‬اﯾﻦ دﺳﺘﻪ‬
‫ﺑﻨﺪﻫﺎ ﭘﯿﻮﺳﺘﻪ ﻧﺎﻣﯿﺪه ﻣﯽﺷﻮﻧﺪ و ﺑﺪﻟﯿﻞ ﺧﺮوﺟﯽ ﺧﺎص اﯾﻦ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﯾﮏ آﺳﺘﺎﻧﻪ ﺟﻬﺖ ﺗﻌﯿﯿﻦ ﺧﺮوﺟﯽ ﻧﻬﺎﯾﯽ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬
‫ﻣﯽﺷﻮد‪.‬‬

‫ﯾﮏ ﻣﻨﺤﻨﯽ ‪ ROC‬اﺟﺎزه ﻣﻘﺎﯾﺴﻪ ﺗﺼﻮﯾﺮي ﻣﺠﻤﻮﻋﻪ اي از دﺳﺘﻪ ﺑﻨﺪي ﮐﻨﻨﺪهﻫﺎ را ﻣﯽدﻫﺪ‪ ،‬ﻫﻤﭽﻨﯿﻦ ﻧﻘﺎط ﻣﺘﻌﺪدي در ﻓﻀﺎي‬
‫‪ROC‬ﻗﺎﺑﻞ ﺗﻮﺟﻪ اﺳﺖ‪ .‬ﻧﻘﻄﻪ ﭘﺎﯾﯿﻦ ﺳﻤﺖ ﭼﭗ )‪ (0,0‬اﺳﺘﺮاﺗﮋي را ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ در ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﻣﺜﺒﺖ ﺗﻮﻟﯿﺪ ﻧﻤﯽﺷﻮد‪.‬‬
‫اﺳﺘﺮاﺗﮋي ﻣﺨﺎﻟﻒ‪ ،‬ﮐﻪ ﺑﺪون ﺷﺮط دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺜﺒﺖ ﺗﻮﻟﯿﺪ ﻣﯽﮐﻨﺪ‪ ،‬ﺑﺎ ﻧﻘﻄﻪ ﺑﺎﻻ ﺳﻤﺖ راﺳﺖ )‪ (1,1‬ﻣﺸﺨﺺ ﻣﯽﺷﻮد‪ .‬ﻧﻘﻄﻪ‬
‫)‪ (0,1‬دﺳﺘﻪ ﺑﻨﺪي ﮐﺎﻣﻞ و ﺑﯽ ﻋﯿﺐ را ﻧﻤﺎﯾﺶ ﻣﯽدﻫﺪ‪ .‬ﺑﻄﻮر ﮐﻠﯽ ﯾﮏ ﻧﻘﻄﻪ در ﻓﻀﺎي ‪ ROC‬ﺑﻬﺘﺮ از دﯾﮕﺮي اﺳﺖ اﮔﺮ در ﺷﻤﺎل‬
‫ﻏﺮﺑﯽﺗﺮ اﯾﻦ ﻓﻀﺎ ﻗﺮار ﮔﺮﻓﺘﻪ ﺑﺎﺷﺪ‪ .‬ﻫﻤﭽﻨﯿﻦ در ﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﺪ ﻣﻨﺤﻨﯽﻫﺎي ‪ ROC‬رﻓﺘﺎر ﯾﮏ دﺳﺘﻪ ﺑﻨﺪي ﮐﻨﻨﺪه را ﺑﺪون ﺗﻮﺟﻪ‬
‫ﺑﻪ ﺗﻮزﯾﻊ دﺳﺘﻪﻫﺎ ﯾﺎ ﻫﺰﯾﻨﻪ ﺧﻄﺎ ﻧﺸﺎن ﻣﯽدﻫﻨﺪ‪ ،‬ﺑﻨﺎﺑﺮاﯾﻦ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪي را از اﯾﻦ ﻋﻮاﻣﻞ ﺟﺪا ﻣﯽﮐﻨﻨﺪ‪ .‬ﻓﻘﻂ زﻣﺎﻧﯽ ﮐﻪ ﯾﮏ‬
‫دﺳﺘﻪ ﺑﻨﺪ در ﮐﻞ ﻓﻀﺎي ﮐﺎراﯾﯽ ﺑﻪ وﺿﻮح ﺑﺮ دﺳﺘﻪ دﯾﮕﺮي ﺗﺴﻠﻂ ﯾﺎﺑﺪ‪ ،‬ﻣﯽﺗﻮان ﮔﻔﺖ ﮐﻪ ﺑﻬﺘﺮ از دﯾﮕﺮي اﺳﺖ‪ .‬ﺑﻪ ﻫﻤﯿﻦ دﻟﯿﻞ‬
‫ﻣﻌﯿﺎر ‪ AUC‬ﮐﻪ ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار ‪ ROC‬را ﻧﺸﺎن ﻣﯽدﻫﺪ ﻣﯽﺗﻮاﻧﺪ ﻧﻘﺶ ﺗﻌﯿﯿﻦ ﮐﻨﻨﺪه اي در ﻣﻌﺮﻓﯽ دﺳﺘﻪ ﺑﻨﺪ ﺑﺮﺗﺮ اﯾﻔﺎ ﮐﻨﺪ‪ .‬ﺑﺮاي‬
‫درك ﺑﻬﺘﺮ ﻧﻤﻮدار ‪ ROC‬زﯾﺮ را ﻣﺸﺎﻫﺪه ﮐﻨﯿﺪ‪.‬‬

‫ﻣﻘﺪار ‪ AUC‬ﺑﺮاي ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﮐﻪ ﺑﻄﻮر ﺗﺼﺎدﻓﯽ‪ ،‬دﺳﺘﻪ ﻧﻤﻮﻧﻪ ﻣﻮرد ﺑﺮرﺳﯽ را ﺗﻌﯿﯿﻦ ﻣﯽﮐﻨﺪ ﺑﺮاﺑﺮ ‪ 0٫5‬اﺳﺖ‪ .‬ﻫﻤﭽﻨﯿﻦ ﺑﯿﺸﺘﺮﯾﻦ‬
‫ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاﺑﺮ ﯾﮏ ﺑﻮده و ﺑﺮاي وﺿﻌﯿﺘﯽ رخ ﻣﯽدﻫﺪ ﮐﻪ دﺳﺘﻪ ﺑﻨﺪ اﯾﺪه آل ﺑﻮده و ﺑﺘﻮاﻧﺪ ﮐﻠﯿﻪ ﻧﻤﻮﻧﻪﻫﺎي ﻣﺜﺒﺖ را ﺑﺪون‬
‫ﻫﺮﮔﻮﻧﻪ ﻫﺸﺪار ﻏﻠﻄﯽ ﺗﺸﺨﯿﺺ دﻫﺪ‪ .‬ﻣﻌﯿﺎر ‪ AUC‬ﺑﺮﺧﻼف دﯾﮕﺮ ﻣﻌﯿﺎرﻫﺎي ﺗﻌﯿﯿﻦ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻣﺴﺘﻘﻞ از آﺳﺘﺎﻧﻪ ﺗﺼﻤﯿﻢ‬
‫ﮔﯿﺮي دﺳﺘﻪ ﺑﻨﺪ ﻣﯽﺑﺎﺷﺪ‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ اﯾﻦ ﻣﻌﯿﺎر ﻧﺸﺎن دﻫﻨﺪه ﻣﯿﺰان ﻗﺎﺑﻞ اﻋﺘﻤﺎد ﺑﻮدن ﺧﺮوﺟﯽ ﯾﮏ دﺳﺘﻪ ﺑﻨﺪ ﻣﺸﺨﺺ ﺑﻪ ازاي‬
‫ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﻣﺘﻔﺎوت اﺳﺖ ﮐﻪ اﯾﻦ ﻣﻔﻬﻮم ﺗﻮﺳﻂ ﺳﺎﯾﺮ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﮐﺎراﯾﯽ دﺳﺘﻪ ﺑﻨﺪﻫﺎ ﻗﺎﺑﻞ ﻣﺤﺎﺳﺒﻪ ﻧﻤﯽﺑﺎﺷﺪ‪ .‬در‬
‫ﺑﺮﺧﯽ از ﻣﻮاﻗﻊ ﺳﻄﺢ زﯾﺮ ﻣﻨﺤﻨﯽﻫﺎي ‪ ROC‬ﻣﺮﺑﻮط ﺑﻪ دو دﺳﺘﻪ ﺑﻨﺪ ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺑﺮاﺑﺮ اﺳﺖ وﻟﯽ ارزش آﻧﻬﺎ ﺑﺮاي ﮐﺎرﺑﺮدﻫﺎي ﻣﺨﺘﻠﻒ‬
‫ﯾﮑﺴﺎن ﻧﯿﺴﺖ ﮐﻪ ﺑﺎﯾﺪ در ﻧﻈﺮ داﺷﺖ در اﯾﻦ ﮔﻮﻧﻪ ﻣﺴﺎﺋﻞ ﮐﻪ ارزش دﺳﺘﻪﻫﺎ ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺑﺮاﺑﺮ ﻧﯿﺴﺖ‪ ،‬اﺳﺘﻔﺎده از ﻣﻌﯿﺎر ‪ AUC‬ﻣﻄﻠﻮب‬
‫ﻧﻤﯽﺑﺎﺷﺪ‪ .‬ﺑﻪ ﻫﻤﯿﻦ دﻟﯿﻞ در اﯾﻦ ﮔﻮﻧﻪ ﻣﺴﺎﺋﻞ اﺳﺘﻔﺎده از ﻣﻌﯿﺎر دﯾﮕﺮي ﺑﻪ ﺟﺰء ﻫﺰﯾﻨﻪ )‪ (Cost Matrix‬ﻣﻨﻄﻘﯽ ﺑﻪ ﻧﻈﺮ ﻧﻤﯽرﺳﺪ‪.‬‬
‫در اﻧﺘﻬﺎ ﺑﺎﯾﺪ ﺗﻮﺟﻪ ﻧﻤﻮد در ﮐﻨﺎر ﻣﻌﯿﺎرﻫﺎي ﺑﺮرﺳﯽ ﺷﺪه ﮐﻪ ﻫﻤﮕﯽ ﺑﻪ ﻧﻮﻋﯽ دﻗﺖ دﺳﺘﻪ ﺑﻨﺪ را ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﺮدﻧﺪ‪ ،‬در دﺳﺘﻪ‬
‫ﺑﻨﺪﻫﺎي ﻗﺎﺑﻞ ﺗﻔﺴﯿﺮ ﻧﻈﯿﺮ دﺳﺘﻪ ﺑﻨﺪﻫﺎي ﻣﺒﺘﻨﯽ ﺑﺮ ﻗﺎﻧﻮن و ﯾﺎ درﺧﺖ ﺗﺼﻤﯿﻢ‪ ،‬ﭘﯿﭽﯿﺪﮔﯽ ﻧﻬﺎﯾﯽ و ﻗﺎﺑﻞ ﺗﻔﺴﯿﺮ ﺑﻮدن ﻣﺪل ﯾﺎد ﮔﺮﻓﺘﻪ‬
‫ﺷﺪه ﻧﯿﺰ از اﻫﻤﯿﺖ ﺑﺎﻻﯾﯽ ﺑﺮﺧﻮردار اﺳﺖ‪.‬‬

‫از روشﻫﺎي ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي دﺳﺘﻪ ﺑﻨﺪي )ﮐﻪ در اﯾﻦ اﻟﮕﻮرﯾﺘﻢ روال ﮐﺎري ﺑﺪﯾﻦ ﺻﻮرت اﺳﺖ ﮐﻪ ﻣﺪل دﺳﺘﻪ ﺑﻨﺪي ﺗﻮﺳﻂ‬
‫ﻣﺠﻤﻮﻋﻪ داده آﻣﻮزﺷﯽ ﺳﺎﺧﺘﻪ ﺷﺪه و ﺑﻮﺳﯿﻠﻪ ﻣﺠﻤﻮﻋﻪ داده آزﻣﺎﯾﺸﯽ ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﻣﯽﮔﯿﺮد‪ (.‬ﻣﯽﺗﻮان ﺑﻪ‬
‫روش ‪Holdout‬اﺷﺎره ﮐﺮد ﮐﻪ در اﯾﻦ روش ﭼﮕﻮﻧﮕﯽ ﻧﺴﺒﺖ ﺗﻘﺴﯿﻢ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎ )ﺑﻪ دو ﻣﺠﻤﻮﻋﻪ داده آﻣﻮزﺷﯽ و ﻣﺠﻤﻮﻋﻪ‬
‫داده آزﻣﺎﯾﺸﯽ( ﺑﺴﺘﮕﯽ ﺑﻪ ﺗﺸﺨﯿﺺ ﺗﺤﻠﯿﮕﺮ دارد ﮐﻪ ﻣﻌﻤﻮﻻً دو ﺳﻮم ﺑﺮاي آﻣﻮزش و ﯾﮏ ﺳﻮم ﺑﺮاي ارزﯾﺎﺑﯽ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮد‪.‬‬
‫ﻣﻬﻤﺘﺮﯾﻦ ﻣﺰﯾﺖ اﯾﻦ روش ﺳﺎدﮔﯽ و ﺳﺮﻋﺖ ﺑﺎﻻي ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ اﺳﺖ وﻟﯿﮑﻦ روش ‪ Holdout‬ﻣﻌﺎﯾﺐ زﯾﺎدي دارد از ﺟﻤﻠﻪ‬
‫اﯾﻨﮑﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ و آزﻣﺎﯾﺸﯽ ﺑﻪ ﯾﮑﺪﯾﮕﺮ واﺑﺴﺘﻪ ﺧﻮاﻫﻨﺪ ﺷﺪ‪ ،‬در واﻗﻊ ﺑﺨﺸﯽ از ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ ﮐﻪ ﺑﺮاي‬
‫آزﻣﺎﯾﺶ ﺟﺪا ﻣﯽﺷﻮد‪ ،‬ﺷﺎﻧﺴﯽ ﺑﺮاي ﺣﻀﻮر ﯾﺎﻓﺘﻦ در ﻣﺮﺣﻠﻪ آﻣﻮزش ﻧﺪارد و ﺑﻄﻮر ﻣﺸﺎﺑﻪ در ﺻﻮرت اﻧﺘﺨﺎب ﯾﮏ رﮐﻮرد ﺑﺮاي آﻣﻮزش‬
‫دﯾﮕﺮ ﺷﺎﻧﺴﯽ ﺑﺮاي اﺳﺘﻔﺎده از اﯾﻦ رﮐﻮرد ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه وﺟﻮد ﻧﺨﻮاﻫﺪ داﺷﺖ‪ .‬ﻫﻤﭽﻨﯿﻦ ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه ﺑﺴﺘﮕﯽ‬
‫ﻓﺮاواﻧﯽ ﺑﻪ ﭼﮕﻮﻧﮕﯽ ﺗﻘﺴﯿﻢ ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ ﺑﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ و آزﻣﺎﯾﺸﯽ دارد‪ .‬ﭼﻨﺎﻧﭽﻪ روش ‪ Holdout‬را ﭼﻨﺪﯾﻦ‬
‫ﺑﺎر اﺟﺮا ﮐﻨﯿﻢ و از ﻧﺘﺎﯾﺞ ﺣﺎﺻﻞ ﻣﯿﺎﻧﮕﯿﻦ ﮔﯿﺮي ﮐﻨﯿﻢ از روﺷﯽ ﻣﻮﺳﻮم ﺑﻪ ‪Random Sub-sampling‬اﺳﺘﻔﺎده ﻧﻤﻮده اﯾﻢ‪ .‬ﮐﻪ‬
‫ﻣﻬﻤﺘﺮﯾﻦ ﻋﯿﺐ اﯾﻦ روش ﻧﯿﺰ ﻋﺪم ﮐﻨﺘﺮل ﺑﺮ روي ﺗﻌﺪاد دﻓﻌﺎﺗﯽ ﮐﻪ ﯾﮏ رﮐﻮرد ﺑﻪ ﻋﻨﻮان ﻧﻤﻮﻧﻪ آﻣﻮزﺷﯽ و ﯾﺎ ﻧﻤﻮﻧﻪ آزﻣﺎﯾﺸﯽ ﻣﻮرد‬
‫اﺳﺘﻔﺎده ﻗﺮار ﻣﯽﮔﯿﺮد‪ ،‬اﺳﺖ‪ .‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ در اﯾﻦ روش ﻣﻤﮑﻦ اﺳﺖ ﺑﺮﺧﯽ رﮐﻮردﻫﺎ ﺑﯿﺶ از ﺳﺎﯾﺮﯾﻦ ﺑﺮاي ﯾﺎدﮔﯿﺮي و ﯾﺎ ارزﯾﺎﺑﯽ‬
‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮﻧﺪ‪.‬‬

‫ﭼﻨﺎﻧﭽﻪ در روش ‪ Random Sub-sampling‬ﺑﻪ ﺷﮑﻞ ﻫﻮﺷﻤﻨﺪاﻧﻪﺗﺮي ﻋﻤﻞ ﮐﻨﯿﻢ ﺑﻪ ﺻﻮرﺗﯽ ﮐﻪ ﻫﺮ ﮐﺪام از رﮐﻮردﻫﺎ ﺑﻪ ﺗﻌﺪاد‬
‫ﻣﺴﺎوي ﺑﺮاي ﯾﺎدﮔﯿﺮي و ﺗﻨﻬﺎ ﯾﮑﺒﺎر ﺑﺮاي ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﺷﻮﻧﺪ‪ ،‬روش ﻣﺰﺑﻮر در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺎ ﻧﺎم ‪Cross Validation‬ﺷﻨﺎﺧﺘﻪ‬
‫ﻣﯽﺷﻮد‪.‬‬
‫ﻫﻤﭽﻨﯿﻦ در روش ﺟﺎﻣﻊ ‪k-Fold Cross Validation‬ﮐﻞ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎ ﺑﻪ ‪ k‬ﻗﺴﻤﺖ ﻣﺴﺎوي ﺗﻘﺴﯿﻢ ﻣﯽﺷﻮﻧﺪ‪ .‬از ‪k-1‬‬
‫ﻗﺴﻤﺖ ﺑﻪ ﻋﻨﻮان ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزﺷﯽ اﺳﺘﻔﺎده ﻣﯽﺷﻮد و ﺑﺮاﺳﺎس آن ﻣﺪل ﺳﺎﺧﺘﻪ ﻣﯽﺷﻮد و ﺑﺎ ﯾﮏ ﻗﺴﻤﺖ ﺑﺎﻗﯽ ﻣﺎﻧﺪه‬
‫ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ اﻧﺠﺎم ﻣﯽﺷﻮد‪ .‬ﻓﺮآﯾﻨﺪ ﻣﺰﺑﻮر ﺑﻪ ﺗﻌﺪاد ‪ k‬ﻣﺮﺗﺒﻪ ﺗﮑﺮار ﺧﻮاﻫﺪ ﺷﺪ‪ ،‬ﺑﻪ ﮔﻮﻧﻪ اي ﮐﻪ از ﻫﺮ ﮐﺪام از ‪ k‬ﻗﺴﻤﺖ ﺗﻨﻬﺎ ﯾﮑﺒﺎر‬
‫ﺑﺮاي ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﺷﺪه و در ﻫﺮ ﻣﺮﺗﺒﻪ ﯾﮏ دﻗﺖ ﺑﺮاي ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه‪ ،‬ﻣﺤﺎﺳﺒﻪ ﻣﯽﺷﻮد‪ .‬در اﯾﻦ روش ارزﯾﺎﺑﯽ دﻗﺖ ﻧﻬﺎﯾﯽ‬
‫دﺳﺘﻪ ﺑﻨﺪ ﺑﺮاﺑﺮ ﺑﺎ ﻣﯿﺎﻧﮕﯿﻦ ‪ k‬دﻗﺖ ﻣﺤﺎﺳﺒﻪ ﺷﺪه ﺧﻮاﻫﺪ ﺑﻮد‪ .‬ﻣﻌﻤﻮلﺗﺮﯾﻦ ﻣﻘﺪاري ﮐﻪ در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺮاي ‪ k‬در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮد‬
‫ﺑﺮاﺑﺮ ﺑﺎ ‪ 10‬ﻣﯽﺑﺎﺷﺪ‪ .‬ﺑﺪﯾﻬﯽ اﺳﺖ ﻫﺮ ﭼﻪ ﻣﻘﺪار ‪ k‬ﺑﺰرﮔﺘﺮ ﺷﻮد‪ ،‬دﻗﺖ ﻣﺤﺎﺳﺒﻪ ﺷﺪه ﺑﺮاي دﺳﺘﻪ ﺑﻨﺪ ﻗﺎﺑﻞ اﻋﺘﻤﺎدﺗﺮ ﺑﻮده و داﻧﺶ‬
‫ﺣﺎﺻﻞ ﺷﺪه ﺟﺎﻣﻊﺗﺮ ﺧﻮاﻫﺪ ﺑﻮد و اﻟﺒﺘﻪ اﻓﺰاﯾﺶ زﻣﺎن ارزﯾﺎﺑﯽ دﺳﺘﻪ ﺑﻨﺪ ﻧﯿﺰ ﻣﻬﻤﺘﺮﯾﻦ ﻣﺸﮑﻞ آن ﻣﯽﺑﺎﺷﺪ‪ .‬ﺣﺪاﮐﺜﺮ ﻣﻘﺪار ‪ k‬ﺑﺮاﺑﺮ‬
‫ﺑﺎ ﺗﻌﺪاد رﮐﻮردﻫﺎي ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ اﺳﺖ ﮐﻪ اﯾﻦ روش ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎم ‪Leaving One Out‬ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد‪.‬‬
‫در روش ﻫﺎﯾﯽ ﮐﻪ ﺗﺎﮐﻨﻮن ﺑﻪ آن اﺷﺎره ﺷﺪه‪ ،‬ﻓﺮض ﺑﺮ آن اﺳﺖ ﮐﻪ ﻋﻤﻠﯿﺎت اﻧﺘﺨﺎب ﻧﻤﻮﻧﻪﻫﺎي آﻣﻮزﺷﯽ ﺑﺪون ﺟﺎﯾﮕﺬاري ﺻﻮرت‬
‫ﻣﯽﮔﯿﺮد‪ .‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﯾﮏ رﮐﻮرد ﺗﻨﻬﺎ ﯾﮑﺒﺎر در ﯾﮏ ﻓﺮآﯾﻨﺪ آﻣﻮزﺷﯽ ﻣﻮرد ﺗﻮﺟﻪ واﻗﻊ ﻣﯽﺷﻮد‪ .‬ﭼﻨﺎﻧﭽﻪ ﻫﺮ رﮐﻮرد در ﺻﻮرت‬
‫اﻧﺘﺨﺎب ﺷﺪن ﺑﺮاي ﺷﺮﮐﺖ در ﻋﻤﻠﯿﺎت ﯾﺎدﮔﯿﺮي ﻣﺪل ﺑﺘﻮاﻧﺪ ﻣﺠﺪداً ﺑﺮاي ﯾﺎدﮔﯿﺮي ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮد روش ﻣﺰﺑﻮر ﺑﺎ‬
‫ﻧﺎم ‪Bootstrap‬و ﯾﺎ ‪ Bootstrap 0.632‬ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد‪) .‬از آﻧﺠﺎ ﮐﻪ ﻫﺮ ‪ Bootstrap‬ﻣﻌﺎدل ‪ 0٫632‬ﻣﺠﻤﻮﻋﻪ داده اوﻟﯿﻪ‬
‫اﺳﺖ(‬

‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي‬


‫ﺑﻪ ﻣﻨﻈﻮر ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﻣﯽﺗﻮان آﻧﻬﺎ ﺑﻪ دو دﺳﺘﻪ ﺗﻘﺴﯿﻢ ﻧﻤﻮد‪:‬‬

‫ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ‪ ،‬ﮐﻪ ﮔﺎﻫﯽ در ﻣﺘﻮن ﻋﻠﻤﯽ ﺑﺎ ﻧﺎم ﻣﻌﯿﺎرﻫﺎي داﺧﻠﯽ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮﻧﺪ‪ ،‬ﺑﻪ آن دﺳﺘﻪ از ﻣﻌﯿﺎرﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد‬
‫ﮐﻪ ﺗﻌﯿﯿﻦ ﮐﯿﻔﯿﺖ ﻋﻤﻠﯿﺎت ﺧﻮﺷﻪ ﺑﻨﺪي را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻃﻼﻋﺎت ﻣﻮﺟﻮد در ﻣﺠﻤﻮﻋﻪ داده ﺑﺮ ﻋﻬﺪه دارﻧﺪ‪ .‬در ﻣﻘﺎﺑﻞ‪ ،‬ﻣﻌﯿﺎرﻫﺎي‬
‫ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ ﺑﺎ ﻧﺎم ﻣﻌﯿﺎرﻫﺎي ﺧﺎرﺟﯽ ﻧﯿﺰ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮﻧﺪ‪ ،‬ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از اﻃﻼﻋﺎﺗﯽ ﺧﺎرج از ﺣﯿﻄﻪ ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﻣﻮرد‬
‫ﺑﺮرﺳﯽ‪ ،‬ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي را ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﻣﯽدﻫﻨﺪ‪.‬‬

‫از آﻧﺠﺎ ﮐﻪ ﻣﻬﻤﺘﺮﯾﻦ وﻇﯿﻔﻪ ﯾﮏ اﻟﮕﻮرﯾﺘﻢ ﺧﻮﺷﻪ ﺑﻨﺪي آن اﺳﺖ ﮐﻪ ﺑﺘﻮاﻧﺪ ﺑﻪ ﺑﻬﺘﺮﯾﻦ ﺷﮑﻞ ﻣﻤﮑﻦ ﻓﺎﺻﻠﻪ درون ﺧﻮﺷﻪ اي را ﮐﻤﯿﻨﻪ‬
‫و ﻓﺎﺻﻠﻪ ﺑﯿﻦ ﺧﻮﺷﻪ اي را ﺑﯿﺸﯿﻨﻪ ﻧﻤﺎﯾﺪ‪ ،‬ﮐﻠﯿﻪ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ ﺳﻌﯽ در ﺳﻨﺠﺶ ﮐﯿﻔﯿﺖ ﻋﻤﻠﯿﺎت ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﺎ‬
‫ﺗﻮﺟﻪ ﺑﻪ دو ﻓﺎﮐﺘﻮر ﺗﺮاﮐﻢ ﺧﻮﺷﻪ اي و ﺟﺪاﺋﯽ ﺧﻮﺷﻪ اي دارﻧﺪ‪ .‬ﺑﺮآورده ﺷﺪن ﻫﺪف ﮐﻤﯿﻨﻪ ﺳﺎزي درون ﺧﻮﺷﻪ اي و ﺑﯿﺸﯿﻨﻪ ﺳﺎزي‬
‫ﻣﯿﺎن ﺧﻮﺷﻪ اي ﺑﻪ ﺗﺮﺗﯿﺐ در ﮔﺮو ﺑﯿﺸﯿﻨﻪ ﻧﻤﻮدن ﺗﺮاﮐﻢ ﻫﺮ ﺧﻮﺷﻪ و ﻧﯿﺰ ﺑﯿﺸﯿﻨﻪ ﺳﺎزي ﺟﺪاﯾﯽ ﻣﯿﺎن ﺧﻮﺷﻪﻫﺎ ﻣﯽﺑﺎﺷﺪ‪ .‬ﻃﯿﻒ‬
‫وﺳﯿﻌﯽ از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺪون ﻧﺎﻇﺮ وﺟﻮد دارد ﮐﻪ ﻫﻤﮕﯽ در اﺑﺘﺪا ﺗﻌﺮﯾﻔﯽ ﺑﺮاي ﻓﺎﮐﺘﻮرﻫﺎي ﺗﺮاﮐﻢ و ﺟﺪاﺋﯽ اراﺋﻪ ﻣﯽدﻫﻨﺪ‬
‫ﺳﭙﺲ ﺗﻮﺳﻂ ﺗﺎﺑﻊ ‪ (F(Cohesion, Separation‬ﻣﺮﺗﺒﻂ ﺑﺎ ﺧﻮد‪ ،‬ﺑﻪ ﺗﺮﮐﯿﺐ اﯾﻦ دو ﻓﺎﮐﺘﻮر ﻣﯽﭘﺮدازﻧﺪ‪ .‬ذﮐﺮ اﯾﻦ ﻧﮑﺘﻪ ﺿﺮوري‬
‫اﺳﺖ ﮐﻪ ﻧﻤﯽﺗﻮان ﻫﯿﭻ ﮐﺪام از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺧﻮﺷﻪ ﺑﻨﺪي را ﺑﺮاي ﺗﻤﺎﻣﯽ ﮐﺎرﺑﺮدﻫﺎ ﻣﻨﺎﺳﺐ داﻧﺴﺖ‪.‬‬

‫ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي‪ ،‬ﺑﺎ ﻫﺪف آزﻣﺎﯾﺶ و ﻣﻘﺎﯾﺴﻪ ﻋﻤﻠﮑﺮد روشﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺣﻘﺎﯾﻖ ﻣﺮﺑﻮط‬
‫ﺑﻪ رﮐﻮردﻫﺎ ﺻﻮرت ﻣﯽﭘﺬﯾﺮد‪ .‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﻫﻨﮕﺎﻣﯽ ﮐﻪ اﻃﻼﻋﺎﺗﯽ از ﺑﺮﭼﺴﺐ رﮐﻮردﻫﺎي ﻣﺠﻤﻮﻋﻪ داده ﻣﻮرد ﺑﺮرﺳﯽ در اﺧﺘﯿﺎر‬
‫داﺷﺘﻪ ﺑﺎﺷﯿﻢ‪ ،‬ﻣﯽﺗﻮاﻧﯿﻢ از آﻧﻬﺎ در ﻋﻤﻠﯿﺎت ارزﯾﺎﺑﯽ ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢﻫﺎي ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﻬﺮه ﺑﺮﯾﻢ‪ .‬ﻻزم اﺳﺖ در ﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﺪ‬
‫در اﯾﻦ ﺑﺨﺶ از ﺑﺮﭼﺴﺐ رﮐﻮردﻫﺎ ﺗﻨﻬﺎ در ﻣﺮﺣﻠﻪ ارزﯾﺎﺑﯽ اﺳﺘﻔﺎده ﻣﯽﺷﻮد و ﻫﺮ ﮔﻮﻧﻪ ﺑﻬﺮه ﺑﺮداري از اﯾﻦ ﺑﺮﭼﺴﺐﻫﺎ در ﻣﺮﺣﻠﻪ‬
‫ﯾﺎدﮔﯿﺮي ﻣﺪل‪ ،‬ﻣﻨﺠﺮ ﺑﻪ ﺗﺒﺪﯾﻞ ﺷﺪن روش ﮐﺎوش داده از ﺧﻮﺷﻪ ﺑﻨﺪي ﺑﻪ دﺳﺘﻪ ﺑﻨﺪي ﺧﻮاﻫﺪ ﺷﺪ‪.‬‬

‫اﻧﺪازه‪F‬‬
‫ﻫﻤﺎﻧﻄﻮر ﮐﻪ دﯾﺪه ﺷﺪه‪ ،‬اﺳﺘﻔﺎده از ﻣﻔﺎﻫﯿﻢ ﻣﺜﺒﺖ ﮐﺎذب‪ ،‬ﻣﺜﺒﺖ ﺻﺤﯿﺢ‪ ،‬ﻣﻨﻔﯽ ﮐﺎذب و ﻣﻨﻔﯽ ﺻﺤﯿﺢ در ﻣﺤﺎﺳﺒﻪ ﺷﺎﺧﺺ ارزﯾﺎﺑﯽ‬
‫ﻧﺘﺎﯾﺞ ﺧﻮﺷﻪﺑﻨﺪي اﻫﻤﯿﺖ زﯾﺎدي دارد‪ .‬ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﻣﻔﺎﻫﯿﻢ ﻣﯽﺗﻮان ﺷﺎﺧﺺ رﻧﺪ را ﺑﻪ ﺻﻮرت زﯾﺮ ﻧﯿﺰ ﻣﺤﺎﺳﺒﻪ ﮐﺮد‪:‬‬

‫ﻣﺸﺎﺑﻪ ﺑﺎ روشﻫﺎي ﺑﺪون ﻧﺎﻇﺮ ﻃﯿﻒ وﺳﯿﻌﯽ از ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﺑﺎ ﻧﺎﻇﺮ ﻧﯿﺰ وﺟﻮد دارد ﮐﻪ در اﯾﻦ ﻗﺴﻤﺖ ﺑﺎ اﺳﺘﻔﺎده از رواﺑﻂ‬
‫زﯾﺮ ﺑﻪ ﻣﺤﺎﺳﺒﻪ ﻣﻌﯿﺎرﻫﺎي ‪Rand Index‬و ‪Jaccard‬ﻣﯽ ﭘﺮدازﯾﻢ ﺑﻪ ﺗﺮﺗﯿﺐ در راﺑﻄﻪ ‪ I‬و ‪ II‬ﻧﺤﻮه ﻣﺤﺎﺳﺒﻪ آﻧﻬﺎ ﻧﻤﺎﯾﺶ داده ﺷﺪه‬
‫اﺳﺖ‪:‬‬

‫‪ Rand Index‬را ﻣﯿﺘﻮان ﺑﻪ ﻋﻨﻮان ﺗﻌﺪاد ﺗﺼﻤﯿﻤﺎت درﺳﺖ در ﺧﻮﺷﻪ ﺑﻨﺪي در ﻧﻈﺮ ﮔﺮﻓﺖ‪.‬‬

‫‪ :TP‬ﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ‪ ،‬و ﻗﺮار ﮔﺮﻓﺘﻪ اﻧﺪ‪.‬‬

‫‪ :TN‬ﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ ﻗﺮار داده ﻣﯽﺷﺪﻧﺪ و ﺑﻪ درﺳﺘﯽ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ‬
‫ﺟﺎي داده ﺷﺪه اﻧﺪ‪.‬‬

‫‪ :FN‬ﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ ﮔﻔﺘﻪ ﻣﯽﺷﻮد ﮐﻪ ﺑﺎﯾﺪ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ وﻟﯽ در ﺧﻮﺷﻪﻫﺎي ﺟﺪاﮔﺎﻧﻪ ﻗﺮار داده ﺷﺪه اﻧﺪ‪.‬‬

‫‪ :FP‬ﺑﻪ ﺗﻌﺪاد زوج داده ﻫﺎﯾﯽ اﺷﺎره دارد ﮐﻪ ﺑﺎﯾﺪ در ﺧﻮﺷﻪﻫﺎي ﻣﺘﻔﺎوت ﻗﺮار ﻣﯽﮔﺮﻓﺘﻨﺪ وﻟﯽ در ﯾﮏ ﺧﻮﺷﻪ ﻗﺮار ﮔﺮﻓﺘﻪ اﻧﺪ‪.‬‬

‫ارزﯾﺎﺑﯽ در اﻟﮕﻮرﯾﺘﻢﻫﺎي ﮐﺸﻒ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ‬


‫ﺑﻪ ﻣﻨﻈﻮر ارزﯾﺎﺑﯽ اﻟﮕﻮرﯾﺘﻢﻫﺎي ﮐﺸﻒ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ از آﻧﺠﺎﯾﯽ ﮐﻪ اﯾﻦ اﻟﮕﻮرﯾﺘﻢﻫﺎ ﭘﺘﺎﻧﺴﯿﻞ اﯾﻦ را دارﻧﺪ ﮐﻪ اﻟﮕﻮﻫﺎ و ﻗﻮاﻧﯿﻦ زﯾﺎدي‬
‫ﺗﻮﻟﯿﺪ ﻧﻤﺎﯾﻨﺪ‪ ،‬ﺟﻬﺖ ارزﯾﺎﺑﯽ اﯾﻦ ﻗﻮاﻧﯿﻦ ﺑﻪ ﻋﻮاﻣﻠﯽ ﻫﻤﭽﻮن ﺷﺨﺺ اﺳﺘﻔﺎده ﮐﻨﻨﺪه از ﻗﻮاﻧﯿﻦ و ﻧﯿﺰ ﺣﻮزه اي ﮐﻪ ﻣﺠﻤﻮﻋﻪ داده ﻣﻮرد‬
‫ﺑﺮرﺳﯽ ﺑﻪ آن ﺗﻌﻠﻖ دارد‪ ،‬واﺑﺴﺘﮕﯽ زﯾﺎدي ﭘﯿﺪا ﻣﯽﮐﻨﯿﻢ و ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﮐﺎر ﭘﯿﺪا ﮐﺮدن ﻗﻮاﻧﯿﻦ ﺟﺬاب‪ ،‬ﺑﻪ آﺳﺎﻧﯽ ﻣﯿﺴﺮ ﻧﯿﺴﺖ‪ .‬ﻓﺮض‬
‫ﮐﻨﯿﺪ ﻗﺎﻧﻮﻧﯽ ﺑﺎ ﻧﺎم ‪ R‬دارﯾﻢ ﮐﻪ ﺑﻪ ﺷﮑﻞ ‪A=>B‬ﻣﯽﺑﺎﺷﺪ‪ ،‬ﮐﻪ در آن ‪ A‬و ‪ B‬زﯾﺮ ﻣﺠﻤﻮﻋﻪ اي از اﺷﯿﺎء ﻣﯽﺑﺎﺷﻨﺪ‪ .‬ﭘﯿﺸﺘﺮ ﺑﻪ ﻣﻌﺮﻓﯽ‬
‫دو ﻣﻌﯿﺎر ‪ Support‬و ‪ Confidence‬ﭘﺮداﺧﺘﯿﻢ‪ .‬ﻣﯽداﻧﯿﻢ از ﻧﺴﺒﺖ ﺗﻌﺪاد ﺗﺮاﮐﻨﺶ ﻫﺎﯾﯽ ﮐﻪ در آن اﺷﯿﺎء ‪ A‬و ‪ B‬ﻫﺮ دو ﺣﻀﻮر‬
‫دارﻧﺪ‪ ،‬ﺑﻪ ﮐﻞ ﺗﻌﺪاد رﮐﻮردﻫﺎ ‪Support‬ﺑﺪﺳﺖ ﻣﯽآﯾﺪ ﮐﻪ داراي ﻣﻘﺪاري ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ و ﯾﮏ ﻣﯽﺑﺎﺷﺪ و ﻫﺮ ﭼﻪ اﯾﻦ ﻣﯿﺰان‬
‫ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ اﯾﻦ دو ﺷﯽء ﺑﯿﺸﺘﺮ ﺑﺎ ﻫﻢ در ارﺗﺒﺎط ﻫﺴﺘﻨﺪ‪ .‬ﮐﺎرﺑﺮ ﻣﯽﺗﻮاﻧﺪ ﺑﺎ ﻣﺸﺨﺺ ﮐﺮدن ﯾﮏ آﺳﺘﺎﻧﻪ ﺑﺮاي اﯾﻦ‬
‫ﻣﻌﯿﺎر‪ ،‬ﺗﻨﻬﺎ ﻗﻮاﻧﯿﻨﯽ را ﺑﺪﺳﺖ آورد ﮐﻪ ‪ Support‬آﻧﻬﺎ ﺑﯿﺸﺘﺮ از ﻣﻘﺪار آﺳﺘﺎﻧﻪ ﺑﺎﺷﺪ‪ ،‬ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﻣﯽﺗﻮان ﺑﺎ ﮐﺎﻫﺶ ﻓﻀﺎي ﺟﺴﺘﺠﻮ‪،‬‬
‫زﻣﺎن ﻻزم ﺟﻬﺖ ﭘﯿﺪا ﮐﺮدن ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ را ﮐﻤﯿﻨﻪ ﮐﺮد‪ .‬اﻟﺒﺘﻪ ﺑﺎﯾﺪ ﺑﻪ ﺿﻌﻒ اﯾﻦ روش ﻧﯿﺰ ﺗﻮﺟﻪ داﺷﺖ ﮐﻪ ﻣﻤﮑﻦ اﺳﺖ ﻗﻮاﻧﯿﻦ‬
‫ﺑﺎ ارزﺷﯽ را ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ از دﺳﺖ دﻫﯿﻢ‪ .‬در واﻗﻊ اﺳﺘﻔﺎده از اﯾﻦ ﻣﻌﯿﺎر ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﮐﺎﻓﯽ ﻧﯿﺴﺖ‪ .‬ﻣﻌﯿﺎر ‪Confidence‬ﻧﯿﺰ ﻣﻘﺪاري‬
‫ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ و ﯾﮏ ﻣﯽﺑﺎﺷﺪ‪ ،‬ﮐﻪ ﻫﺮ ﭼﻪ اﯾﻦ ﻋﺪد ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﺑﺮ ﮐﯿﻔﯿﺖ ﻗﺎﻧﻮن اﻓﺰوده ﺧﻮاﻫﺪ ﺷﺪ‪ .‬اﺳﺘﻔﺎده از اﯾﻦ ﻣﻌﯿﺎر ﺑﻪ‬
‫ﻫﻤﺮاه ‪ Support‬ﻣﮑﻤﻞ ﻣﻨﺎﺳﺒﯽ ﺑﺮاي ارزﯾﺎﺑﯽ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﺧﻮاﻫﺪ ﺑﻮد‪ .‬وﻟﯽ ﻣﺸﮑﻠﯽ ﮐﻪ ﻫﻤﭽﻨﺎن وﺟﻮد دارد اﯾﻦ اﺳﺖ ﮐﻪ‬
‫ﻧﺒﺎﺷﺪ‪.‬‬ ‫ارزﺷﻤﻨﺪ‬ ‫ﻣﺎ‬ ‫ﻧﻈﺮ‬ ‫از‬ ‫وﻟﯽ‬ ‫ﺑﺎﺷﺪ‬ ‫داﺷﺘﻪ‬ ‫وﺟﻮد‬ ‫ﺑﺎ ‪ Confidence‬ﺑﺎﻻ‬ ‫ﻗﺎﻧﻮﻧﯽ‬ ‫دارد‬ ‫اﻣﮑﺎن‬
‫از ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﻣﯽﺗﻮان ﺑﻪ ﻣﻌﯿﺎر ‪Lift‬ﮐﻪ ﺑﺎ ﻧﺎمﻫﺎي ‪ Intersect Factor‬ﯾﺎ ‪ Interestingness‬ﻧﯿﺰ ﺷﻨﺎﺧﺘﻪ‬
‫ﻣﯽﺷﻮد اﺷﺎره ﮐﺮد‪ ،‬ﮐﻪ اﯾﻦ ﻣﻌﯿﺎر ﻣﯿﺰان اﺳﺘﻘﻼل ﻣﯿﺎن اﺷﯿﺎء ‪ A‬و ‪ B‬را ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﻣﯽﺗﻮاﻧﺪ ﻣﻘﺪار ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ ﺗﺎ ﺑﯽ‬
‫ﻧﻬﺎﯾﺖ ﺑﺎﺷﺪ‪ .‬در واﻗﻊ ‪ Lift‬ﻣﯿﺰان ﻫﻢ اﺗﻔﺎﻗﯽ ﺑﯿﻦ وﯾﮋﮔﯽﻫﺎ را در ﻧﻈﺮ ﻣﯽﮔﯿﺮد و ﻣﯿﺰان رﺧﺪاد ﺗﮑﯽ ﺑﺨﺶ ﺗﺎﻟﯽ ﻗﺎﻧﻮن( ﯾﻌﻨﯽ ﺷﯽء‬
‫)‪B‬را در ﻣﺤﺎﺳﺒﺎت ﺧﻮد وارد ﻣﯽﮐﻨﺪ( ‪.‬ﺑﺮ ﺧﻼف ﻣﻌﯿﺎر)‪Confidence‬‬

‫ﻣﻘﺎدﯾﺮ ﻧﺰدﯾﮏ ﺑﻪ ﻋﺪد ﯾﮏ ﻣﻌﺮف اﯾﻦ ﻫﺴﺘﻨﺪ ﮐﻪ ‪ A‬و ‪ B‬ﻣﺴﺘﻘﻞ از ﯾﮑﺪﯾﮕﺮ ﻣﯽﺑﺎﺷﻨﺪ‪ ،‬ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﻧﺸﺎن دﻫﻨﺪه ﻗﺎﻧﻮن ﺟﺬاﺑﯽ‬
‫ﻧﻤﯽﺑﺎﺷﻨﺪ‪ .‬ﭼﻨﺎﻧﭽﻪ اﯾﻦ ﻣﻌﯿﺎر از ﻋﺪد ﯾﮏ ﮐﻤﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ ‪ A‬و ‪ B‬ﺑﺎ ﯾﮑﺪﯾﮕﺮ راﺑﻄﻪ ﻣﻨﻔﯽ دارﻧﺪ‪ .‬ﻫﺮ ﭼﻪ‬
‫ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﯿﺸﺘﺮ از ﻋﺪد ﯾﮏ ﺑﺎﺷﺪ‪ ،‬ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ ‪ A‬اﻃﻼﻋﺎت ﺑﯿﺸﺘﺮي درﺑﺎره ‪ B‬ﻓﺮاﻫﻢ ﻣﯽﮐﻨﺪ ﮐﻪ در اﯾﻦ ﺣﺎﻟﺖ‬
‫ﺟﺬاﺑﯿﺖ ﻗﺎﻧﻮن ‪ A=>B‬ﺑﺎﻻﺗﺮ ارزﯾﺎﺑﯽ ﻣﯽﺷﻮد‪ .‬در ﺿﻤﻦ اﯾﻦ ﻣﻌﯿﺎر ﻧﺴﺒﺖ ﺑﻪ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن ﻣﺘﻘﺎرن اﺳﺖ در واﻗﻊ اﮔﺮ‬
‫ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن را ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﺟﺎﺑﺠﺎ ﮐﻨﯿﻢ‪ ،‬ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺗﻐﯿﯿﺮي ﻧﻤﯽﮐﻨﺪ‪ .‬از آﻧﺠﺎﺋﯽ ﮐﻪ اﯾﻦ ﻣﻌﯿﺎر ﻧﻤﯽﺗﻮاﻧﺪ ﺑﻪ ﺗﻨﻬﺎﯾﯽ‬
‫ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﯿﺮد‪ ،‬و ﺣﺘﻤﺎً ﺑﺎﯾﺪ در ﮐﻨﺎر ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮ ﺑﺎﺷﺪ‪ ،‬ﺑﺎﯾﺪ ﻣﻘﺎدﯾﺮ آن ﺑﯿﻦ ﺑﺎزه ﺻﻔﺮ و ﯾﮏ ﻧﺮﻣﺎل ﺷﻮد‪.‬‬
‫ﺗﺮﮐﯿﺐ اﯾﻦ ﻣﻌﯿﺎر ﺑﻪ ﻫﻤﺮاه ‪ Support‬و ‪ Confidence‬ﺟﺰو ﺑﻬﺘﺮﯾﻦ روشﻫﺎي ﮐﺎوش ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ اﺳﺖ‪ .‬ﻣﺸﮑﻞ اﯾﻦ ﻣﻌﯿﺎر‬
‫ﺣﺴﺎس ﺑﻮدن ﺑﻪ ﺗﻌﺪاد ﻧﻤﻮﻧﻪﻫﺎي ﻣﺠﻤﻮﻋﻪ داده‪ ،‬ﺑﻪ وﯾﮋه ﺑﺮاي ﻣﺠﻤﻮﻋﻪ ﺗﺮاﮐﻨﺶﻫﺎي ﮐﻮﭼﮏ ﻣﯽﺑﺎﺷﺪ‪ .‬از اﯾﻦ رو ﻣﻌﯿﺎرﻫﺎي دﯾﮕﺮي‬
‫ﺑﺮاي ﺟﺒﺮان اﯾﻦ ﻧﻘﺺ ﻣﻌﺮﻓﯽ ﺷﺪه اﻧﺪ‪.‬‬

‫ﻣﻌﯿﺎر ‪Conviction‬ﺑﺮﺧﯽ ﺿﻌﻒﻫﺎي ﻣﻌﯿﺎرﻫﺎي ‪ Confidence‬و ‪ Lift‬را ﺟﺒﺮان ﻣﯽﻧﻤﺎﯾﺪ‪ .‬ﻣﺤﺪوده ﻗﺎﺑﻞ ﺗﻌﺮﯾﻒ ﺑﺮاي اﯾﻦ ﻣﻌﯿﺎر‬
‫در ﺣﻮزه ‪ 0٫5‬ﺗﺎ ﺑﯽ ﻧﻬﺎﯾﺖ ﻗﺮار ﻣﯽﮔﯿﺮد ﮐﻪ ﻫﺮ ﭼﻪ اﯾﻦ ﻣﻘﺪار ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ آن ﻗﺎﻧﻮن ﺟﺬابﺗﺮ ﻣﯽﺑﺎﺷﺪ‪.‬‬
‫ﺑﺮ ﺧﻼف ‪ Lift‬اﯾﻦ ﻣﻌﯿﺎر ﻣﺘﻘﺎرن ﻧﻤﯽﺑﺎﺷﺪ و ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي دﻻﻟﺖﻫﺎي ﻣﻨﻄﻘﯽ ﯾﻌﻨﯽ در ﺟﺎﯾﯽ ﮐﻪ ‪ Confidence‬ﻗﺎﻧﻮن‬
‫ﯾﮏ ﻣﯽﺑﺎﺷﺪ ﺑﺮاﺑﺮ ﺑﺎ ﺑﯽ ﻧﻬﺎﯾﺖ اﺳﺖ و ﭼﻨﺎﻧﭽﻪ ‪ A‬و ‪ B‬ﻣﺴﺘﻘﻞ از ﻫﻢ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاﺑﺮ ﺑﺎ ﻋﺪد ﯾﮏ ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬
‫ﻣﻌﯿﺎر ‪Leverage‬ﮐﻪ در ﺑﺮﺧﯽ ﻣﺘﻮن ﺑﺎ ﻧﺎم ‪) Novelty‬ﺟﺪﯾﺪ ﺑﻮدن( ﻧﯿﺰ ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد‪ ،‬داراي ﻣﻘﺪاري ﺑﯿﻦ ‪ -0٫25‬و ‪+0٫25‬‬
‫ﻣﯽﺑﺎﺷﺪ‪ .‬اﯾﺪه ﻣﺴﺘﺘﺮ در اﯾﻦ ﻣﻌﯿﺎر آن اﺳﺖ ﮐﻪ اﺧﺘﻼف ﺑﯿﻦ ﻣﯿﺰان ﻫﻢ اﺗﻔﺎﻗﯽ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن ﺑﺎ آن ﻣﻘﺪاري ﮐﻪ ﻣﻮرد‬
‫اﻧﺘﻈﺎر اﺳﺖ ﺑﻪ ﭼﻪ اﻧﺪازه ﻣﯽﺑﺎﺷﺪ‪.‬‬

‫ﻣﻌﯿﺎر ‪Jaccard‬ﮐﻪ داراي ﻣﻘﺪاري ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ و ﯾﮏ اﺳﺖ‪ ،‬ﻋﻼوه ﺑﺮ اﯾﻨﮑﻪ ﻧﺸﺎن دﻫﻨﺪه وﺟﻮد ﻧﺪاﺷﺘﻦ اﺳﺘﻘﻼل آﻣﺎري ﻣﯿﺎن‬
‫‪A‬و ‪ B‬ﻣﯽﺑﺎﺷﺪ‪ ،‬درﺟﻪ ﻫﻤﭙﻮﺷﺎﻧﯽ ﻣﯿﺎن ﻧﻤﻮﻧﻪﻫﺎي ﭘﻮﺷﺶ داده ﺷﺪه ﺗﻮﺳﻂ ﻫﺮ ﮐﺪام از آﻧﻬﺎ را ﻧﯿﺰ اﻧﺪازه ﮔﯿﺮي ﻣﯽﮐﻨﺪ‪ .‬ﺑﻪ ﺑﯿﺎن‬
‫دﯾﮕﺮ اﯾﻦ ﻣﻌﯿﺎر ﻓﺎﺻﻠﻪ ﺑﯿﻦ ﺳﻤﺖ ﭼﭗ و راﺳﺖ ﻗﺎﻧﻮن را ﺑﻮﺳﯿﻠﻪ ﺗﻘﺴﯿﻢ ﺗﻌﺪاد ﻧﻤﻮﻧﻪ ﻫﺎﯾﯽ ﮐﻪ ﺗﻮﺳﻂ ﻫﺮ دو ﻗﺴﻤﺖ ﭘﻮﺷﺶ داده‬
‫ﺷﺪه اﻧﺪ ﺑﺮ ﻧﻤﻮﻧﻪ ﻫﺎﯾﯽ ﮐﻪ ﺗﻮﺳﻂ ﯾﮑﯽ از آﻧﻬﺎ ﭘﻮﺷﺶ داده ﺷﺪه اﺳﺖ‪ ،‬ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﺪ‪ .‬ﻣﻘﺎدﯾﺮ ﺑﺎﻻي اﯾﻦ ﻣﻌﯿﺎر ﻧﺸﺎن دﻫﻨﺪه اﯾﻦ‬
‫اﺳﺖ ﮐﻪ ‪ A‬و ‪ B‬ﺗﻤﺎﯾﻞ دارﻧﺪ‪ ،‬ﻧﻤﻮﻧﻪﻫﺎي ﻣﺸﺎﺑﻬﯽ را ﭘﻮﺷﺶ دﻫﻨﺪ‪ .‬ﻻزم اﺳﺖ ﺑﻪ اﯾﻦ ﻧﮑﺘﻪ اﺷﺎره ﺷﻮد از اﯾﻦ ﻣﻌﯿﺎر ﺑﺮاي ﻓﻬﻤﯿﺪن‬
‫ﻣﯿﺰان ﻫﻤﺒﺴﺘﮕﯽ ﻣﯿﺎن ﻣﺘﻐﯿﺮﻫﺎ اﺳﺘﻔﺎده ﻣﯽﺷﻮد ﮐﻪ از آن ﻣﯽﺗﻮان ﺑﺮاي ﯾﺎﻓﺘﻦ ﻗﻮاﻧﯿﻨﯽ ﮐﻪ داراي ﻫﻤﺒﺴﺘﮕﯽ ﺑﺎﻻ وﻟﯽ ‪Support‬‬
‫ﮐﻢ ﻫﺴﺘﻨﺪ‪ ،‬اﺳﺘﻔﺎده ﻧﻤﻮد‪ .‬ﺑﺮاي ﻧﻤﻮﻧﻪ در ﻣﺠﻤﻮﻋﻪ داده ﺳﺒﺪ ﺧﺮﯾﺪ‪ ،‬ﻗﻮاﻧﯿﻦ ﻧﺎدري ﮐﻪ ‪ Support‬ﮐﻤﯽ دارﻧﺪ وﻟﯽ ﻫﻤﺒﺴﺘﮕﯽ‬
‫ﺑﺎﻻﯾﯽ دارﻧﺪ‪ ،‬ﺗﻮﺳﻂ اﯾﻦ ﻣﻌﯿﺎر ﻣﯽﺗﻮاﻧﻨﺪ ﮐﺸﻒ ﺷﻮﻧﺪ‪.‬‬

‫ﻣﻌﯿﺎر )‪ Coefficient (φ‬ﻧﯿﺰ ﺑﻪ ﻣﻨﻈﻮر اﻧﺪازه ﮔﯿﺮي راﺑﻄﻪ ﻣﯿﺎن ‪ A‬و ‪ B‬ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﯽﮔﯿﺮد ﮐﻪ ﻣﺤﺪوده اﯾﻦ ﻣﻌﯿﺎر‬
‫ﺑﯿﻦ ‪ -1‬و ‪ +1‬ﻣﯽﺑﺎﺷﺪ‪.‬‬

‫از دﯾﮕﺮ ﻣﻌﯿﺎرﻫﺎي ارزﯾﺎﺑﯽ ﮐﯿﻔﯿﺖ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ‪ ،‬ﻃﻮل ﻗﻮاﻧﯿﻦ ﺑﺪﺳﺖ آﻣﺪه ﻣﯽﺑﺎﺷﺪ‪ .‬ﺑﻪ ﺑﯿﺎن دﯾﮕﺮ ﺑﺎ ﺛﺎﺑﺖ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﻌﯿﺎرﻫﺎي‬
‫دﯾﮕﺮ ﻧﻈﯿﺮ‪Confidence ، Support‬و ‪ Lift‬ﻗﺎﻧﻮﻧﯽ ﺑﺮﺗﺮ اﺳﺖ ﮐﻪ ﻃﻮل آن ﮐﻮﺗﺎهﺗﺮ ﺑﺎﺷﺪ‪ ،‬ﺑﺪﻟﯿﻞ ﻓﻬﻢ آﺳﺎﻧﺘﺮ آن‪.‬‬
‫در ﻧﻬﺎﯾﺖ ﺑﺎ اﺳﺘﻔﺎده از ﻣﺎﺗﺮﯾﺲ واﺑﺴﺘﮕﯽ )‪ ،(Dependency Matrix‬ﻣﯽﺗﻮان اﻗﺪام ﺑﻪ ﺗﻌﺮﯾﻒ ﻣﻌﯿﺎرﻫﺎي ﻣﺘﻨﻮع ارزﯾﺎﺑﯽ‬
‫روشﻫﺎي ﺗﻮﻟﯿﺪ ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﭘﺮداﺧﺖ‪ .‬در ﻋﻤﻞ ﻣﻌﯿﺎرﻫﺎي ﻣﺘﻌﺪدي ﺑﺮاي ارزﯾﺎﺑﯽ ﻣﺠﻤﻮﻋﻪ ﻗﻮاﻧﯿﻦ ﺑﺪﺳﺖ آﻣﺪه وﺟﻮد دارد و‬
‫ﻻزم اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺗﺠﺎرب ﮔﺬﺷﺘﻪ در ﻣﻮرد ﻣﯿﺰان ﻣﻄﻠﻮب ﺑﻮدن آﻧﻬﺎ ﺗﺼﻤﯿﻢ ﮔﯿﺮي ﺷﻮد‪ .‬ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﮐﻪ اﺑﺘﺪا ﻣﻌﯿﺎرﻫﺎي ﺑﺮﺗﺮ‬
‫در ﻣﺴﺌﻠﻪ ﻣﻮرد ﮐﺎوش ﭘﺲ از ﻣﺸﻮرت ﺑﺎ ﺧﺒﺮﮔﺎن ﺣﻮزه ﺷﻨﺎﺳﺎﺋﯽ ﺷﻮﻧﺪ‪ ،‬ﭘﺲ از آن ﻗﻮاﻧﯿﻦ اﻧﺠﻤﻨﯽ ﺑﺪﺳﺖ آﻣﺪه از ﺣﻮزه ﮐﺎوش‪،‬‬
‫ﻣﻮرد ارزﯾﺎﺑﯽ ﻗﺮار ﮔﯿﺮﻧﺪ‪.‬‬

‫ﻓﺮض ﮐﻨﯿﺪ ﻗﺮار اﺳﺖ ﻣﺪﻟﯽ ﺑﺴﺎزﯾﻢ ﮐﻪ ﺗﻌﯿﯿﯿﻦ ﮐﻨﺪ ﯾﮏ ﺷﺨﺺ ﺧﺎص‪ ،‬ﻓﻼن ﺑﯿﻤﺎري را دارد ﯾﺎ ﻧﻪ‪ .‬ﯾﻌﻨﯽ اﮔﺮ ﻣﺪل ﻣﺎ‪ ،‬ﯾﮏ ﺷﺨﺺ‬
‫را ﻣﺜﺒﺖ ارزﯾﺎﺑﯽ ﮐﺮد‪ ،‬ﯾﻌﻨﯽ آن ﺷﺨﺺ ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد داراي آن ﺑﯿﻤﺎري ﺧﻮاﻫﺪ ﺑﻮد‪.‬از ﻃﺮﻓﯽ ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ اﯾﻦ ﺑﯿﻤﺎري ﻓﺮاﮔﯿﺮ‬
‫ﺷﺪه اﺳﺖ و ﺣﺪود ﻧﺼﻒ ﻣﺮدم ﯾﮏ ﻣﻨﻄﻘﻪ را درﮔﯿﺮ ﻧﻤﻮده اﺳﺖ‪.‬‬

‫ﻣﺪﻟﯽ ﮐﻪ ﺑﺮاي ﺗﺸﺨﯿﺺ ﺑﯿﻤﺎري ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﺸﺎﻧﻪﻫﺎ و آزﻣﺎﯾﺸﺎت ﺑﺎﻟﯿﻨﯽ ﺧﻮاﻫﯿﻢ ﺳﺎﺧﺖ‪ ،‬ﺑﻪ ﻫﺮ ﻓﺮد اﺣﺘﻤﺎﻟﯽ ﺑﯿﻦ ‪ 0‬ﺗﺎ ‪ 1‬اﺧﺘﺼﺎص‬
‫ﻣﯽدﻫﺪ ﮐﻪ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ آن‪ ،‬ﺑﯿﻤﺎر ﺑﻮدن ﯾﺎ ﺳﺎﻟﻢ ﺑﻮدن ﺷﺨﺺ را ﺣﺪس ﺧﻮاﻫﯿﻢ زد‪ .‬اﮔﺮ ﻧﻤﻮدار ﺗﻮزﯾﻊ اﯾﻦ اﺣﺘﻤﺎل را ﺑﺮ اﺳﺎس درﺻﺪ‬
‫اﺣﺘﻤﺎل ﻣﺎ ﺑﻪ ﻋﻀﻮﯾﺖ در ﮔﺮوه ﺑﯿﻤﺎران ﯾﺎ اﻓﺮاد ﺳﺎﻟﻢ رﺳﻢ ﮐﻨﯿﻢ ﺑﻪ ﻧﻤﻮدار ﺳﺎده زﯾﺮ ﻣﯽ رﺳﯿﻢ ﮐﻪ در آن ﻧﻤﻮدار ﺳﺒﺰرﻧﮓ‪ ،‬اﺣﺘﻤﺎل‬
‫ﺑﯿﻤﺎر ﺑﻮدن و ﻧﻤﻮدار ﻗﺮﻣﺰ رﻧﮓ‪ ،‬اﺣﺘﻤﺎل ﺳﺎﻟﻢ ﺑﻮدن ﯾﮏ ﺷﺨﺺ را ﻧﺸﺎن ﻣﯽدﻫﺪ‪.‬‬

‫ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﺸﺨﺺ اﺳﺖ اﮔﺮ ﺧﺮوﺟﯽ ﻣﺪل ﻣﺎ زﯾﺮ ﻋﺪد ‪ 0.4‬ﺑﺎﺷﺪ‪ ،‬ﺷﺨﺺ ﻣﻮرد ﻧﻈﺮ ﻗﻄﻌﺎ ﺳﺎﻟﻢ اﺳﺖ و اﮔﺮ ﻋﺪد ﺧﺮوﺟﯽ ﻣﺪل‬
‫ﻣﺎ ﺑﺎﻻي ‪ 0.6‬ﺑﺎﺷﺪ‪ ،‬ﻧﺸﺎن دﻫﻨﺪه ﺑﯿﻤﺎر ﺑﻮدن ﺷﺨﺺ اﺳﺖ اﻣﺎ اﮔﺮ ﻋﺪدي ﺑﯿﻦ اﯾﻦ دو ﺗﻮﻟﯿﺪ ﺷﺪ‪ ،‬ﻣﺜﻼً ﻋﺪد ‪ ، 0٫5‬ﺑﺎ ﻗﻄﻌﯿﺖ‬
‫ﻧﻤﯽﺗﻮاﻧﯿﻢ ﺑﯿﺎن ﮐﻨﯿﻢ ﮐﻪ ﺷﺨﺺ ﺑﺮرﺳﯽ ﺷﺪه‪ ،‬ﺳﺎﻟﻢ اﺳﺖ ﯾﺎ ﻧﻪ‪ .‬اﮔﺮ ﺑﯿﻦ ‪ 0٫4‬ﺗﺎ ‪ 0٫5‬ﺑﺎﺷﺪ‪ ،‬اﺣﺘﻤﺎل ﺳﺎﻟﻢ ﺑﻮدن ﺷﺨﺺ ﺑﯿﺸﺘﺮ‬
‫اﺳﺖ و اﮔﺮ ﺑﯿﻦ ‪ 0٫5‬ﺗﺎ ‪ 0٫6‬ﺑﺎﺷﺪ‪ ،‬اﺣﺘﻤﺎل ﺑﯿﻤﺎر ﺑﻮدن ﺷﺨﺺ ‪،‬ﻗﻮت ﻣﯽﮔﯿﺮد ﮐﻪ اﯾﻦ اﻣﺮ‪ ،‬ﺑﺎﻋﺚ ﻣﯽﺷﻮد دﻗﺖ ﻣﺪل ﮐﻤﯽ ﭘﺎﯾﯿﻦ‬
‫ﺑﯿﺎﯾﺪ و ﻧﺎﺧﻮاﺳﺘﻪ‪ ،‬ﻧﺘﺎﯾﺞ اﺷﺘﺒﺎﻫﯽ ﺣﺎﺻﻞ ﺷﻮد‪.‬‬

‫در ﻫﺮ ﺻﻮرت‪ ،‬ﻣﺎ ﻧﯿﺎز دارﯾﻢ ﻧﻘﻄﻪ ﺑﺮﺷﯽ را ﺗﻌﯿﯿﻦ ﮐﻨﯿﻢ ﮐﻪ از آﻧﺠﺎ ﺑﻪ ﺑﺎﻻ را ﺑﯿﻤﺎر و از آﻧﺠﺎ ﺑﻪ ﭘﺎﯾﯿﻦ را ﺳﺎﻟﻢ ﻓﺮض ﮐﻨﯿﻢ‪.‬‬
‫ﺗﻌﯿﯿﻦ اﯾﻦ ﻧﻘﻄﻪ در اﯾﻦ ﻣﺜﺎل‪ ،‬ﻋﺪد ‪ 0٫5‬و در ﻣﺜﺎﻟﻬﺎي واﻗﻌﯽ ﮐﺎﻣﻼ ﺑﺴﺘﻪ ﺑﻪ ﺷﺮاﯾﻂ ﻋﺪدي ﺑﯿﻦ ‪ 0‬ﺗﺎ ‪ 1‬ﺧﻮاﻫﺪ ﺑﻮد‪ ،‬ﺑﺎﻋﺚ اﯾﺠﺎد‬
‫ﺧﻄﺎﻫﺎﯾﯽ ﻧﺎﺧﻮاﺳﺘﻪ ﺧﻮاﻫﺪ ﺷﺪ‪:‬‬

‫ﻧﺎﺣﯿﻪ زرد رﻧﮓ ﺑﯿﺎﻧﮕﺮ اﻓﺮادي اﺳﺖ ﮐﻪ اﺷﺘﺒﺎﻫﺎً ﺑﯿﻤﺎر ﺗﺸﺨﯿﺺ داده ﺧﻮاﻫﻨﺪ ﺷﺪ )‪ – False Positive‬ﻧﺎدرﺳﺖ ﻣﺜﺒﺖ( و ﻧﺎﺣﯿﻪ‬
‫ﻧﺎرﻧﺠﯽ رﻧﮓ ﻫﻢ ﮐﻪ ﺑﻪ اﺷﺘﺒﺎه ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪه اﻧﺪ )ﻧﺎدرﺳﺖ ﻣﻨﻔﯽ – ‪(False Negative‬‬

‫ﻫﺮ ﭼﻪ ﻣﺪل ﻣﺎ دﻗﯿﻖﺗﺮ ﺑﺎﺷﺪ‪ ،‬اﯾﻦ دو ﺧﻂ ﻗﺮﻣﺰ و ﺳﺒﺰ ﺑﺎﯾﺪ اﺷﺘﺮاك ﮐﻤﺘﺮي داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﯾﻌﻨﯽ ﺑﺘﻮاﻧﯿﻢ ﺑﺎ ﻗﻄﻌﯿﺖ ﺑﯿﺸﺘﺮي‬
‫دﺳﺘﻪﺑﻨﺪي دادهﻫﺎ را اﻧﺠﺎم دﻫﯿﻢ و ﻧﺘﯿﺠﺘﺎ ﺧﻄﺎي ﮐﻤﺘﺮي ﻫﻢ ﺗﻮﻟﯿﺪ ﺷﻮد‪.‬‬

‫اﻧﺘﺨﺎب درﺳﺖ ﻧﻘﻄﻪ ﺗﻘﺴﯿﻢ ﯾﺎ ﺗﻌﯿﯿﻦ آﺳﺘﺎﻧﻪ ﺗﻘﺴﯿﻢ در ﯾﮏ ﻣﺪل‪ ،‬ﺗﺼﻤﯿﻢ ﻣﻬﻤﯽ اﺳﺖ ﭼﻮن ﺗﻐﯿﯿﺮ آن ﺑﺎﻋﺚ اﻓﺰاﯾﺶ ﯾﺎ ﮐﺎﻫﺶ‬
‫ﺧﻄﺎ ﺧﻮاﻫﺪ ﺷﺪ‪ .‬ﺑﺮاي ﺳﻨﺠﺶ ﺧﻄﺎﻫﺎي ﺗﻮﻟﯿﺪ ﺷﺪه‪ ،‬دو ﻣﻌﯿﺎر )‪ Sensitivity (Recall‬و ‪Specificity‬را ﺑﻪ ﺻﻮرت‬
‫زﯾﺮ ﺗﻌﺮﯾﻒ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬

‫ﻣﻌﯿﺎر ﺑﺎزﺧﻮاﻧﯽ ﯾﺎ ﻫﻤﺎن ‪)Sensitivity‬ﺣﺴﺎﺳﯿﺖ( را ﻗﺒﻼً ﺗﺸﺮﯾﺢ ﮐﺮدهاﯾﻢ‪ ،‬ﻣﻌﯿﺎري ﮐﻪ ﻧﺸﺎن ﻣﯽدﻫﺪ ﭼﻘﺪر از ﺑﯿﻤﺎران واﻗﻌﯽ‬
‫)دﺳﺘﻪ ﻣﺜﺒﺖ( را ﻧﺴﺒﺖ ﺑﻪ ﮐﻞ ﺟﺎﻣﻌﻪ ﺑﯿﻤﺎران‪ ،‬ﺷﻨﺎﺳﺎﯾﯽ ﮐﺮدهاﯾﻢ‪ .‬ﯾﻌﻨﯽ ﻧﺴﺒﺖ آﻧﻬﺎﯾﯽ ﮐﻪ درﺳﺖ ﺷﻨﺎﺳﺎﯾﯽ ﺷﺪهاﻧﺪ ﺑﻪ ﻣﺠﻤﻮع‬
‫ﺗﻤﺎم ﺑﯿﻤﺎران )آﻧﻬﺎﯾﯽ ﮐﻪ ﺑﻪ درﺳﺘﯽ ﺑﯿﻤﺎر ﺷﻨﺎﺧﺘﻪ ﺷﺪه اﻧﺪ ‪ +‬آﻧﻬﺎﯾﯽ ﮐﻪ اﺷﺘﺒﺎﻫﺎً ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ(‪ .‬ﻫﺪف ﻣﺎ اﯾﻦ اﺳﺖ‬
‫ﮐﻪ ﺣﺴﺎﺳﯿﺖ ﻣﺪل ﻣﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ﯾﻌﻨﯽ ﺗﻌﺪاد ﺑﯿﺸﺘﺮي از ﺑﯿﻤﺎران را ﺷﻨﺎﺳﺎﯾﯽ ﮐﻨﺪ‪.‬‬

‫ﻣﻌﯿﺎر ‪Specificity‬ﻫﻤﯿﻦ ﻣﻔﻬﻮم را ﺑﺮاي اﻓﺮاد ﺳﺎﻟﻢ )ﯾﺎ دﺳﺘﻪ ﻣﻨﻔﯽ( ﻧﺸﺎن ﻣﯽدﻫﺪ ﯾﻌﻨﯽ ﭼﻨﺪ ﻧﻔﺮ از اﻓﺮاد واﻗﻌﺎ ﺳﺎﻟﻢ را از‬
‫ﮐﻞ اﻓﺮاد ﺳﺎﻟﻢ‪ ،‬درﺳﺖ ﺗﺸﺨﯿﺺ دادهاﯾﻢ‪:‬‬

‫ﻣﯿﺰان اﻓﺮادي ﮐﻪ ﺑﯿﻤﺎر ﻧﯿﺴﺘﻨﺪ( درﺳﺖ ﻣﻨﻔﯽ )‪ – TN‬ﺑﻪ ﮐﻞ اﻓﺮاد ﺳﺎﻟﻢ )آﻧﻬﺎﯾﯽ ﮐﻪ ﺳﺎﻟﻢ ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ و آﻧﻬﺎﯾﯽ ﮐﻪ‬
‫اﺷﺘﺒﺎﻫﺎً ﺑﯿﻤﺎر ﻓﺮض ﺷﺪهاﻧﺪ(‪Specificity ،‬ﻣﺪل را ﺗﺸﮑﯿﻞ ﻣﯽدﻫﺪ‪.‬‬

‫ﺣﺎل ﻣﯽﺧﻮاﻫﯿﻢ ﺑﺎ ﺗﻐﯿﯿﺮ ﺣﺪ آﺳﺘﺎﻧﻪ در دﺳﺘﻪﺑﻨﺪي‪ ،‬ﺗﻐﯿﯿﺮات اﯾﻦ دو ﻣﻌﯿﺎر را ﺑﺎ ﻫﻢ ﺑﺴﻨﺠﯿﻢ‪ .‬اﮔﺮ ﺣﺪ آﺳﺘﺎﻧﻪ را ﭘﺎﯾﯿﻦ ﺑﯿﺎورﯾﻢ ﻣﺜﻼ‬
‫در ﻣﺜﺎل ﻓﻮق آﻧﺮا روي ‪ 0٫4‬ﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ و ﺑﺎﻻﺗﺮ از آﻧﺮا ﺑﯿﻤﺎر اﻋﻼم ﮐﻨﯿﻢ‪ ،‬ﻃﺒﻖ ﺷﮑﻞ ﻣﺘﻮﺟﻪ ﻣﯽﺷﻮﯾﻢ ﮐﻪ ﺗﻤﺎم ﺑﯿﻤﺎران را ﺗﺸﺨﯿﺺ‬
‫ﺧﻮاﻫﯿﻢ داد ﯾﻌﻨﯽ ﺣﺴﺎﺳﯿﺖ ﻣﺪل ﺑﺎﻻﺳﺖ اﻣﺎ ﻣﯿﺰان زﯾﺎدي از اﻓﺮاد ﺳﺎﻟﻢ را ﻫﻢ ﺑﯿﻤﺎر اﻋﻼم ﺧﻮاﻫﯿﻢ ﮐﺮد ﯾﻌﻨﯽ ‪Specificity‬ﻣﺎ‬
‫ﭘﺎﯾﯿﻦ ﺧﻮاﻫﺪ آﻣﺪ‪ .‬ﺑﺎﻟﻌﮑﺲ اﮔﺮ ﺣﺪ آﺳﺘﺎﻧﻪ را ﺑﺎﻻ ﺑﺒﺮﯾﻢ‪ ،‬ﻣﺜﻼ آﻧﺮا روي ‪ 0٫6‬ﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪ ،‬ﺗﻤﺎم اﻓﺮاد ﺳﺎﻟﻢ را درﺳﺖ ﺗﺸﺨﯿﺺ‬
‫ﺧﻮاﻫﯿﻢ داد اﻣﺎ ﺑﯿﻤﺎران زﯾﺎدي را ﻫﻢ ﺑﻪ اﺷﺘﺒﺎه‪ ،‬ﺳﺎﻟﻢ اﻋﻼم ﺧﻮاﻫﯿﻢ ﮐﺮد ﯾﻌﻨﯽ ‪Specificity‬ﻣﺪل ﺑﺎﻻ و ﺣﺴﺎﺳﯿﺖ آن ﮐﻢ‬
‫ﺧﻮاﻫﺪ ﺷﺪ‪ .‬ﺑﺎ ﺗﻐﯿﯿﺮ اﯾﻦ آﺳﺘﺎﻧﻪ ﺑﻪ ﺷﮑﻞ زﯾﺮ ﺑﺮاي ﺑﯿﺎن ﻧﺴﺒﺖ ﻣﯿﺎن ﺣﺴﺎﺳﯿﺖ و ‪Specificity‬ﺧﻮاﻫﯿﻢ رﺳﯿﺪ‪:‬‬

‫ﺑﺮاي اﯾﻨﮑﻪ ﺑﻬﺘﺮ ﺑﺘﻮاﻧﯿﻢ از اﯾﻦ ﻧﻤﻮدار اﺳﺘﻔﺎده ﮐﻨﯿﻢ و ﻣﻘﺎدﯾﺮ ﻫﺮ دو ﻣﺤﻮر ﺑﺎ ﻫﻢ رﺷﺪ ﯾﺎ ﮐﺎﻫﺶ ﭘﯿﺪا ﮐﻨﻨﺪ ﺑﻪ‬
‫ﺟﺎي ‪Specificity‬از ‪ 1‬ﻣﻨﻬﺎي ‪Specificity‬اﺳﺘﻔﺎده ﻣﯽﮐﻨﯿﻢ‪:‬‬
‫ﺑﺎ اﯾﻦ ﺗﺮﺗﯿﺐ‪ ،‬ﻧﻤﻮداري ﺣﺎﺻﻞ ﻣﯽﺷﻮد ﮐﻪ ﺑﻪ آن ﻧﻤﻮدار ‪ ROC - Receiver Operating Characteristics‬و‬
‫ﯾﺎ ﻣﻨﺤﻨﯽ ‪ ROC‬ﻣﯽﮔﻮﯾﯿﻢ‪.‬‬

‫اﮔﺮ ﺑﺨﻮاﻫﯿﻢ دﻗﯿﻖﺗﺮ ﺑﻪ اﯾﻦ ﻧﻤﻮدار ﮐﻪ ﻣﯿﺰان ﺟﺪاﮐﻨﻨﺪﮔﯽ و دﻗﺖ ﮐﺎر ﻣﺪل ﻣﺎ را ﻧﺸﺎن ﻣﯽدﻫﺪ‪ ،‬ﻧﮕﺎه ﮐﻨﯿﻢ ﻣﺘﻮﺟﻪ اﯾﻦ راﺑﻄﻪ‬
‫ﺧﻮاﻫﯿﻢ ﺷﺪ‪:‬‬

‫در ﻧﻤﻮدار ‪ ROC‬ﻧﺮخ ﺗﻮﻟﯿﺪ دادهﻫﺎي درﺳﺖ ﯾﻌﻨﯽ‪، TPR‬ﻣﺤﻮر ‪ Y‬را ﻧﺸﺎن ﻣﯽدﻫﺪ و ﻧﺮخ ﺗﻮﻟﯿﺪ ﺧﻄﺎ ﺑﺮاي دادهﻫﺎي ﻣﺜﺒﺖ ﻫﻢ‬
‫)‪(FPR‬ﻣﺤﻮر ‪ X‬را ﺗﺸﮑﯿﻞ ﻣﯽدﻫﺪ ‪.‬ﺑﺎ اﯾﻦ ﺗﻮﺻﯿﻒ ﻧﻤﻮداري ﻣﻨﺎﺳﺐ ﺗﺮ ﺧﻮاﻫﺪ ﺑﻮد ﮐﻪ ﻣﺤﻮر ‪ Y‬آن ﺑﻪ ﯾﮏ ﻧﺰدﯾﮏ ﺑﺎﺷﺪ و ﻣﺤﻮر‬
‫‪X‬آن ﯾﻌﻨﯽ ﻣﯿﺰان ﺗﻮﻟﯿﺪ ﺧﻄﺎي آن‪ ،‬ﺑﻪ ﺻﻔﺮ ﻧﺰدﯾﮏ ﺑﺎﺷﺪ‪:‬‬

‫اﻣﺎ در دﻧﯿﺎي واﻗﻌﯽ‪ ،‬ﻧﻤﻮدار ﻣﺎ ﺑﯿﺸﺘﺮ ﺷﺒﯿﻪ ﺷﮑﻞ زﯾﺮ ﺧﻮاﻫﺪ ﺑﻮد‪:‬‬
‫ﮐﻪ اﮔﺮ آﻧﺮا ﻧﺴﺒﺖ ﺑﻪ ﺣﺎﻟﺖ ﺗﺼﺎدﻓﯽ ﯾﻌﻨﯽ ﺣﺎﻟﺘﯽ ﮐﻪ ﮐﺎﻣﻼ ﺗﺼﺎدﻓﯽ اﺷﺨﺎص را ﺑﻪ دو دﺳﺘﻪ ﺑﯿﻤﺎر و ﺳﺎﻟﻢ ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ )ﻧﻤﻮدار‬
‫زﯾﺮ(‪ ،‬ﺑﻬﺒﻮد ﻣﺪل ﮐﺎﻣﻼً ﻣﺸﺨﺺ اﺳﺖ‪:‬‬

‫ﻣﻄﻤﺌﻨﺎ اﯾﺠﺎد ﻧﻤﻮداري ﺑﻪ ﺷﮑﻞ زﯾﺮ ﻧﺸﺎن دﻫﻨﺪه ﺧﻄﺎي ﻣﺤﺮز در ﻣﺪل اﺳﺖ ﭼﻮن ﺣﺘﯽ از ﺣﺎﻟﺖ ﺗﺼﺎدﻓﯽ ﻫﻢ ﺑﺪﺗﺮ ﻋﻤﻞ ﮐﺮده‬
‫اﺳﺖ‪[2] :‬‬

‫ﻧﺤﻮه رﺳﻢ ﻧﻤﻮدار‪ROC‬‬


‫ﺑﺮاي رﺳﻢ ﻧﻤﻮدار ‪ ROC‬از ﺗﻐﯿﯿﺮ ﻣﯿﺰان آﺳﺘﺎﻧﻪ ﺗﻌﯿﯿﻦ دﺳﺘﻪ ﻣﺜﺒﺖ و ﻣﻨﻔﯽ اﺳﺘﻔﺎده ﻣﯽﮐﻨﯿﻢ‪ .‬اﯾﻦ اﻣﺮ را ﺑﺎ ﯾﮏ ﻣﺜﺎل ﺑﻪ ﺻﻮرت‬
‫دﻗﯿﻖﺗﺮ ﺑﺮرﺳﯽ ﻣﯽﮐﻨﯿﻢ‪ .‬ﻓﺮض ﮐﻨﯿﺪ ﺑﺮاي ﺻﺪ ﻧﻔﺮ ﮐﻪ ﻧﺼﻒ آﻧﻬﺎ ﺑﯿﻤﺎر و ﻧﺼﻒ آﻧﻬﺎ ﺳﺎﻟﻢ ﻫﺴﺘﻨﺪ‪ ،‬ﻣﺪﻟﯽ ﺳﺎﺧﺘﻪاﯾﻢ ﮐﻪ اﮔﺮ ﺣﺪ‬
‫آﺳﺘﺎﻧﻪ ﺗﺸﺨﯿﺺ ﯾﮏ دﺳﺘﻪ از ﺻﻔﺮ ﺗﺎ ﯾﮏ ﺗﻐﯿﯿﺮ ﺑﺪﻫﯿﻢ‪ ،‬اﻋﺪاد زﯾﺮ ﺣﺎﺻﻞ ﻣﯽﺷﻮﻧﺪ‪:‬‬
‫ﺑﺮاي ﺣﺪ آﺳﺘﺎﻧﻪ ‪ 0٫5‬ﺟﺪول ﭘﺮاﮐﻨﺶ زﯾﺮ را ﺧﻮاﻫﯿﻢ داﺷﺖ‪:‬‬

‫ﺑﺎ اﻋﺪاد ﻓﻮق ﺑﺮاي ﺣﺪ آﺳﺘﺎﻧﻪ ‪ 0٫5‬ﺳﻪ ﻣﻌﯿﺎر ﺻﺤﺖ‪ ،‬ﺑﺎزﺧﻮاﻧﯽ و ‪ F1‬را ﺑﻪ ﺻﻮرت زﯾﺮ ﻣﺤﺎﺳﺒﻪ ﻣﯽﮐﻨﯿﻢ‪:‬‬

‫ﻧﺮخ ﺗﻮﻟﯿﺪ ﺧﻄﺎ و ﻧﺮخ ﺗﻮﻟﯿﺪ دادهﻫﺎي درﺳﺖ ﻫﻢ ﺑﻪ ﺻﻮرت زﯾﺮ ﻣﺤﺎﺳﺒﻪ ﻣﯽﺷﻮد‪:‬‬

‫ﺣﺎل ﺑﺎ ﻣﺤﺎﺳﺒﻪ اﯾﻦ اﻋﺪاد ﺑﺮاي ﻣﻘﺎدﯾﺮ ﻣﺨﺘﻠﻒ ﺣﺪ آﺳﺘﺎﻧﻪ‪ ،‬ﺟﺪول زﯾﺮ را ﺧﻮاﻫﯿﻢ داﺷﺖ‪:‬‬

‫ﺑﻪ ﮐﻤﮏ درونﯾﺎﺑﯽ ﯾﺎ اﻓﺰاﯾﺶ ﻧﻘﺎط ‪ ،‬ﻣﯽﺗﻮاﻧﯿﻢ ﻧﻤﻮدار زﯾﺮ را ﺑﺮاي ﻣﺪل ﺳﺎﺧﺘﻪ ﺷﺪه ﺑﻪ دﺳﺖ آورﯾﻢ‪:‬‬
‫ﺑﻪ ﻫﻤﯿﻦ ﺗﺮﺗﯿﺐ ﺑﺮاي ﻣﺪلﻫﺎي ﺑﻌﺪي ﻫﻢ ﺑﺎ ﺗﻐﯿﯿﺮ ﺣﺪ آﺳﺘﺎﻧﻪ و ﻣﺤﺎﺳﺒﻪ اﻋﺪاد ﻓﻮق‪ ،‬ﻧﻤﻮدار ‪ ROC‬ﻗﺎﺑﻞ رﺳﻢ ﺧﻮاﻫﺪ ﺑﻮد‪[3].‬‬

‫ﺳﻄﺢ زﯾﺮ ﻧﻤﻮدار)‪AUC(Area Under Curve‬‬


‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻨﮑﻪ ﻧﺮخ ﺗﻮﻟﯿﺪ ﺧﻄﺎ و ﻧﺮخ ﺗﻮﻟﯿﺪ دادهﻫﺎي درﺳﺖ ﻫﺮ دو ﻋﺪدي ﺑﯿﻦ ﺻﻔﺮ ﺗﺎ ﯾﮏ اﺳﺖ‪ ،‬در ﺣﺎﻟﺖ اﯾﺪهآل( ﺷﮑﻞ اﯾﺪهآل‬
‫ﻧﻤﻮدار )‪ ، ROC‬ﻣﺴﺎﺣﺖ زﯾﺮ ﻧﻤﻮدار ﻋﺪد ﯾﮏ را ﻧﺸﺎن ﻣﯽدﻫﺪ و در ﺣﺎﻟﺖ ﺗﺼﺎدﻓﯽ ﻋﺪد ‪ 0٫5‬و در ﺑﯿﺸﺘﺮ ﻣﻮارد‪ ،‬ﻋﺪدي ﺑﯿﻦ اﯾﻦ‬
‫دو ﺧﻮاﻫﺪ ﺑﻮد ﮐﻪ ﻫﺮ ﭼﻪ ﺑﻪ ﯾﮏ ﻧﺰدﯾﮏﺗﺮ ﺑﺎﺷﺪ ﻧﺸﺎن از دﻗﺖ ﺑﯿﺸﺘﺮ ﻣﺪل ﻣﺎ در ﺗﺸﺨﯿﺺ دادهﻫﺎي ﻣﺜﺒﺖ اﺳﺖ‪ .‬اﯾﻦ ﻣﺴﺎﺣﺖ ﮐﻪ‬
‫ﺑﺎ ﻣﻌﯿﺎر ‪ AUC‬ﻧﺸﺎن داده ﻣﯽﺷﻮد‪ ،‬ﻣﻌﯿﺎر دﯾﮕﺮي اﺳﺖ ﺑﺮاي ﺳﻨﺠﺶ ﻣﯿﺰان ﮐﺎرآﯾﯽ ﯾﮏ ﻣﺪل ﮐﻪ ﻫﺮ ﭼﻪ ﻣﺪل دﻗﯿﻖﺗﺮي داﺷﺘﻪ‬
‫ﺑﺎﺷﯿﻢ ﻋﺪد آن ﺑﻪ ﯾﮏ ﻧﺰدﯾﮏ و ﻫﺮ ﭼﻪ ﻋﻤﻠﮑﺮد ﺿﻌﯿﻒﺗﺮي در ﺗﺸﺨﯿﺺ دﺳﺘﻪﻫﺎ داﺷﺘﻪ ﺑﺎﺷﺪ ﺑﻪ ﻋﺪد ﺻﻔﺮ ﻧﺰدﯾﮏ ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬
‫اﯾﻦ ﻣﻔﻬﻮم را در ﻧﻤﻮدارﻫﺎي زﯾﺮ ﺑﻪ ﺧﻮﺑﯽ ﻣﯽﺗﻮاﻧﯿﺪ ﻣﺸﺎﻫﺪه ﮐﻨﯿﺪ]‪:[4‬‬
: ‫ﻣﻨﺎﺑﻊ و ﻣﺮاﺟﻊ‬
[1] Y. Sasaki, “The truth of the F-measure,” Teach Tutor mater, pp. 1–5, 2007, [Online].
Available: http://www.cs.odu.edu/~mukka/cs795sum09dm/Lecturenotes/Day3/F-
measure-YS-26Oct07.pdf.
[2] D. Jocelyn, “Let’s learn about AUC ROC Curve!,” 2018.
https://medium.com/greyatom/lets-learn-about-auc-roc-curve-4a94b4d88152.
[3] W. Koehrsen, “Beyond Accuracy: Precision and Recall,” 2018.
https://towardsdatascience.com/beyond-accuracy-precision-and-recall-
3da06bea9f6c.
[4] ‫ “ﻣﻬﻨﺪ� دادە‬,‫ دادە‬.‫ م‬.‫ ج‬.‫پ‬,” [Online]. Available: www.bigdata.ir.

You might also like