Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/2413
Title: The performance comparison of data mining techniques for patient incidence
การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับพยากรณ์การเกิดโรค
Authors: Ukrit Srisuk
อุกฤษฏ์ ศรีสุข
Jaree Thongkam
จารี ทองคำ
Mahasarakham University
Jaree Thongkam
จารี ทองคำ
jaree.thongkam@gmail.com
jaree.thongkam@gmail.com
Keywords: การทำเหมืองข้อมูล
โรคมะเร็งเต้านม
โรคเบาหวาน
โรคไฮโปไทรอยด์
Data Mining
Breast cancer
Diabetics
Hypothyroid
Issue Date:  29
Publisher: Mahasarakham University
Abstract: This research aims to study the performance of data mining techniques in medical dataset. The data in this research contains data of patients with breast cancer, diabetics and patients with hyperthyroidism. All dataset were collected from UCI databases. This research has been used machine learning in particular Decision Tree C4.5, Naïve Bayes, Neural Networks, Random Forest, Deep Learning techniques and the Gain Ratio principle to create the models of disease Breast cancer, diabetes and hypothyroidism prediction models. In order to measure the performance of prediction models, 10-fold cross validation was utilized to divide the data into training and testing sets. Accuracy, sensitivity and specificity of the prediction models were used to compare the prediction performance of each model. The experimental results showed that the Random Forest technique was the best technique in modeling the prognosis of hypothyroidism. It provided 99.90% accuracy, 99.89% sensitivity and 100 % specificity.
งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาประสิทธิภาพของเทคนิคเหมืองข้อมูลในข้อมูลที่หลากหลาย ข้อมูลในงานวิจัยนี้ประกอบด้วยข้อมูลผู้ป่วยโรคมะเร็งเต้านม ผู้ป่วยโรคเบาหวาน และผู้ป่วยโรคไฮเปอร์ไทรอยด์ โดยข้อมูลทั้งหมดถูกรวบรวมมาจากฐานข้อมูล UCI จำนวนทั้งหมด 3 ชุดข้อมูล มาทำการคัดเลือกตัวแปรด้วยวิธีการ Wrapper ที่ร่วมกับเทคนิค Decision Tree C4.5, เทคนิค Random Forest, เทคนิค Naïve Bayes, เทคนิค Artificial Neural Networks, เทคนิค Deep Learning และหลักการของ Gain Ratio แล้วนำมาสร้างแบบพยากรณ์ด้วยเทคนิค Decision Tree C4.5, เทคนิค Random Forest, เทคนิค Naïve Bayes, เทคนิค Artificial Neural Networks และเทคนิค Deep Learning ในการวัดประสิทธิภาพแบบพยากรณ์ต่างๆ ผู้วิจัยได้ใช้ 10-fold cross validation ได้ถูกนำมาใช้ในการแบ่งข้อมูลออกเป็นกลุ่มฝึกสอน, กลุ่มทดสอบ และวัดค่าความถูกต้อง ค่าความไว และค่าจำเพาะ หลักการของ Wrapper และ หลักการของ Gain Ratio หลังจากที่นำเข้ามาในการคัดเลือกตัวแปรแล้ว ผลการทดลองพบว่าชุดข้อมูลที่ทำการคัดเลือกตัวแปรด้วยหลักการของ Wrapper โดยใช้เทคนิค Random Forest มีประสิทธิภาพสูงที่สุดคือเทคนิค Random Forest ได้ค่าความถูกต้องในการพยากรณ์โรคไฮโปไทรอยด์ โดยให้ค่าความถูกต้องร้อยละ 99.90 ค่าความไวร้อยละ 99.89 และค่าจำเพาะร้อยละ 100
URI: http://202.28.34.124/dspace/handle123456789/2413
Appears in Collections:The Faculty of Informatics

Files in This Item:
File Description SizeFormat 
62011284509.pdf1.61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.