Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/2656
Title: Classification of People at Risk for Breast Cancer Using  Decision Tree Algorithm, Case Study: Suddhavej Hospital Mahasarakham University
การจำแนกผู้ที่มีความเสี่ยงในการเป็นโรคมะเร็งเต้านมด้วยอัลกอริทึมต้นไม้ตัดสินใจ กรณีศึกษา: โรงพยาบาลสุทธาเวช มหาวิทยาลัยมหาสารคาม
Authors: Chaiyarn Sukmun
ชัยยันต์ สุขหมั่น
Supawadee Wichitchan
สุภาวดี วิชิตชาญ
Mahasarakham University
Supawadee Wichitchan
สุภาวดี วิชิตชาญ
supawadee.wi@msu.ac.th
supawadee.wi@msu.ac.th
Keywords: มะเร็งเต้านม
ต้นไม้ตัดสินใจ
ข้อมูลไม่สมดุล
Breast cancer
Decision Tree
Class-Imbalance
Issue Date:  21
Publisher: Mahasarakham University
Abstract: This research focuses on evaluating the effectiveness of the Decision Tree Algorithm in classifying risk level of breast cancer, as well as investigating the associated risk factors. The study employs medical record data from breast mass patients at Faculty of Medicine, Mahasarakham University, spanning 2010 to 2022. The dataset, post-cleansing, comprises 1,524 records, with 1,343 representing low-risk breast cancer patients and 181 representing high-risk cases. The study indicates that the Decision Tree Algorithms, specifically C4.5, C5.0, and Random Forest, exhibit substantial classification accuracy. However, their area under the ROC curve (AUC) values are relatively low due to insufficient class separation, which stems from class imbalance. The research tackles this issue by employing oversampling to augment the minority class instances and undersampling to reduce the majority class instances. Various data-splitting techniques were also explored. The outcomes reveal that both C4.5 and C5.0 Decision Trees yield comparable results, while Random Forest demonstrates a superior AUC, higher than C4.5 and C5.0. The top 5 factors affecting the classification of breast cancer are body mass index, age group, chief complaint, symmetry and mass or cyst, respectively.
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของอัลกอริทึมต้นไม้ตัดสินใจ (decision tree algorithm) ในการจำแนกประเภท (classification) โรคมะเร็งเต้านม (breast cancer) และศึกษาปัจจัยเสี่ยงที่ทำให้เกิดโรคมะเร็งเต้านม ผู้วิจัยได้ใช้ข้อมูลเวชระเบียนของผู้ป่วยที่มีก้อนเนื้อบริเวณเต้านม จากคณะแพทยศาสตร์ มหาวิทยาลัยมหาสารคาม ระหว่างปี พ.ศ. 2553 ถึง พ.ศ. 2565 จากการทำความสะอาดข้อมูลเหลือข้อมูลทั้งหมด 1,524 ระเบียน ซึ่งมีข้อมูลผู้ป่วยที่มีความเสี่ยงต่ำในการเป็นโรคมะเร็งเต้านม จำนวน 1,343 ระเบียน และข้อมูลผู้ป่วยที่มีความเสี่ยงสูงในการเป็นโรคมะเร็งเต้านมจำนวน 181 ระเบียน จากผลการศึกษาพบว่า อัลกอริทึมต้นไม้ตัดสินใจ C4.5, C5.0 และวิธี Random forest ให้ค่าความถูกต้อง (accuracy) ค่อนข้างสูง แต่ค่าเกณฑ์ในการทำนาย AUC (area under ROC curve) ค่อนข้างต่ำ เนื่องจากการทำนายโมเดลไม่สามารถแยกกลุ่ม (class) ได้ดีพอ ซึ่งพบว่าข้อมูลที่ใช้ในการจำแนกคลาสมีจำนวนของคลาสมากน้อยไม่เท่ากัน (class imbalance) เพื่อแก้ปัญหาข้อมูลไม่สมดุลในงานวิจัยนี้ใช้วิธีการสุ่มเกิน (oversampling) เพื่อเพิ่มจำนวนตัวอย่างในคลาสที่น้อยเพื่อทำให้จำนวนตัวอย่างในทุกคลาสเท่ากันหรือใกล้เคียงกัน และวิธีการสุ่มลด (undersampling) ลดตัวอย่างในคลาสที่มีจำนวนมากลงเพื่อทำให้จำนวนตัวอย่างในทุกคลาสเท่ากันหรือใกล้เคียงกัน รวมทั้งการแบ่งข้อมูล (split data) แบบต่าง ๆ พบว่าอัลกอริทึมต้นไม้ตัดสินใจ C4.5 และ C5.0 ให้ผลลัพธ์ไม่ต่างจากเดิมและผลลัพธ์ที่ได้ไม่ต่างกันมากนัก ส่วนวิธี Random forest ให้ค่า AUC ที่ดีขึ้นเมื่อเปรียบเทียบกับอัลกอริทึมต้นไม้ตัดสินใจ C4.5 และ C5.0 ซึ่งปัจจัยที่ส่งผลในการจำแนกโรคมะเร็งเต้านม 5 อันดับแรก ได้แก่ ดัชนีมวลกาย, กลุ่มอายุ, อาการที่นำมาพบแพทย์, ความสมมาตรของเต้านมสองข้าง และก้อนหรือถุงน้ำ ตามลำดับ
URI: http://202.28.34.124/dspace/handle123456789/2656
Appears in Collections:The Faculty of Science

Files in This Item:
File Description SizeFormat 
63010257003.pdf5.49 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.