Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/546
Title: Automatic Classification of Bug Reports
การจำแนกรายงานจุดบกพร่องแบบอัตโนมัติ
Authors: Boonchoo Srikudkao
บุญชู ศรีขัดเค้า
Jantima Polpinij
จันทิมา พลพินิจ
Mahasarakham University. The Faculty of Informatics
Keywords: รายงานจุดบกพร่อง
รายงานที่ไม่ใช่จุดบกพร่อง
ผู้คัดแยกรายงานจุดบกพร่อง
ระบบติดตามรายงานจุดบกพร่อง
การประมวลผลภาษาธรรมชาติ
อัลกอริทึมการเรียนรู้ของเครื่อง
นาอีฟเบย์
ซัพพอร์ตเวกเตอร์แมชชีน
การถดถอยโลจิสติก
แรนดอมฟอเรส
Bug reports
non-bug reports
Bug triagers
Bug Tracking Systems
Natural Language Processing
Machine learning algorithms
Naïve bayes
Support Vector Machines
Logistic Regression
Random Forest
Issue Date:  9
Publisher: Mahasarakham University
Abstract: Bug reports become the significant information for improving software quality. To collect the large bug reports from users around the world, many bug tracking systems (BTS) have been developed and proposed. These systems allow users to report, describe, track, classify, and comment on their bug reports. Unfortunately, various tasks on the BTS are still performed by bug triagers manually. It becomes a time consuming and labour intensive for bug report analysis. Therefore, many works focus on studying related to bug reports. One of the most common issues of bug report studies is to classify bug reports into real-bug and non-bug report. This study also presents a novel method of automatic bug report classification, called the polarity-based bug report classification. The proposed method is driven on the Natural Language processing techniques. We also study various weighting schemes and supervised machine learning algorithms to obtain the most appropriate solution for the proposed study. The weighting schemes studied in this work are tf, tf-idf, BM25, and MATF (Multi Aspect tf), while supervised machine learning algorithms are Naïve Bayes, Support Vector Machines, Logistic Regression, and Random Forest. After testing via recall, precision, and F-measure, the results can be accepted after comparing to the previous researches.  By using Herzig’s dataset, the most appropriate weighting scheme is the MATF, whereas the most appropriate supervised machine learning algorithm is the Logistic Regression.
รายงานจุดบกพร่องเป็นข้อมูลที่สำคัญสำหรับการปรับปรุงคุณภาพของซอฟต์แวร์ ในการรวบรวมรายงานจุดบกพร่องจำนวนมากจากผู้ใช้งานทั่วโลก ระบบติดตามจุดบกพร่องจึงได้ถูกพัฒนาและนำเสนอขึ้นมา ซึ่งระบบดังกล่าวจะช่วยให้ผู้ใช้งานสามารถรายงาน อธิบาย ติดตาม จำแนก และแสดงความคิดเห็นเกี่ยวกับจุดบกพร่องที่พบในซอฟต์แวร์ได้ แต่อย่างไรก็กระบวนการในระบบติดตามรายงานจุดบกพร่องยังคงดำเนินการโดยมนุษย์ในการคัดแยกรายงาน ทำให้งานในส่วนนี้กลายเป็นงานที่ใช้เวลานานและแรงงานจำนวนมากในการวิเคราะห์รายงานจุดบกพร่อง ดังนั้นในงานงานวิจัยฉบับนี้จึงมุ่งเน้นในการศึกษาที่เกี่ยวข้องกับรายงานจุดบกพร่อง โดยหนึ่งในปัญหาที่พบมากในการศึกษาที่เกี่ยวกับรายงานจุดบกพร่องคือ การจำแนกรายงานจุดบกพร่องออกเป็นรายงานจุดบกพร่องที่แท้จริงและรายงานที่ไม่ใช่รายงานจุดบกพร่อง ซึ่งการวิจัยนี้ได้นำเสนอแนวทางใหม่ในการจำแนกรายงานจุดบกพร่องแบบอัตโนมัติที่เรียกว่า “การจำแนกรายงานจุดบกพร่องโดยใช้ขั้วคำ (Polarity-based bug report classification)” สำหรับเครื่องมือหลักที่ใช้ในกระบวนการที่นำเสนอนี้คือเทคนิคการประมวลผลทางภาษาธรรมชาติ (Natural Language processing techniques) นอกจากนี้ยังได้ศึกษาเทคนิคการให้คำน้ำหนักคำและอัลกอริทึมการเรียนรู้ของเครื่องที่หลากหลาย เพื่อให้ได้แนวทางที่เหมาะสมที่สุดในการวิจัยนี้ ซึ่งเทคนิคการให้คำน้ำหนักคำที่ศึกษาในงานวิจัยนี้ประกอบด้วย tf, tf-idf, BM25, and MATF (Multi Aspect tf) ในขณะที่อัลกอริทึมการเรียนรู้แบบมีผู้สอนที่ใช้ ได้แก่ นาอีฟเบย์ (Naïve Bayes), ซัพพอร์ตเวกเตอร์แมชชีน (Support Vector Machines), การถดถอยโลจิสติก (Logistic Regression) และแรนดอมฟอเรส (Random Forest) ภายหลังจากการทดสอบด้วยค่าความระลึก (Recall), ค่าความแม่นยำ (Precision) และค่าเอฟ (F-measure) ปรากฏว่าให้ผลลัพธืที่ยอมรับได้เมื่อเปรียบเทียบกับงานวิจัยที่ผ่านมา และในการใช้ชุดข้อมูลของ Herzig พบว่าการให้น้ำหนักคำที่มีความเหมาะสมที่สุดคือ MATF และอัลกอริทึมการเรียนรู้ของเครื่องแบบมีผู้สอนที่เหมาะสมที่สุดคืออัลกอริทึมการถดถอยโลจิสติก
Description: Master of Science (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
URI: http://202.28.34.124/dspace/handle123456789/546
Appears in Collections:The Faculty of Informatics

Files in This Item:
File Description SizeFormat 
59011252001.pdf3.84 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.