Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/815
Title: Very Large-scale Data Classification based on K-means Clustering and Deep Learning
การจำแนกข้อมูลขนาดใหญ่มากโดยใช้การจัดกลุ่มด้วยวิธีเคมีนและวิธีการเรียนรู้เชิงลึก
Authors: Nuntuschaporn Senawong
นันทัชพร เสนาวงค์
Orawich Kumphon
อรวิชญ์ กุมพล
Mahasarakham University. The Faculty of Science
Keywords: ข้อมูลขนาดใหญ่มาก
การจัดกลุ่มของวิธีเคมีน
การตรวจหาค่าผิดปกติ
วิธีการเรียนรู้เชิงลึก
การจำแนกประเภท
Very Large-scale Data
K-means Clustering
Outlier Detection
Deep Learning
Classification
Issue Date:  5
Publisher: Mahasarakham University
Abstract: In classifying very large data, problems are long processing time and it requires a lot of training data in order to maintain high accuracy. To solve these problems, researchers study methods for classifying very large data to reduce the use of large amounts of training data but still have high classification efficiency. The proposed method reduces the size of the training data by combining K-means and deep learning. To study the effectiveness of the proposed method, the accuracy and AUC values were determined. In addition, it was compared with the original deep learning method using training data about 80% - 90% of data and compared with original deep learning using the same amount of training data with the proposed method. The results show that the proposed method is able to significantly reduce the size of the training data (less than 1% of the total data size) but still, have highly effective in classification and the time it takes to classify is significantly less than the deep learning method.
ในการจำแนกประเภทข้อมูลที่มีขนาดใหญ่มาก ปัญหาที่พบคือเวลาที่ใช้ในการประมวลผลนาน และต้องใช้ข้อมูลฝึก (Training Data) เป็นจำนวนมากเพื่อให้การจำแนกประเภทมีประสิทธิภาพความแม่นยำสูง เพื่อแก้ไขปัญหานี้ผู้วิจัยจึงศึกษาวิธีการสำหรับการจำแนกข้อมูลขนาดใหญ่มาก เพื่อลดปัญหาการใช้ข้อมูลฝึกจำนวนมาก แต่ยังคงมีประสิทธิภาพในการจำแนกประเภทสูง โดยจะทำการลดขนาดข้อมูลฝึกด้วยการรวมเทคนิคการจัดกลุ่มของวิธีเคมีน (K-means) และวิธีการเรียนรู้เชิงลึก (Deep Learning) ในการศึกษาประสิทธิภาพของวิธีการที่นำเสนอพิจารณาจากค่าความแม่นยำและค่า AUC นอกจากนี้ได้ทำการเปรียบเทียบกับวิธีการเรียนรู้เชิงลึกแบบเดิมที่ใช้ข้อมูลฝึกขนาด 80% - 90% ของข้อมูลทั้งหมด และกรณีที่ใช้ข้อมูลฝึกจำนวนเท่ากัน ผลการศึกษาพบว่าวิธีการที่นำเสนอสามารถลดขนาดของข้อมูลฝึกได้อย่างมาก (น้อยกว่า 1% ของขนาดข้อมูลทั้งหมด) แต่ยังคงมีประสิทธิภาพในการจำแนกประเภทสูง และเวลาที่ใช้ในการจำแนกประเภทน้อยกว่าวิธีการเรียนรู้เชิงลึกอย่างมาก
Description: Master of Science (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
URI: http://202.28.34.124/dspace/handle123456789/815
Appears in Collections:The Faculty of Science

Files in This Item:
File Description SizeFormat 
61010253003.pdf2.28 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.