Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/2403
Title: Sentiment Analysis by Automatic Domain Clustering
การวิเคราะห์ความรู้สึกด้วยวิธีการจัดกลุ่มโดเมนแบบอัตโนมัติ
Authors: Panithan Mekkamol
ปณิธาน เมฆกมล
Chatklaw Jareanpon
ฉัตรเกล้า เจริญผล
Mahasarakham University
Chatklaw Jareanpon
ฉัตรเกล้า เจริญผล
chatklaw.j@msu.ac.th
chatklaw.j@msu.ac.th
Keywords: การจัดกลุ่มเอกสาร
การตรวจหาค่าผิดปกติ
ขั้นตอนวิธี C
document clustering
outlier detection
C algorithm
Issue Date:  26
Publisher: Mahasarakham University
Abstract: This research aims to develop the clustering algorithm that the different domain can group using the domain similarity. This research tries to find to method that the document can classify to the previous domain or crate the new domain, and solves the problem of K-means. This problem is coming from the distance measurement of similarity from the new document to the centroid of each group. The new document will classify to the group that the relationship between groups and new document possibly are analogous or divergent. This experiment observes the proper group numbers using the Elbow before starting the process. After this process, the Threshold value will be calculated from the centroid of the document in the group and percentile. The new document will compare with the Threshold and decision to set to the group or create the new document. This research compares the performance of the weight between the TF-IDF and BM25. These results show that the best performance is came from the BM25, Euclidean distance and 80-85 percentile. The result of this research is more accuracy than the previous research.
งานวิจัยนี้มีเป้าหมายเพื่อพัฒนาขั้นตอนวิธีจัดกลุ่มของเอกสารโดเมนที่แตกต่างกันตามความคล้ายคลึงกันของโดเมน เพื่อหาวิธีที่บ่งบอกได้เอกสารนั้นควรจะอยู่รวมในโดเมนหรือควรจะแยกเป็นกลุ่มของโดเมนใหม่ และแก้ปัญหาการจัดกลุ่มของขั้นตอนวิธี K-Means ที่จะทำการวัดความคล้ายคลึงของข้อมูลเมื่อพบว่าข้อมูลนั้นใกล้จุดศูนย์กลางของกลุ่มใด ข้อมูลจะถูกจัดให้อยู่ในกลุ่มนั้นเช่นเดียวกับข้อมูลที่มีค่าปกติ ซึ่งข้อมูลนั้นอาจจะมีความเกี่ยวข้องกับข้อมูลที่อยู่ในกลุ่มน้อยมากหรือไม่มีความเกี่ยวข้องเลยก็ได้ ในการทดลองนี้จะดูจำนวนกลุ่มที่เหมาะสมก่อนกำหนดจำนวนกลุ่มด้วยวิธี Elbow เมื่อจัดกลุ่มเอกสารแล้ว จะคำนวณหาระยะทางของเอกสารแต่ละตัวกับจุดศูนย์กลางเพื่อคำนวณหาค่า Threshold ของกลุ่ม เมื่อเอกสารใหม่เข้าไปจะคำนวณระยะห่างจากจุดศูนย์กลางแต่ละกลุ่มถ้าใกล้กลุ่มใดมากที่สุด จะนำระยะทางไปเปรียบเทียบกับค่า Threshold ของกลุ่มนั้น ผู้วิจัยนำเสนอการหาค่า Threshold ที่เหมาะสมโดยการหาระยะทางจากจุดศูนย์กลางของเอกสารในแต่ละกลุ่มแล้วหาตำแหน่งเปอเซนไทร์ของข้อมูลในกลุ่มนั้น ผู้วิจัยได้เปรียบเทียบประสิทธิภาพของการให้ค่าน้ำหนักของคุณลักษณะพบว่า TF-IDF ให้ผลลัพธ์ที่ดีกว่า BM25 การวัดความคล้ายคลึงของเอกสารที่ใช้ในขั้นตอนวิธีที่นำเสนอพบว่า Euclidean Distance ให้ผลลัพธ์ดีที่สุดเมื่อเปรียบเทียบกับวิธีอื่น ๆ  ขั้นตอนวิธีที่ผู้วิจัยนำเสนอนั้นสามารถแยกเอกสารออกจากกลุ่มได้และเมื่อส่งเอกสารกลุ่มเดิมเข้าไปทดสอบสามารถจัดเอกสารเข้ากลุ่มเดิมได้ โดยกำหนดตำแหน่งเปอเซนไทล์ที่ 80 - 85 ซึ่งขั้นตอนวิธีและการกำหนดค่า Threshold ในงานวิจัยนี้มีประสิทธิภาพกว่างานวิจัยก่อนหน้า
URI: http://202.28.34.124/dspace/handle123456789/2403
Appears in Collections:The Faculty of Informatics

Files in This Item:
File Description SizeFormat 
58011260501.pdf4.02 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.