Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/537
Title: Feature Selection and Redundant Feature Elimination for Opinion Classification on Social Network
การเลือกคุณลักษณะและขจัดคุณลักษณะซ้ำซ้อนสำหรับการจำแนกความคิดเห็นบนเครือข่ายสังคมออนไลน์
Authors: Atchara Choompol
อัจฉรา ชุมพล
Panida Songram
พนิดา ทรงรัมย์
Mahasarakham University. The Faculty of Informatics
Keywords: การวิเคราะห์ความคิดเห็น
การคัดเลือกคุณลักษณะ
การขจัดคุณลักษณะซ้ำซ้อน
Opinion Mining
Feature Selection
Eliminating Redundant Features
Issue Date:  18
Publisher: Mahasarakham University
Abstract: This research therefore presents methods for selecting features and eliminating redundant features for opinion classification on social networks. In feature selection method, it selects features based on the concept of filter model together with the concept of association rules.  Support and confidence values are used to calculated weight of feature. The support is normalized to 0-1 to remove outlier support.  The parameter p is adapted to weight between the support and confidence values.  In addition, this research presents the elimination of redundant features.  If features are in the same documents, the feature having the highest weight is keep and the remaining features are eliminated.  From the experiment results in feature selection, they show that the proposed method provides high classification efficiency on big dataset when p = 0.8. It gives higher accuracy than Information Gain, Chi-Square, and Gini Index with significance at 0.05. Moreover, it outperforms information Gain, Chi-Square, and Gini Index in computation time.  For experimental results in redundant feature elimination, they show that the proposed method can reduce the number of features without efficiency of classification losses.
งานวิจัยนี้จึงได้นำเสนอขั้นตอนวิธีในการคัดเลือกคุณลักษณะและการลดคุณลักษณะที่ซ้ำซ้อนสำหรับการจำแนกความคิดเห็นบนเครือข่ายสังคมออนไลน์  การคัดเลือกคุณลักษณะอาศัยหลักการผสมผสานแนวคิดวิธีฟิลเตอร์โมเดลร่วมกับแนวคิดวิธีการกฎความสัมพันธ์  นำค่าสนับสนุนและค่าความเชื่อมั่นมาพิจารณาร่วมกันเพื่อให้ค่าน้ำหนักของคุณลักษณะ โดยทำการปรับค่าสนับสนุนให้อยู่ในช่วง 0-1 เพื่อไม่ให้มีค่าสนับสนุนของแต่ที่มากเกินไป และนำค่าพารามิเตอร์ที่เรียกว่า p มาใช้เพื่อถ่วงน้ำหนักระหว่างค่าสนับสนุนและค่าความเชื่อมั่น นอกจากนี้งานวิจัยนี้ยังได้นำเสนอการขจัดคุณลักษณะที่ซ้ำซ้อนโดยพิจารณาจากคุณลักษณะที่เกิดร่วมกันในเอกสารเดียวกัน แล้วทำการเลือกคุณลักษณะที่มีค่าน้ำหนักสูงสุดและตัดคุณลักษณะที่เหลือออก จากการทดลองแสดงให้เห็นว่า วิธีการคัดเลือกคุณลักษณะที่นำเสนอให้ประสิทธิภาพในการจำแนกสูงเมื่อข้อมูลมีขนาดใหญ่ที่ ค่า p = 0.8  และให้ค่าความถูกต้องสูงกว่าวิธีการอื่น อย่างมีนัยสำคัญที่ 0.05 เมื่อเปรียบเทียบกับขั้นตอนวิธีการคัดเลือกคุณลักษณะแบบฟิลเตอร์โมเดล 3 วิธี ได้แก่ วิธีการ Information Gain วิธีการ Chi-Square วิธีการ Gini Index และใช้เวลาในการคัดเลือกคุณลักษณะน้อยที่สุด การขจัดคุณลักษณะที่ซ้ำซ้อนด้วยวิธีการที่นำเสนอทำให้จำนวนคุณลักษณะลดลง แต่ไม่ได้ลดประสิทธิภาพในการจำแนก
Description: Doctor of Philosophy (Ph.D.)
ปรัชญาดุษฎีบัณฑิต (ปร.ด.)
URI: http://202.28.34.124/dspace/handle123456789/537
Appears in Collections:The Faculty of Informatics

Files in This Item:
File Description SizeFormat 
57011260501.pdf2.67 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.