Please use this identifier to cite or link to this item: http://202.28.34.124/dspace/handle123456789/3591
Title: Advancing Content-Based Analysis for Automatic Hate Speech Classification on Social Media
การพัฒนาการวิเคราะห์เนื้อหาโดยเทคนิคการจำแนกประทุษวาจาในสังคมออนไลน์
Authors: Korakoch Mounggam
กรกช ม่วงแกม
Kittipol Wisaeng
กิตติพล วิแสง
Mahasarakham University
Kittipol Wisaeng
กิตติพล วิแสง
kittipol.w@acc.msu.ac.th
kittipol.w@acc.msu.ac.th
Keywords: ประทุษวาจา
สื่อสังคมออนไลน์
ทฤษฎีกรอบเชิงความหมาย
การเรียนรู้เชิงลึก
การปรับปรุงโมเดล
hate speech
social media
frame semantic theory
deep learning
optimization
Issue Date:  8
Publisher: Mahasarakham University
Abstract: This research focuses on optimizing deep learning models for hate speech classification by evaluating various algorithms, hyperparameters, and data splits, with a key emphasis on frame semantic theory for categorizing hate speech. The study leverages three hate speech datasets, categorized into distinct frames using a frame semantic approach. Each frame is associated with a specific lexicon, which was used to manually annotate the dataset. To address class imbalance, the Synthetic Minority Over-sampling Technique (SMOTE) was applied, improving the detection of minority classes. The performance of the models was compared across different activation functions, data splits, and epoch configurations. Among these, the 70/30 data split emerged as the most effective, providing a balance between training and testing data that resulted in higher performance metrics. Hyperparameter tuning revealed that a model configuration with [64, 128] hidden layers, Rectifier activation, and 10 epochs achieved the highest accuracy (96.04%), recall (96.48%), precision (99.09%), and F1-score (0.98).
งานวิจัยนี้มุ่งเน้นไปที่การปรับปรุงโมเดลการเรียนรู้เชิงลึกสำหรับการจัดประเภทประทุษวาจา  โดยการประเมินอัลกอริธึมต่าง ๆ ค่าพารามิเตอร์ที่ใช้ในการฝึก และการแบ่งชุดข้อมูล โดยให้ความสำคัญกับทฤษฎีกรอบเชิงความหมาย (Frame Semantic Theory) ในการจัดกลุ่มเนื้อหาที่เป็นประทุษวาจา การศึกษานี้ใช้ชุดข้อมูลเกี่ยวกับประทุษวาจาสามชุด ซึ่งถูกจัดกลุ่มเป็นกรอบต่าง ๆ โดยใช้แนวทางเชิงกรอบความหมาย (Frame Semantic Approach) ซึ่งแต่ละกรอบจะมีพจนานุกรมคำเฉพาะของตนเองที่ใช้ในการระบุชุดข้อมูลด้วยมือ เพื่อแก้ไขปัญหาความไม่สมดุลของข้อมูล ชุดข้อมูลที่มีจำนวนหมวดหมู่น้อยกว่าได้ถูกเพิ่มโดยใช้วิธี SMOTE (Synthetic Minority Over-sampling Technique) ซึ่งช่วยปรับปรุงการตรวจจับหมวดหมู่ที่มีจำนวนน้อยกว่า ประสิทธิภาพของโมเดลถูกเปรียบเทียบตามการใช้ฟังก์ชันกระตุ้น การแบ่งชุดข้อมูล และการตั้งค่าจำนวนรอบ ซึ่งจากการทดลองพบว่า การแบ่งชุดข้อมูลแบบ 70/30 เป็นการแบ่งที่มีประสิทธิภาพที่สุด โดยให้ความสมดุลระหว่างข้อมูลการฝึกและทดสอบ ซึ่งส่งผลให้ค่าประสิทธิภาพต่าง ๆ สูงขึ้น การปรับค่าพารามิเตอร์เผยให้เห็นว่า การตั้งค่าโมเดลที่ใช้เลเยอร์ซ่อนขนาด [64, 128] ฟังก์ชันกระตุ้นแบบ Rectifier และ 10 รอบ ให้ผลลัพธ์ดีที่สุด โดยได้ค่าความถูกต้องที่ 96.04% ค่าระลึกที่ 96.48% ค่าความแม่นยำที่ 99.09% และค่าถ่วงดุลที่ 0.98
URI: http://202.28.34.124/dspace/handle123456789/3591
Appears in Collections:Mahasarakham Business School

Files in This Item:
File Description SizeFormat 
65010966001.pdf2.61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.