تشخیص صفحات اسپم با استفاده از الگوریتم XGBoost
الموضوعات : electrical and computer engineeringریحانه رشیدپور 1 , علی محمد زارع بیدکی 2
1 - دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران
2 - دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران
الکلمات المفتاحية: اسپم وب, الگوریتم دستهبندی XGBoost, متوازنسازی داده, یادگیری ماشین.,
ملخص المقالة :
امروزه موتورهای جستجو دروازه ورود به وب هستند. با افزایش محبوبیت وب، تلاش برای بهرهبرداری تجاری، اجتماعی و سیاسی از وب نیز افزایش یافته و در نتیجه تشخیص یک محتوای خوب از اسپم برای موتورهای جستجو دشوار شده است. مفهوم اسپم وب نخستین بار در سال 1996 معرفی شد و خیلی زود به عنوان یکی از چالشهای کلیدی برای صنعت موتور جستجو شناخته شد. پدیده اسپم اساساً به این دلیل اتفاق میافتد که بخش قابل توجهی از مراجعات به صفحه وب از موتور جستجو میآیند و کاربران تمایل به بررسی اولین نتایج جستجو دارند. هدف از شناسایی صفحات اسپم این است که این صفحات با استفاده از استراتژیهای فریب قادر به کسب رتبه بالا نباشند. تلاش ما ارائه روشی مؤثر در شناسایی صفحات اسپم و در نتیجه کاهش حضور اسپم در نتایج اول جستجوست. در این مقاله دو روش برای مقابله با اسپم وب پیشنهاد شده است. روش اول به نام XGspam صفحات اسپم را بر اساس الگوریتم یادگیری XGBoost با دقت 27/94% شناسایی میکند. در روش دوم به نام XGSspam راهکاری برای چالش نامتوازنبودن دادههای وب با استفاده از ترکیب الگوریتم بیشنمونهبرداری SMOTE با مدل دستهبندی XGBoost ارائه شده که به دقت 44/95% در شناسایی صفحات اسپم میرسد.