تشخیص روباتهای وب با استفاده از نظریه مجموعههای فازی ناهموار
محورهای موضوعی : مهندسی برق و کامپیوتر
سمانه رحیمی
1
,
جواد حمیدزاده
2
1 - دانشگاه بینالمللی امام رضا علیهالسلام
2 - دانشگاه صنعتی سجاد
چکیده مقاله :
روباتهای وب، برنامههای نرمافزاری هستند که به طور خودکار در اینترنت اجرا میشوند و مهمترین وظیفه آنها واکشی اطلاعات و ارسال آنها به سرویسدهنده مبدأ است. مصرف زیاد پهنای باند شبکه توسط آنها و کاهش کارایی سرویسدهنده باعث شده تا مسأله تشخیص روباتهای وب مطرح شود. در این مقاله از نظریه مجموعههای فازی ناهموار برای تشخیص روباتهای وب استفاده شده است. روش پیشنهادی شامل چهار مرحله است. در مرحله اول، نشستهای کاربران وب توسط خوشهبندی مجموعههای فازی ناهموار شناسایی میشود. در مرحله دوم، برداری شامل 10 ویژگی متمایز برای هر نشست استخراج میگردد. در مرحله سوم نشستهای شناساییشده توسط یک روش مکاشفهای برچسبگذاری میشود. در مرحله چهارم این برچسبها با استفاده از طبقهبندی مجموعههای فازی ناهموار بهبود مییابد. کارایی روش پیشنهادی بر روی مجموعه دادههای واقعی ارزیابی شده است. نتایج آزمایشها نشاندهنده برتری روش پیشنهادی نسبت به سایر روشهای مطرح از نظر معیار F است.
Web robots are software programs that traverse the internet autonomously. Their most important task is to fetch information and send it to the origin server. The high consumption of network bandwidth by them and server performance reduction, have caused the web robot detection problem. In this paper, fuzzy rough set theory has been used for web robot detection. The proposed method includes 4 phases. In the first phase, user sessions have identified using fuzzy rough set clustering. In the second phase, a vector of 10 features is extracted for each session. In the third phase, the identified sessions are labeled using a heuristic method. In the fourth phase, these labels are improved using fuzzy rough set classification. The proposed method performance has been evaluated on a real world dataset. The experimental results have been compared with state-of-the-art methods, and show the superiority of the proposed method in terms of F-measure.