یک روش بدون پارامتر مبتنی بر نزدیکی برای تشخیص دادههای پرت
محورهای موضوعی : electrical and computer engineering
1 - دانشگاه تربیت دبیر شهید رجایی
2 - دانشگاه شهید رجایی
کلید واژه: بدون پارامترتشخیص دادههای پرتمبتنی بر نزدیکی,
چکیده مقاله :
تشخیص دادههای پرت به عنوان یک حوزه تحقیق در دادهکاوی و یادگیری ماشین بوده و یک گام مهم در پیشپردازش دادهها به حساب میآید. در این مقاله یک روش بدون پارامتر به منظور تشخیص دادههای پرت مبتنی بر نزدیکی به نام NPOD ارائه شده است. رهیافت ارائهشده، ترکیبی از روشهای مبتنی بر فاصله و مبتنی بر چگالی بوده و توانایی تشخیص پرتها را به صورت سراسری و محلی دارد. این روش نیاز به تعیین هیچ یک از پارامترهای شعاع همسایگی، حد آستانه نقاط موجود در شعاع همسایگی و پارامتر نزدیکترین همسایگی ندارد. NPOD برای تشخیص دادههای پرت، یک روش جدید نمرهدهی ارائه میدهد. ارزیابی نتایج بر روی مجموعه دادههای UCI نشان میدهد که این الگوریتم با وجود بدون پارامتر بودنش، عملکردی قابل رقابت با روشهای پیشین و در بعضی مواقع بهترین عملکرد را دارد.
The detection of outliers is a task in data mining and machine learning and it’s an important step in data preprocessing. In this paper, in order to detect proximity-based outliers, a non-parametric method is proposed called NPOD. The proposed method is a combination of distance-based and density-based methods and has the ability to detect outliers in both local and global scenarios. This method does not require to determine any parameters of neighborhood radius, the threshold of existing points in the neighborhood radius, and the nearest neighbor parameters. In order to detect outliers, a new method of scoring is presented. Experimental results on the UCI datasets show that this algorithm, in spite of being non-parametric, has comparable results with previous methods. Also in some cases, it has the best performance.