یک روش انتخاب ویژگی ترکیبی برای دادههای با بعد بالا مبتنی بر خرد جمعی
محورهای موضوعی : مهندسی برق و کامپیوترامیررضا روحی 1 , حسین نظامآبادیپور 2
1 - دانشگاه شهيد باهنر کرمان
2 - دانشگاه شهید باهنر کرمان
کلید واژه: انتخاب ويژگي دادههای با بعد بالا روشهای ترکیبی روشهای فراابتکاری روشهای فیلتری روشهای خرد جمعی,
چکیده مقاله :
امروزه با ظهور و گسترش دادههای بعد بالا، روند انتخاب ویژگی نقش بسیار مهمی را در زمینه یادگیری ماشینی و به خصوص مسایل طبقهبندی داده، بازی ميکند. کار بر روی دادههای با بعد بالا از جمله دادههای میکروآرایهای با مشکلاتی همچون وجود ویژگیهای نامرتبط و افزونه بسیار روبهرو است که باعث کاهش نرخ صحت طبقهبند، افزایش هزینه محاسباتی و معضل "نفرین بعد" میشود. در این مقاله به ارائه یک روش ترکیبی با استفاده از رویکردهای خرد جمعی برای انتخاب ویژگی در دادههای با بعد بالا پرداخته میشود. در روش پیشنهادی، ابتدا در مرحله اول از یک روش فیلتری برای کاهش بعد داده استفاده میشود، سپس در مرحله دوم، دو الگوریتم روزآمد پیچشی با استفاده از رویکرد خرد جمعی بر روی ویژگیهای کاهشیافته اعمال شده و نتیجه تجمیع میگردد. روش پیشنهادی بر روی 8 پایگاه داده میکروآرایهای مورد ارزیابی قرار گرفته و مقایسه نتایج با چندین روش روزآمد و شناختهشده در حوزه انتخاب ویژگی، کارایی روش پیشنهادی را تأیید میکند.
Nowadays, with the advent and proliferation of high-dimensional data, the process of feature selection plays an important role in the domain of machine learning and more specifically in the classification task. Dealing with high-dimensional data, e.g. microarrays, is associated with problems such as increased presence of redundant and irrelevant features, which leads to decreased classification accuracy, increased computational cost, and the curse of dimensionality. In this paper, a hybrid method using ensemble methods for feature selection of high dimensional data, is proposed. In the proposed method, in the first stage, a filter method reduces the dimensionality of features and then, in the second stage, two state-of-the-art wrapper methods run on the subset of reduced features using the ensemble technique. The proposed method is benchmarked using 8 microarray datasets. The comparison results with several state-of-the-art feature selection methods confirm the effectiveness of the proposed approach.