استخراج ویژگیها و بسط لغتنامه در اندیشهکاوی مورد استفاده در متون فارسی
محورهای موضوعی : electrical and computer engineeringعفت گلپر رابوکی 1 , ساقیالسادات ضرغامیفر 2 , جلال رضايي نور 3
1 - دانشگاه قم
2 - دانشگاه قم
3 - دانشگاه قم
کلید واژه: اندیشهکاوی استخراج ویژگی بسط لغتنامه اندیشهکاوی برچسب ادات سخن برچسب نحوی انتشار دوگانه,
چکیده مقاله :
اندیشهکاوی به تحلیل اظهار نظرات کاربران جهت استخراج نظرات، احساسات و خواستههای کاربران در یک حوزه خاص میپردازد. دانستن نظرات افراد در یک حوزه خاص میتواند نقش مهمی در تصمیمگیریهای کلان آن حوزه ایفا کند. به طور کلی اندیشهکاوی در سه سطح سند، جمله و ویژگی به استخراج نظرات کاربران میپردازد. اندیشهکاوی در سطح ویژگی به دلیل تحلیل جهتگیری جنبههای مختلف یک حوزه از دو سطح دیگر بیشتر مورد توجه قرار دارد. در این مقاله روشی به منظور استخراج ویژگیها و بسط لغتنامه اندیشهکاوی ارائه شده است. این لغتنامه به منظور تعیین جهتگیری نظرات کاربران مورد استفاده قرار میگیرد. روش پیشنهادی شامل چهار گام اصلی است. در گام نخست لغتنامه اندیشهکاوی برای زبان فارسی ایجاد میشود. گام دوم مرحله پیشپردازش شامل تقطیع، ایجاد برچسبهای ادات سخن و برچسب وابستگی نحوی اسناد است. گام سوم استخراج ویژگیها و بسط لغتنامه با استفاده از روش انتشار دوگانه است و در گام چهارم ویژگیها و قطبیت کلمات حاوی نظر استخراجشده در مرحله قبلی اصلاح شده و در نهایت قطبیت ویژگیها تعیین میگردد. برای ارزیابی روش پیشنهادی، نتایج حاصل را با روش استخراج ویژگی بر اساس تکرار در متون فارسی که قبلاً ارائه شده است مقایسه خواهیم نمود. نتايج به دست آمده نشان ميدهد كه روش ارائهشده در اين مقاله نسبت به روش استخراج ویژگی بر اساس تکرار در متون فارسی عملكرد بهتري دارد.
Opinion mining deals with an analysis of user reviews for extracting their opinions, sentiments and demands in a specific area, which plays an important role in making major decisions in such areas. In general, opinion mining extracts user reviews at three levels of document, sentence and feature. Opinion mining at the feature level is taken into consideration more than the other two levels due to orientation analysis of different aspects of an area. In this paper, one method is introduced for a feature extraction. The recommended method consists of four main stages. First, opinion-mining lexicon for Persian is created. This lexicon is used to determine the orientation of users’ reviews. Second, the preprocessing stage includes unification of writing, tokenization, creating parts-of-speech tagging and syntactic dependency parsing for documents. Third, the extraction of features uses the method including dependency grammar based feature extraction. Fourth, the features and polarities of the word reviews extracted in the previous stage are modified and the final features' polarity is determined. To assess the suggested techniques, a set of user reviews in both scopes of university and cell phone areas were collected and the results of the method were compared with frequency-based feature extraction method.