ارائه یک روش مبتنی بر یادگیری برای تخمین و ارزیابی کیفیت مجموعه داده¬های پیوندی
محورهای موضوعی : فناوری اطلاعات و ارتباطات
1 - عضو هیات علمی
کلید واژه: کیفیت داده, ارزیابی خودکار, داده های پیوندی, مدلهای یادگیری,
چکیده مقاله :
هدف اصلی داده¬های پیوندی، تحقق وب معنایی و استخراج دانش از طریق پیوند دادن داده¬های موجود روی وب می¬باشد. یکی از موانع دستیابی به این هدف، وجود مشکلات و خطاها در داده¬های منتشر شده است که باعث ایجاد پیوندهای نادرست و درنتیجه استنتاج¬های نامعتبر می¬گردد. با توجه به اینکه کیفیت داده¬ها تأثیر مستقیم بر موفقیت پروژه داده¬های پیوندی و تحقق وب معنایی دارد، بهتر است تا کیفیت هریک از مجموعه¬های داده در مراحل اولیه انتشار ارزیابی شود. در این مقاله، یک روش مبتنی بر یادگیری برای ارزیابی مجموعه داده¬های پیوندی ارائه می¬شود. برای این منظور، ابتدا مدل کیفیت مبنا انتخاب شده و ویژگی های کیفی مدل به حوزه مورد مطالعه (که دراین مقاله حوزه داده های پیوندی است) نگاشت داده می¬شود. سپس، براساس نگاشت انجام شده، ویژگی های کیفی مهم در حوزه مورد مطالعه شناسایی شده و با تعریف ویژگی های فرعی، بصورت دقیق توصیف می¬شوند. در مرحله سوم، براساس مطالعات گذشته، سنجه های اندازه گیری هریک از ویژگی های فرعی استخراج شده و یا تعریف می شوند. سپس، سنجه های اندازه گیری باید براساس نوع داده ها در دامنه مورد مطالعه پیاده سازی شوند. در مرحله بعد، با انتخاب چند مجموعه داده، مقادیر سنجه ها بصورت خودکار روی مجموعه داده های مورد آزمایش، محاسبه می شوند. برای استفاده از روشهای یادگیری باناظر، لازم است کیفیت داد ها بصورت تجربی توسط افراد خبره ارزیابی شود. در این مرحله، میزان دقت هریک از مجموعه¬های داده توسط افراد خبره ارزیابی می¬شود و برمبنای آزمون¬های مطالعه همبستگی، رابطه بین مقادیر کمی سنجه¬های پیشنهادی و میزان دقت داده ها مورد بررسی قرار می¬گیرد. سپس با بهره¬گیری از روش¬های یادگیری، سنجه¬های مؤثر در ارزیابی دقت که قابلیت پیش¬بینی قابل قبولی دارند، شناسایی می¬شوند. در پایان، با بهره¬گیری از روش¬های یادگیری، یک مدل پیش¬بینی کیفیت برمبنای سنجه¬های پیشنهادی ارائه ¬شده است. نتایج ارزیابی¬ها نشان داد که روش پیشنهادی علاوه بر خودکاربودن، مقیاس¬پذیر، کارا و کاربست پذیر است.
The main purpose of linked data is to realize the semantic web and extract knowledge through linking the data available on the web. One of the obstacles to achieving this goal is the existence of problems and errors in the published data, which causes incorrect links and as a result, invalid conclusions. Considering that the quality of the data has a direct effect on the success of the linked data project and the realization of the semantic web, it is better to evaluate the quality of each of the data sets in the early stages of publication. In this paper, a learning-based method for evaluating linked datasets is presented. For this purpose, first, the base quality model is selected and the quality features of the model are mapped to the field under study (which is the field of linked data in this article). Then, based on the mapping done, the important qualitative features in the study area are identified and described in detail by defining sub-features. In the third stage, based on past studies, the measurement metrics of each of the sub-features are extracted or defined. Then, measurement metrics should be implemented based on the type of data in the studied domain. In the next step, by selecting several data sets, the metric values are automatically calculated on the tested data sets. To use observational learning methods, it is necessary to evaluate the quality of data experimentally by experts. At this stage, the accuracy of each of the data sets is evaluated by experts, and based on the correlation study tests, the relationship between the quantitative values of the proposed metrics and the accuracy of the data is investigated. Then, by using learning methods, the effective metrics in the accuracy evaluation that have an acceptable predictability are identified. In the end, using learning methods, a quality prediction model based on the proposed criteria is presented. The results of the evaluations showed that the proposed method is scalable, efficient and applicable in addition to being automatic.