بهبود رتبهبندی با استفاده از BERT
محورهای موضوعی : مهندسی برق و کامپیوترشکوفه بستان 1 , علی محمد زارع بیدکی 2 , محمدرضا پژوهان 3
1 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
2 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
3 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
کلید واژه: بردار معنایی, درونسازی واژه, رتبهبندی, یادگیری عمیق,
چکیده مقاله :
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای درونسازی واژگان برای بهتصویرکشیدن نمایشهای معنایی پرسوجوهای کاربر و محتوای سند استفاده میکند. با تبدیل دادههای متنی به بردارهای معنایی، ارتباط و شباهت بین پرسوجوها و اسناد تحت روابط رتبهبندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار میگیرد. روابط رتبهبندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر میگیرند که این عوامل شامل بردارهای درونسازی واژگان، مکان واژگان کلیدی و تأثیر واژگان باارزش در رتبهبندی بر مبنای بردارهای معنایی است. آزمایشها و تحلیلهای مقایسهای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روشهای رتبهبندی رایج نشان میدهند. این نتایج بیانگر آن مسئله است که استفاده از مدلهای درونسازی و ترکیب آن در روابط رتبهبندی پیشنهادی بهطور قابل توجهی دقت رتبهبندی را تا 87/0 در بهترین حالت بهبود میبخشد. این بررسی به بهبود رتبهبندی اسناد کمک میکند و پتانسیل مدل درونسازی BERT را در بهبود عملکرد رتبهبندی نشان میدهد.
In today's information age, efficient document ranking plays a crucial role in information retrieval systems. This article proposes a new approach to document ranking using embedding models, with a focus on the BERT language model to improve ranking results. The proposed approach uses vocabulary embedding methods to represent the semantic representations of user queries and document content. By converting textual data into semantic vectors, the relationships and similarities between queries and documents are evaluated under the proposed ranking relationships with lower cost. The proposed ranking relationships consider various factors to improve accuracy, including vocabulary embedding vectors, keyword location, and the impact of valuable words on ranking based on semantic vectors. Comparative experiments and analyses were conducted to evaluate the effectiveness of the proposed relationships. The empirical results demonstrate the effectiveness of the proposed approach in achieving higher accuracy compared to common ranking methods. These results indicate that the use of embedding models and their combination in proposed ranking relationships significantly improves ranking accuracy up to 0.87 in the best case. This study helps improve document ranking and demonstrates the potential of the BERT embedding model in improving ranking performance.