چانهزني هوشمند در بازار با استفاده از یادگیری تقويتي
محورهای موضوعی : electrical and computer engineeringمحمدعلی سعادتجو 1 , ولی درهمی 2 , فاطمه سعادت جو 3
1 - دانشگاه کاشان
2 - دانشگاه یزد
3 - دانشگاه علم و هنر
کلید واژه: بازار الکترونيکي چانهزني یادگیری تقويتي,
چکیده مقاله :
استفاده از تكنيكهاي فناوري اطلاعات در بازارهاي الکترونيکي، پویایی و پيچيدگي سيستم عرضه و تقاضا را بالا برده است. بنابراين بهکارگيري عاملهاي هوشمند جهت خريد و فروش و چانهزني در اين گونه بازارها بهعنوان يک راهکار مؤثر پيشنهاد شده است. الگوريتم یادگیری تقويتي يكي از روشهاي قوي یادگیری عاملهاست که با كمترين اطلاعات ممكن ميتواند بهصورت تعاملي براي آموزش عامل، در راستاي پيشنهاد قيمت بهکار گرفته شود. چانهزني يك مذاكره چالش برانگيز و پيچيده است كه علت آن تنوع متغيرهاي بسيار زياد در روابط عرضه و تقاضا و دانش ناكافي شركتكنندگان در بازار ميباشد. در اين مقاله نحوه بهکارگيري یادگیری تقويتي در مسأله چانهزني در دو بازار مناقصه و مزايده در راستاي بيشينهسازي افزايش سود عامل بيان ميگردد. متغيرهاي حالت، عمل و تابع یادگیری تقويتي براي مسأله چانهزني در بازار به کمک يک مسأله یادگیری تقويتي نمونه فرمولبندي میشوند. با مقايسه روش ارائهشده و يك روش تجربی به اين واقعيت خواهيم رسيد كه عامل آموزشديده، سود به مراتب بيشتري را از يک عامل تجربی کسب مينمايد.
Using Information Technology techniques have been increased complication and dynamicity of supply-and-demand systems like auctions. In this paper, we introduce a novel method by applying Reinforcement Learning (RL) price offer as one of the robust methods of agent learning which can be used in interactive conditions with minimum level of information in auction and reverse auction. Negotiation as one of the challengeable and complicated behaviors is caused an agreement on price in auctions. The main aim of our method is maximizing seller’s and customer’s profits. We formulate seller and customer selection in form of two different RL problems. All of the RL parameters like states, actions, and reinforcement function are defined. Also, we describe an experimental method to compare with our proposed method for proving advantages of our method.