بررسی سربارهای سختافزاری و بهرهوری انرژی در پیادهسازی انواع چندیسازی ممیزثابت در شتابدهنده شبکه عصبی عمیق
محورهای موضوعی : هوش مصنوعی و رباتیک
مرضیه مستعلی زاده
1
,
سید علی انصارمحمدی
2
,
نجمه نظری
3
,
مصطفی ارسالی صالحی نسب
4
1 - مهندسی معماری کامپیوتر، دانشکده برق و کامپیوتر، دانشگاه تهران، تهران، ایران
2 - دانشجو مقطع دکتری، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران، تهران، ایران
3 - مهندسی معماری کامپیوتر، دانشکده برق و کامپیوتر، دانشگاه تهران، تهران، ایران
4 - دانشگاه تهران
کلید واژه: شبکههای عصبی عمیق, سیستمهای نهفته, بهرهوری انرژی, کوانتیزاسیون ممیزثابت,
چکیده مقاله :
یکی از کارآمدترین راهکارهای فشردهسازی و کاهش انرژی مصرفی شبکههای عصبی عمیق در دستگاههای نهفته، کوانتیزاسیون با استفاده از نمایش اعداد ممیز ثابت است. در سالهای اخیر، روشهای متنوعی برای بهبود صحت شبکههای کوانتیزهشده مطرح شده است که اغلب سربارهای محاسباتی زیادی به شبکه تحمیل میکنند، اگرچه این موضوع تاکنون از دید طراحان شبکههای عصبی عمیق پنهان ماندهاست. در این پژوهش، روشهای مختلف کوانتیزاسیون ممیزثابت، بر اساس مولفههای تاثیرگذار در سربارهای سخت افزاری، طبقهبندی و مدل شده است. پس از آن، معماریهای سختافزاری ارائهشده برای هریک از مدلها به صورت عادلانه، با در نظرگرفتن هزینهفایدهی بین صحت شبکه و بهرهوری انرژی سختافزار، بررسی و مقایسه میشوند. نتایج نشان میدهد تکنیکهایی که برای کاهش خطای روشهای کوانتیزاسیون به کار گرفته میشود، اگرچه به افزایش صحت شبکههای عصبی منجر میشود اما از طرف دیگر بهرهوری انرژی سختافزار را کاهش میدهد. براساس نتایج شبیهسازی، افزودن ضریب مقیاس و آفست به کوانتیزاسیون ممیزثابت LSQ، صحت شبکه را حدود 1/0 افزایش میدهد اما بهرهوری انرژی سختافزار حدود 3 برابر کمتر شده است. این موضوع لزوم توجه به سربارهای سختافزاری را بهخصوص در سیستمهای نهفته، بیش از پیش نشان میدهد.
Deep Neural Networks (DNNs) have demonstrated remarkable performance in various application domains, such as computer vision, pattern recognition, and natural language processing. However, deploying these models on edge-computing devices poses a challenge due to their extensive memory requirements and computational complexity. These factors make it difficult to deploy DNNs on low-power and limited-resource devices. One promising technique to address this challenge is quantization, particularly fixed-point quantization. Previous studies have shown that reducing the bit-width of weights and activations, such as to 3 or 4 bits, through fixed-point quantization can preserve the classification accuracy of full-precision neural networks. Despite extensive research on the compression efficiency of fixed-point quantization techniques, their energy efficiency, a critical metric in evaluating embedded systems, has not been thoroughly explored. Therefore, this research aims to assess the energy efficiency of fixed-point quantization techniques while maintaining accuracy. To accomplish this, we present a model and design an architecture for each quantization method. Subsequently, we compare their area and energy efficiency at the same accuracy level. Our experimental results indicate that incorporating scaling factors and offsets into LSQ, a well-known quantization method, improves DNN accuracy by 0.1%. However, this improvement comes at the cost of a 3× decrease in hardware energy efficiency. This research highlights the significance of evaluating fixed-point quantization techniques not only in terms of compression efficiency but also in terms of energy efficiency when applied to edge-computing device.