بازشناسی مقاوم به نویز و تنوعات گفتار از طریق به اشتراک گذاشتن مؤلفههای مشترک
محورهای موضوعی : مهندسی برق و کامپیوترپروین زارعی اسکی کند 1 , سیدعلی سیدصالحی 2
1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر
چکیده مقاله :
یکی از روشهای بهبود عملکرد سامانههای بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین دادههای مختلف ورودی میباشد. در مورد شبکههایی که ظرفیت بسیار پایینی دارند امکان ذخیرهسازی الگوها بهصورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً افت پیدا میکند. در این مقاله ساختاری ارائه شده است که بتواند زیرفضای مشترک بین دادههای ورودی را استخراج کرده و آن را در میان گویندگان مختلف به اشتراک بگذارد. ساختار چندتکلیفی شبکه این امکان را فراهم میکند که این زیرفضا بهصورت یک جاذب پیوسته واحد شکل بگیرد که این جاذب نسبت به تنوعاتی مانند تغییرات گوینده در فضای ورودی پویا میباشد. لذا دادههای ورودی آغشته به نویز توسط یک نگاشت غیر خطی به یک مانیفولد در ابعاد پایین فیلتر میشوند که پویایی این مانیفولد مقاومبودن آن را نسبت به تنوعاتی مثل تغییر گوینده تأمین میکند. اتصالات بازگشتی در طی روند تعلیم، یک جاذب پیوسته را در فضای ورودی شکل میدهند که کدهای گوینده به اطلاعات لازم جهت پویاسازی این جاذب تبدیل میشوند. پس از فرایند جذبشدن داده آغشته به نویز، عمل بازشناسی بر روی داده تمیز حاصله اعمال میشود. استخراج و به اشتراک گذاشتن مؤلفههای مشترک در این ساختار توانسته است کارایی جاذبها را در بازشناسی مقاوم آوا تا حدود 5% نسبت به مدل مشابه، بدون پویایی جاذبها، در نسبت سیگنال به نویز dB 0 بهبود بخشد.
In this work, in order to increase the capacity of a recurrent neural network, we present a model for extracting common features and sharing them across data. As a result of using this model, extracted principle components of data will be invariant to unwanted variations. The recurrent connection of the network removes the noise using a continuous attractor formed during the training phase. The defined speaker codes will be transformed to the information need for switching the continuous attractor in the input space. As a result, speaker variations can be compensated and the recognition will performed when a clean signal is available. We compared the performance of this method with a reference network described in the paper. The results show that the proposed model is more useful in removing noise and unwanted variations. We compared the performance of this method with the reference network. The results show that the proposed model performs better in removing noise and unwanted variations, it increased the phoneme recognition accuracy about 5% when the signal to noise ratio is 0 dB.