بازشناسی مقاوم به نویز و تنوعات گفتار از طریق به اشتراک گذاشتن مؤلفه‌های مشترک

محورهای موضوعی : مهندسی برق و کامپیوتر

پروین زارعی اسکی کند ¹ , سیدعلی سیدصالحی ²

1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر

تاریخ دریافت : 1394/09/07 تاریخ پذیرش : 1394/09/07 تاریخ انتشار : 1390/03/31

کلید واژه: استخراج مؤلفه‌های اساسی بازشناسی گفتار مقاوم به نویز به اشتراک گذاشتن مؤلفه‌های مشترک جاذب پیوسته پویا کاهش بعد غیر خطی,

چکیده مقاله :

یکی از روش‌های بهبود عملکرد سامانه‌های بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین داده‌های مختلف ورودی می‌باشد. در مورد شبکه‌هایی که ظرفیت بسیار پایینی دارند امکان ذخیره‌سازی الگوها به‌صورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً افت پیدا می‌کند. در این مقاله ساختاری ارائه شده است که بتواند زیرفضای مشترک بین داده‌های ورودی را استخراج کرده و آن را در میان گویندگان مختلف به اشتراک بگذارد. ساختار چندتکلیفی شبکه این امکان را فراهم می‌کند که این زیرفضا به‌صورت یک جاذب پیوسته واحد شکل بگیرد که این جاذب نسبت به تنوعاتی مانند تغییرات گوینده در فضای ورودی پویا می‌باشد. لذا داده‌های ورودی آغشته به نویز توسط یک نگاشت غیر خطی به یک مانیفولد در ابعاد پایین فیلتر می‌شوند که پویایی این مانیفولد مقاوم‌بودن آن را نسبت به تنوعاتی مثل تغییر گوینده تأمین می‌کند. اتصالات بازگشتی در طی روند تعلیم، یک جاذب پیوسته را در فضای ورودی شکل می‌دهند که کدهای گوینده به اطلاعات لازم جهت پویاسازی این جاذب تبدیل می‌شوند. پس از فرایند جذب‌شدن داده آغشته به نویز، عمل بازشناسی بر روی داده تمیز حاصله اعمال می‌شود. استخراج و به اشتراک گذاشتن مؤلفه‌های مشترک در این ساختار توانسته است کارایی جاذب‌ها را در بازشناسی مقاوم آوا تا حدود 5% نسبت به مدل مشابه، بدون پویایی جاذب‌ها، در نسبت سیگنال به نویز dB 0 بهبود بخشد.

چکیده انگلیسی:

In this work, in order to increase the capacity of a recurrent neural network, we present a model for extracting common features and sharing them across data. As a result of using this model, extracted principle components of data will be invariant to unwanted variations. The recurrent connection of the network removes the noise using a continuous attractor formed during the training phase. The defined speaker codes will be transformed to the information need for switching the continuous attractor in the input space. As a result, speaker variations can be compensated and the recognition will performed when a clean signal is available. We compared the performance of this method with a reference network described in the paper. The results show that the proposed model is more useful in removing noise and unwanted variations. We compared the performance of this method with the reference network. The results show that the proposed model performs better in removing noise and unwanted variations, it increased the phoneme recognition accuracy about 5% when the signal to noise ratio is 0 dB.

منابع و مأخذ:

اشتراک گذاری

آدرس مقاله

بازشناسی مقاوم به نویز و تنوعات گفتار از طریق به اشتراک گذاشتن مؤلفه‌های مشترک