پردازش صدا با استفاده از تکنیک های شبکه های عصبی مصنوعی

چکيده:

پردازش صدا یکی از مباحث روز و هیجان انگیزه بوده که کاربرد های بسیار دارد. یکی از راه های پردازش صدا، استفاده از مدل های آماری است. مدل سازی عروض، نقشی حیاتی در توسعه ی سیستم ترکیب متن به گفتار (TTS) با کیفیت بالا را بازی می کند. عروض به مدت زمان، زیر و بمی صدا و الگوهای شدت گفتار مربوط به دنباله ای از هجاها، کلمات و عبارات اشاره می کند. این ویژگی ها معمولاً در بخش های طولانی تری از گفتار مشاهده می شوند.

دنباله ی مدت زمان هجا به عنوان الگوی مدت زمان تعریف شده است. یک روش شناسی هوشمند ترکیب شده توسط تبدیل بسته- موجک و شبکه ی عصبی مصنوعی برای تشخیص کیفیت صدا در این مقاله ارائه شده است. بر اساس اندازه ی تسریع نویز حامل، مقایسه ی پنج تکنیک تجزیه و تحلیل فرکانس- زمان نشان می دهد که WPT با پارتیشن فرکانس معلوم برای شبیه سازی باندهای بحرانی شنوایی انسان مناسب تر است. بنابر این، درخت ناکامل WPT به نام OPWT به طور خاص برای استخراج ویژگی مبتنی بر انرژی صدا ها طراحی شده است.

 

بیان مساله:

تنوع در الگوهای مدت زمان، موجب طبیعی بودن گفتار می شود. زیر و بمی صدا می تواند به عنوان دینامیک های فرکانس های پایه (F0) کانتور در طول زمان تعریف شود. در نظر گرفته می شود که شدت، رابطه ی بسیار نزدیکی با بلندی صدای دریافتی داشته باشد. رفتار دینامیکی الگوی شدت، به عنوان کانتور شدت یا انرژی شناخته شده است.

یک مدل عروض خوب باید مدت زمان، زیر و بمی صدا و الگوهای شدت گفتار طبیعی را ضبط کند. هدف مطالعه ی فعلی، تعیین اینکه آیا مدل های غیر خطی می توانند دانش ضمنی الگوهای عروض هجاها را ضبط کند یا خیر، می باشد. در این کار، مدل های شبکه ی عصبی برای مدل سازی عروض ارائه شدند. شبکه های عصبی برای قابلیت ضبط روابط غیر خطی پیچیده ی ارائه شده در داده های [1, 2] شناخته شده می باشند. شبکه های عصبی توانایی تعمیم پیش بینی مقادیر خوبی برای الگوهایی را دارند که در فاز یادگیری ارائه نشده اند.

اخیراً، یک نقشه ی خود سازماندهی افزایشی ادغام شده با شبکه عصبی سلسله مراتبی (ISOM-HNN)، توجه زیادی را در میان کار محققان در ناحیه ی شبکه های عصبی و تشخیص الگو، به خود جلب کرده است. دلایل بالقوه برای محبوبیت آن با توجه به (i) تشخیص مؤثر سیگنال های رادیویی شناخته شده در محیط های بسیار مبهم، (ii) مناسب با برنامه های زمان واقعی، و (iii) بهبود در دقت پیش بینی می باشد. هدف ISOM جاسازی توانایی ضبط افزایشی در داخل SOM می باشد.

 

كليد واژه: پردازش صدا، شبکه عصبی مصنوعی، مدل سازی عروض

 

پی سی اسکریپت تلاش نموده است تا مقاله ای جامع برای شما عزیزان گردآوری نماید.

توضیحات تکمیلی

فرمت مقاله انگلیسی

مقاله ترجمه شده

تعداد صفحات

6

سال انتشار

2019

نقد و بررسی‌ها

اولین کسی باشید که دیدگاهی می نویسد “پردازش صدا با استفاده از تکنیک های شبکه های عصبی مصنوعی”

هیچ دیدگاهی برای این محصول نوشته نشده است.

  • توضیحات محصول را به خوبی بخوانید و در صورت نیاز به راهنمایی از بخش کاربری و سیستم تیکت استفاده نمایید .
  • تنها راه پشتیبانی محصولات سیستم تیکت می باشد .
  • برای دریافت آخرین نسخه محصولات و دسترسی همیشگی به محصولات خریداری شده حتما در سایت عضو شوید .
  • پرداخت از طریق درگاه بانکی انجام میشود در غیر این صورت با ما تماس بگیرید
  • در صورت نیاز به سفارشی سازی و تغییرات در این محصول ، لطفا از بخش پشتیبانی با ما در ارتباط باشید