هوش مصنوعی مایکروسافت با آموزش کمتری متن را به گفتار تبدیل می کند

6 سال پیش

سرویس های تبدیل متن به گفتار در حال تبدیل شدن به فرایندی هوشمندانه است، اما در حال حاضر در این سیستم یک مشکل وجود داد. این سیستم ها برای توسعه نیازمند وقت و منابع آموزشی بسیار زیادی برای تولید خروجی با صدای طبیعی می باشد. محققان مایکروسافت با همکاری محققان چینی راه حل مناسب تری را برای توسعه ی این سیستم ارائه کرده اند. آن ها یک هوش مصنوعی تبدیل متن به گفتار را ایجاد کرده اند که می تواند با استفاده از ۲۰۰ نمونه صوتی(حدود۲۰ دقیقه) تولید کند. همچنین قادر است نمونه های صوتی را با متن مطابقت تطبیق کند.

این سیستم به طور جزئی روی ترنسفورمرها(Transformers) یا شبکه های عصبی عمیق است که که تقریبا شباهت بسیار زیادی به نورون های در مغز دارد. ترنسفورمرها مانند لینک های سیناپسی در ورودی و خروجی عمل می کنند و به آن ها کمک می کنند تا دنباله های طولانی را بسیار موثرتر انجام دهد که دارای ساختار پیچیده ای هستند. ادغام آن بایک سیستم رمزگذار و هوش مصنوعی می تواند مقدار زیادی از نویز را حذف کند و خروجی بهتری داشته باشد.

نتایج بدست آمده از نظر صدا نزدیک به صدای رباتیکی است، اما می زان واضح بودن صدا در کلمات ۹۹٫۸۴ درصد است که میزان دقت بالای این سیستم را نشان می دهد. مهم تر از همه، این سیستم می تواند باعث سهولت دسترسی به سرویس های تبدیل متن به گفتار باشد. دسترسی شرکت های کوچک نیز به این فناوری راحت می باشدو دیگر نیازی به صرف زمان و تلاش زیاد ندارد. محققان امیدوارند این سیستم را با داده های غیر همسان نیز آموزش دهند تا با تلاش کمتری به ایجاد گفتگوی واقعی دست پیدا کنند.

منبع engadget