یوتیوب زیرنویس کردن افکت صوتی را با استفاده از هوشمصنوعی خودکار میکند
یوتیوب به مدت 8 سال است که از الگوریتمهای مختلف برای زیرنویسکردن خودکار موارد گفتاری ویدئوها استفاده میکند تا افرادی که ناشنوا هستند یا در این زمینه ناتوانی دارند بهتر به میلیاردها ویدئوی به اشتراک گذاشته شده بر روی این پلتفرم دسترسی داشته باشند. با آنکه این قابلیت در ابتدا بسیار نوسان داشت ولی به مرور زمان […]
یوتیوب به مدت 8 سال است که از الگوریتمهای مختلف برای زیرنویسکردن خودکار موارد گفتاری ویدئوها استفاده میکند تا افرادی که ناشنوا هستند یا در این زمینه ناتوانی دارند بهتر به میلیاردها ویدئوی به اشتراک گذاشته شده بر روی این پلتفرم دسترسی داشته باشند. با آنکه این قابلیت در ابتدا بسیار نوسان داشت ولی به مرور زمان بهتر شد و براساس گفتهی گوگل در وبلاگ توسعهدهندههای این شرکت به “میزان خطاهای تبدیل گفتار به نوشتار انسانی نزدیکتر و نزدیکتر” شده است. از آنجاییکه گفتار تنها یک قسمت از تصویر دارای صدا است، یوتیوب برای اولین بار امکان زیرنویس کردن افکت صوتی را نیز راهاندازی کرده است.
در حال حاضر، این سیستم تنها سه دسته صدا را زیرنویس میکند: تشویق، موزیک و صدای خنده. این شرکت اعلام کرده است “این موارد در بین صداهایی قرار داشتند که بیشتر از همه به صورت دستی زیرنویس میشوند و آنها میتوانند برای تماشگرانی که ناشنوا هستند یا ناتوانایی شنوایی دارند، معنا دار باشند.”
همانند با قابلیت زیرنویس کردن هوشمند، گوگل از یادگیری ماشینی برای انتخاب صداها و نمایش دادن آنها به شکل متن استفاده میکند. این شرکت یک مدل “شبکهی عصبی عمیق (DNN)” برای صدای محیطی توسعه و آن را توسط “هزاران ساعت ویدئو” مورد آموزش قرار داده تا بهترین نتایج به دست آید. از نظر گوگل سختترین قسمت جداسازی و نمایش دادن رویدادهایی بوده است که در یک زمان رخ میدهند، مانند خنده و تشویق (دست زدن).
افکتهای صوتی با شناخت خودکار دیالوگ ترکیب میشوند و “به عنوان قسمتی از فرآیند استاندارد زیرنویس کردن خودکار، نشان داده میشوند”، بسیار شبیه به چیزی که در نمایشهای تلویزیونی با زیرنویس مشاهده میکنید.
تیم یوتیوب اعلام کرده که از “ساده بودن” این زیرنویسها آگاه است ولی افزودن قابلیتهای دیگر سادهتر خواهد بود چون حالا دارای یک بنیاد محکم است. در آینده، این شرکت صداهای متداولی را معرفی خواهد کرد مانند پارس کردن، کوبیدن در یا زنگ زدن. البته این امر باعث شکلگیری چالش جدیدی خواهد شد چون هوشمصنوعی بایستی متوجه شود به عنوان مثال آیا صدای زنگ از یک آلارم، گوشی یا زنگ در است.
بایستی اشاره کنیم که گوگل میگوید از نظر دو سوم شرکتکنندگان در این تحقیق زیرنویس افکتهای صوتی تجربهی مشاهدهی ویدئوها را بهتر کرده است. و با آنکه احتمال بروز خطا وجود دارد (حتی دقت انسانی در حدود 95 درصد است)، ولی از دیدگاه کاربران احتمال اشتباه باعث در نظر نگرفتن مزایای این تکنولوژی نمیشود.
پیشنهاد ویژه : قیمت ارز دیجیتال |
پیشنهاد ویژه : سرور HP |
پیشنهاد ویژه : تعمیر کامپیوتر تهران |
پیشنهاد ویژه : ترجمه رسمی آلمانی |
پیشنهاد ویژه |
پیشنهاد ویژه |
ارسال دیدگاه
مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰