یوتیوب زیرنویس کردن افکت صوتی را با استفاده از هوش‎مصنوعی خودکار می‎کند

یوتیوب به مدت 8 سال است که از الگوریتم‎های مختلف برای زیرنویس‎کردن خودکار موارد گفتاری ویدئوها استفاده می‎کند تا افرادی که ناشنوا هستند یا در این زمینه ناتوانی دارند بهتر به میلیاردها ویدئوی به اشتراک گذاشته شده بر روی این پلت‎فرم دسترسی داشته باشند. با آن‎که این قابلیت در ابتدا بسیار نوسان داشت ولی به مرور زمان […]

یوتیوب به مدت 8 سال است که از الگوریتم‎های مختلف برای زیرنویس‎کردن خودکار موارد گفتاری ویدئوها استفاده می‎کند تا افرادی که ناشنوا هستند یا در این زمینه ناتوانی دارند بهتر به میلیاردها ویدئوی به اشتراک گذاشته شده بر روی این پلت‎فرم دسترسی داشته باشند. با آن‎که این قابلیت در ابتدا بسیار نوسان داشت ولی به مرور زمان بهتر شد و براساس گفته‎ی گوگل در وبلاگ توسعه‎دهنده‎های این شرکت به “میزان خطاهای تبدیل گفتار به نوشتار انسانی نزدیک‎تر و نزدیک‎تر” شده است. از آن‎جایی‎که گفتار تنها یک قسمت از تصویر دارای صدا است، یوتیوب برای اولین بار امکان زیرنویس کردن افکت صوتی را نیز راه‎‎اندازی کرده است.

در حال حاضر، این سیستم تنها سه دسته صدا را زیرنویس می‎کند: تشویق، موزیک و صدای خنده. این شرکت اعلام کرده است “این موارد در بین صداهایی قرار داشتند که بیشتر از همه به صورت دستی زیرنویس می‎شوند و آن‎ها می‎توانند برای تماشگرانی که ناشنوا هستند یا ناتوانایی شنوایی دارند، معنا دار باشند.”

همانند با قابلیت زیرنویس کردن هوشمند، گوگل از یادگیری ماشینی برای انتخاب صداها و نمایش دادن آن‎ها به شکل متن استفاده می‎کند. این شرکت یک مدل “شبکه‎ی عصبی عمیق (DNN)” برای صدای محیطی توسعه و آن را توسط “هزاران ساعت ویدئو” مورد آموزش قرار داده تا بهترین نتایج به دست آید. از نظر گوگل سخت‎ترین قسمت جداسازی و نمایش دادن رویدادهایی بوده است که در یک زمان رخ می‎دهند، مانند خنده و تشویق (دست زدن).

افکت‎های صوتی با شناخت خودکار دیالوگ ترکیب می‎شوند و “به عنوان قسمتی از فرآیند استاندارد زیرنویس کردن خودکار، نشان داده می‎شوند”، بسیار شبیه به چیزی که در نمایش‎های تلویزیونی با زیرنویس مشاهده می‎کنید.

تیم یوتیوب اعلام کرده که از “ساده بودن” این زیرنویس‎ها آگاه است ولی افزودن قابلیت‎های دیگر ساده‎تر خواهد بود چون حالا دارای یک بنیاد محکم است. در آینده، این شرکت صداهای متداولی را معرفی خواهد کرد مانند پارس کردن، کوبیدن در یا زنگ زدن. البته این امر باعث شکل‎گیری چالش جدیدی خواهد شد چون هوش‎مصنوعی بایستی متوجه شود به عنوان مثال آیا صدای زنگ از یک آلارم، گوشی یا زنگ در است.

بایستی اشاره کنیم که گوگل می‎گوید از نظر دو سوم شرکت‎کنندگان در این تحقیق زیرنویس افکت‎های صوتی تجربه‎ی مشاهده‎ی ویدئوها را بهتر کرده است. و با آن‎که احتمال بروز خطا وجود دارد (حتی دقت انسانی در حدود 95 درصد است)، ولی از دیدگاه کاربران احتمال اشتباه باعث در نظر نگرفتن مزایای این تکنولوژی نمی‎شود.

پیشنهاد ویژه : قیمت ارز دیجیتال
پیشنهاد ویژه : سرور HP
پیشنهاد ویژه : تعمیر کامپیوتر تهران
پیشنهاد ویژه : ترجمه رسمی آلمانی

پیشنهاد ویژه

خرید بلیط هواپیما فلای تودی

پیشنهاد ویژه

لیست کامل و نرخ لحظه ای ارزهای دیجیتال