گفتار برای بشر طبیعیترین و کارآمدترین ابزار مبادله اطلاعات است. کنترل محیط و ارتباط با ماشین بهوسیله گفتار از آرزوهای او بوده است. طراحی و تولید سیستمهای تشخیص گفتار هدف تحقیقاتی مراکز بسیاری در نیم قرن اخیر بوده است.
اکنون پژوهشگران تیم گفتار هوش مصنوعی فیسبوک (FAIR)، موفق به معرفی رویکرد جدیدی در سیستم تشخیص گفتار شدند.
وقتی میخواهیم در حوزهی زمان، دو سیگنال را در هم ضرب کنیم، همانند روش معمولی ضرب ریاضی اقدام میکنیم. ولی در حوزهی فرکانس، برای ضرب دو سیگنال باید از طریق کانولوشن ۲ سیگنال این عمل را انجام دهیم.
کانولوشن (convolution)، یک تکنیک بسیار قدرتمند و کارآمد برای محاسبه پاسخ حالت صفر (یعنی پاسخ به ورودی هنگام شرایط اولیه صفر) یک سیستم به هر ورودی دلخواه با استفاده از پاسخ ضربه است. کانولوشن، خاصیت خطی و جمع آثار (یا برهمنهی) دارد.
علاوه بر این، این رویکرد از سیستم متن بازی بنام flashlight، کتابخانه استاندارد ++C برای یادگیری ماشین و نیز ++Wav2letter بهعنوان سریعترین سرویس پیشرفته تشخیص گفتار سرتاسری یا end-to-end برخوردار است.
سیستم تشخیص گفتار سرتاسری به این معنا است که ترجمهای غیر منفعل و غیرخطی ارائه میشود که میتواند برای کاربران از جذابیت بالاتری نسبت به ترجمهی واژه به واژه و بدون توجه به لحن گوینده برخوردار باشد.
با توجه به اینکه هیچگونه توقفی برای انجام فعالیتها و وظایف بعدی در سیستم مبتنی بر هوش مصنوعی وجود ندارد، به چنین سیستمی، سرتاسری یا end-to-end گفته میشود.
استفاده از رویکردهای سرتاسری باعث افزایش سرعت ترجمه خواهد شد. علاوه بر این، با توجه به اینکه توقفی در حین انجام مراحل ترجمه هم وجود ندارد، از بروز خطاهای متعدد حین ترجمه کاسته میشود.
این سیستم جدید تشخیص گفتار از نوعی شبکه عصبی بازگشت کننده (RNN) برای مدلسازی زبانی و آکوستیکی استفاده میکند. رویکرد جدید فیسبوک در سرویس تشخیص گفتار منحصراً روی شبکههای عصبی کانولوشن عمل میکند.
در این رویکرد، سیستم تشخیص گفتار سرتاسری برای پیشبینی کاراکتر بعدی از شکل موج خام سیگنال صوتی آموزش داده میشود. رویکرد یادشده از یک مدل زبانی کانولوشن خارجی (external) برای رمزگشایی استفاده میکند.
در این روش، شبکههای عصبی پیچشی (CNN) مدلسازی آکوستیکی و مدلسازی زبانی را ارتقا میدهند و به لطف ابزارهایی که بهطور مشترک استفاده میشوند، قابلیت تولید مجدد را دارند.
به استثنای این رویکرد مبتنی بر CNN، فیسبوک از ++Wav2letter و سیستم فلش لایت برای تکمیل رویکرد و ایجاد قابلیت ساخت و تولید مجدد استفاده کرده است.
معماری شبکههای عصبی پبچشی یک مدل معماری رقیب برای مدلهایی است که هماکنون در زمینههای مدلسازی زبان، ترجمهی ماشینی و سنتز گفتار یا تبدیل متن به گفتار مورد استفاده قرار میگیرند.
اگرچه، سیستم تشخیص گفتار سرتاسری هنوز از معماری بازگشت کننده برای هر دو بخش متداول مدلسازی زبانی و آکوستیکی استفاده میکند.
پژوهشگران تیم گفتار هوش مصنوعی فیسبوک اولین سیستم تشخیص گفتار کانولوشن را بر اساس شبکههای عصبی پیچشی توسعه دادهاند. از شکل موج خام سیگنال صوتی تا تولید یک کلمه قابل فهم، تمام بخشهای یادگیرنده سیستم فقط با لایههای کانولوشنی تشکیل شدهاند.
با ظهور این عملکرد از معماری CNN، میتوان گفت که معماری شبکه عصبی کانولوشن با معماری شبکه عصبی بازگشت کننده قابلرقابت است.
همچنین تیم گفتار FAIR با همکاری سازندگان Torch و Deep Speech، موفق به طراحی فلش لایت شدند. فلش لایت یک کتابخانه مستقل ++C برای یادگیری ماشین است.
کتابخانه استاندارد ++C یک مجموعه از کلاسها و واسطههای رایجی است که تا حد زیادی هسته اصلی زبان ++C را گسترش داده است. از ویژگیهای آن میتوان کامپایل همزمان با زبان برنامهنویسی مدرن ++C را بیان کرد.
این رویکرد همزمان با هدف قرار دادن هر دو پردازنده (CPU) و پردازنده گرافیکی (GPU) سیستم را برای ارائه حداکثر کارایی آماده میکند. ++Wav2letter ابزار جدیدی است که بر مبنای فلش لایت ساخته شده و بهطور کامل با زبان برنامهنویسی ++C نوشته شده است. این ابزار جدید از چندین فرمت فایلهای صوتی مانند wav و flac پشتیبانی میکند.
سیستم تشخیص گفتار سرتاسری، مقیاسپذیری در زبانهای مختلف را آسانتر میکند. همچنین، زمانی که کیفیت صدا بسیار متغیر است، یادگیری بهطور مستقیم از دادههای خام صوتی یک گزینه نویدبخش در بخش تنظیمات است.
عملکرد سیستمهایی با کارایی بالا مانند ++Wav2letter تکرار سریع را امکانپذیر میکند که عامل مهمی در موفقیت تحقیقات و مدل مبتنی بر تنظیم دقیق روی مجموعه دادهها و تکالیف جدید محسوب میشود.
نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند *
ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم.
لطفا پاسخ را به عدد انگلیسی وارد کنید: