دنیایی را تصویر کنید که در آن می توانید با صدای خود کارهای مختلفی انجام دهید. وقتی به خانه می آیید به رایانه ی خود دستور می دهید تا مثلا برنامه ای را برای شما باز کند و یا به دستیار صوتی موجود در گوشی همراه خود دستور می دهید شماره ی دوستتان را بگیرد. این ها از جمله مثال هایی هستند که دستیاران دیجیتال برای ما انجام می دهند. یک دستیار دیجیتال می تواند به افراد در انجام کارهایی کمک کند.
دستيار صوتي
شاید بتوان پیشینه ی دستیاران دیجیتال را به دهه ی ۱۹۶۰ نسبت داد. زمانی که مطالعات و تحقیقاتی در زمینه ی فناوری تبدیل صوت به متن و تشخیص گفتار در حال انجام بود. در اوایل دهه ی ۱۹۶۰ IBM ابزاری به نام Shoebox را توسعه داد که از فناوری تبدیل صوت به متن استفاده می کرد. Shoebox اولین ابزار تبدیل صوت به متن بود که توانایی تشخیص ۱۶ کلمه که شامل اعداد ۰ تا ۹ می شد را داشت.
Shoebox اولین برنامه تبدیل صوت به متن توسط IBM
سال ها بعد در سال ۲۰۱۱ بعد اولین دستیار صوتی به نام Siri توسط شرکت اپل و در گوشی های آیفون ارائه شد. Alexa آمازون، Cortana ماکروسافت، دستیار گوگل و Siri اپل نمونه هایی از دستیاران صوتی هستند که هم اکنون توسعه پیدا کرده و مورد استفاده قرار می گیرند.
دستیار صوتی چگونه کار می کند؟
به صورت کلی یک دستیار صوتی (دستیار دیجیتال، دستیار هوشمند) برنامه، نرم افزار یا اپلیکیشنی است که به فرمان صوتی که به آن داده می شود واکنش نشان داده و درخواست کاربر را اجرا می کند. دستیار می تواند پاسخی به کاربر بدهد، فعالیت هایی مانند اجرای یک آهنگ، تماس تلفنی یا اجرای یه برنامه را انجام دهد. در آینده حتما با پیشرفت هایی که در زمینه ی هوش مصنوعی انجام خواهد شد، دستیارهای صوتی هم هوشمند تر شده و فعالیت های پیچیده تری را انجام خواهند داد.
مراحل اجرای دستورات توسط دستیار صوتی
یک برنامه ی دستیار صوتی با دریافت یک کلمه ی خاص شروع به کار می کند. به عنوان مثل Siri با دریافت عبارت “Hey Siri” یا Alexa با دریافت “Alexa” می فهممد که کاربر از آن ها درخواستی دارد. بعد از دریافت این کلمه، برنامه شروع به ضبط صدای کاربر می کند تا هنگامی که کاربر دیگر صحبت نکند و صدای قطع شود. صوت ذخیره شده توسط اینترنت به سرور ارسال می شود تا پردازش شود.
پس از پردازش پیام صوتی، ممکن است سرور از کاربر سوالی بپرسد تا از درخواست او مطمئن شود. وقتی که پاسخ درست به برنامه ارسال می شود برنامه طبق آن پاسخ فعالیت لازم را انجام می دهد که این فعالیت می تواند مثلا اجرای یک فایل صوتی باشد. اگر تا به حال با برنامه های دستیار صوتی کار کرده باشید می دانید که تمام این فعالیت ها در کسری از ثانیه و به سرعت انجام شده و درخواست کاربر اجرا می شود.
هر زمانی که درخواستی از دستیار صوتی داشته باشید و اجرای فرمان به درستی انجام نشود، همین باعث یادگیری بیشتر آن می شود. فرض کنید شما درخواست پخش یک موزیک را داشتید اما دستیار صوتی به اشتباه موزیک دیگری را پخش می کند. در این هنگام شما متوجه اشتباه شده اید و از دستیار صوتی خود می خواهید که موزیک را متوقف کند. با این کار دستیار با سرور ارتباط برقرار کرده و سرور را از این خطا مطلع می کند. همین کار باعث می شود که برنامه از اشتباهاتش یاد بگیرد و کم کم بهبود پیدا کند.