آمازون اکو | Google Home: آیا کسب و کار شما باید از دستیارهای صوتی باشد؟ راهنمای درک Amazon Echo و Google Home

توسط Sreeraman Thiagarajan

صدا ، چه در سر ما باشد ، چه در هدفون بازی کند ، توانایی حرکت ما را به شکلی عمیق دارد. در طول دهه 2000 ، شما شاهد قدرت یک صدای باریتون عمیق بود که در حال پخش “صحیح جاواب” از تلویزیون بود و به طرز جادویی ، صدای غیر قابل تردید او تپش قلب میلیون ها بیننده تماشای KBC را درمان می کند.

صدا طبیعی ترین شکل تعامل انسان بوده است ، از نظر تاریخی ما حیوانات وحشی را اهلی کرده ایم تا صدای خود را درک کنیم. و در این دهه ، ما می توانیم رایانه ها و دستگاه ها را احضار کنیم تا فقط با صدا به ما گوش دهند و به ما پاسخ دهند – ما این را Voice First می نامیم ، جایی که یک نمایش بصری کاملاً غایب یا ثانویه است.

Voice User Interface (VUI) هنر و دانش طراحی و برنامه نویسی برای انسان و ماشین است که با استفاده از صوت به عنوان ورودی اصلی ، دارای تعاملات معنی دار و عملی است. VUI همان چیزی است که Voice First را ممکن می کند و ایجاد یک VUI عالی نیاز به درک اساسی و یادگیری سرسختانه نحوه طراحی ما برای GUI دارد. (رابط کاربری گرافیکی مانند برنامه ها و رایانه ها)

دستیاران مجهز به صدا بسیار عصبانی هستند و در اینجا راهنمایی برای شنیدن صدای نام تجاری شما وجود دارد:

در داستان ، JARVIS به عنوان یک ساقی مجازی که به استادش تونی استارک در فیلم Ironman کمک می کند ، نمونه ای عالی از دستیار مجهز به صدا است. در واقع ، شما می توانید در آمازون یا Flipkart دستیار صوتی با هزینه ای کمتر از Rs دریافت کنید. 3500 ، آنها Amazon Echo یا Google Home نامیده می شوند.

Echo و Home دستگاه های سخت افزاری هستند ، مانند تلفن های همراه ما و معادل برنامه ها “Alexa Skills” و “Actions on Google” نامیده می شوند. ساخت صدا با تصور نحوه تبدیل ایده به مهارت یا عمل آغاز می شود.

چه چیزی در صدا متفاوت است و چرا باید تصور کنم؟

صدا به متن اکنون چهار دهه است که وجود دارد. سینت سایزر گفتار استفان هاوکینگ یک مثال عالی بود ، اما محدودیت بزرگی برای انسانهای کمتر مانند ما داشت که به صورت روزانه از آنها به عنوان مکانیزم ورودی جهت آموزش رایانه ها و دستگاه ها استفاده کنند. به این دلیل که آنها فاقد زمینه بودند و فقط تبدیل متن به صدا و بالعکس را انجام می دادند.

دستیارهای صوتی عصر جدید مانند الکسا و گوگل با استفاده از قدرت محاسبات پیشرفته در Cloud کار می کنند تا دارای ویژگی هایی مانند تشخیص خودکار گفتار (ASR) ، درک زبان طبیعی (NLU) و یادگیری ماشین (ML) و البته متن به گفتار (TTS) باشند.

به عنوان مثال ، وقتی می گویید “برای ti timez” این می تواند به معنای “برای تای تایز” در یک مهارت گلف ، یا “برای اوقات چای” در یک مهارت دستور العمل یا “چهل بار” در یک مهارت ریاضی باشد. با استفاده از ASR و ML ، دستیارهای صوتی می توانند تفاوت متفاوتی را تشخیص دهند و متناسب با آنها پاسخ دهند. این ما را به سمت بیدار کردن کلمات و اهداف سوق می دهد.

alexa utterance-intent-wake-word-Agrahyah- (2)ET آنلاین

الکسا روی ابر است ، دستگاه پیک هوشمند است.


واژه بیدار ، گفتار و قصد از عناصر اساسی در هر دستیار صوتی است. وقتی از دستیار هوشمند خود سوالی مانند “الکسا ، کی طلوع آفتاب است” می پرسید ، ترکیبی از فرایندها هم در دستگاه و هم روی ابر ایجاد می شود.

تشخیص کلمه بیدار مانند “الکسا” یا “ok Google” چیزی است که دستگاه را از حالت خاموش خارج می کند ، این شبیه باز کردن قفل تلفن است. کلمات زیر “وقتی طلوع آفتاب است” عباراتی هستند که از طریق ASR بر روی ابر محلی که الکسا در آن واقع شده تجزیه می شود ، از طریق فیلتر NLU از گفتار به متن تبدیل می شود که هدف پشت فرمان را مشخص می کند و باتوم را به “مهارت” می دهد ، معادل برنامه ، که سپس نتایج را بر اساس قصد (زمان طلوع آفتاب) محاسبه می کند و در گفتار از طریق دستگاه پاسخ می دهد.

بیدار کردن نام تجاری خود توسط الکسا ، یا فراخوانی یک قطعه مهم در استراتژی VUI است. فراخوانی کلمه یا عبارتی است که “مهارت شما” را تحریک می کند. این تا حدودی برابر با نماد برنامه یا URL یک وب سایت است. این باید آسان ، به یاد ماندنی و ترجیحاً همان نام تجاری شما باشد. کاربرانی که تمایل به فراگیری مهارت دارند معمولاً با “الکسا ، باز کردن هند پنچانگ” یا “الکسا ، با کابین های اولا صحبت کنید” شروع می کنند. در اینجا Ola و India Panchang هر دو نام تجاری و فراخوانی هستند.

بهینه سازی نام تجاری خود برای یک دانشکده واحد

یکی از بزرگترین چالش ها برای بهینه سازی VUI این نیست که چقدر می توانید در مورد آن بیاموزید ، بلکه این است که چقدر سریع می توانید آنچه را که در مورد ساخت برای رابط های تحت کمک گرافیکی مانند برنامه و وب می دانید بیاموزید.

هنگام ساختن برنامه ها با صدای جهانی اول ، همدلی جهانی حیاتی را بازی می کند. تیم سازنده مهارت ممکن است از ویژگی های آن آگاه باشد ، اما کاربر نهایی هیچ سرنخی نخواهد داشت و حتی نکات بصری برای کمک به او ندارد. آنها ممکن است هنگام انجام کار دیگری از دستیار صوتی در محیطی استفاده کنند.

تصور کنید در حالی که با عجله صبحانه خود را می خورید ، یک کابین را به دستیار صوتی که در اتاق نشیمن قرار گرفته است ، خوشامد بگویید. دستیارهای صوتی باید در هر مرحله دارای نشانه های کلامی و تأیید باشند از جمله محل تحویل ، مقصد ، کرایه کابین ، کرایه افزایش در صورت وجود ، نوع سواری و زمان تخمینی ورود.

دادن صدای واقعی به برند خود

در حالی که دستیاران هوشمند صداها و لهجه های بیشتری اضافه می کنند ، مارک های تجاری می توانند با افزودن جلوه های صوتی ، داستان های خود را به روشی همه جانبه روایت کنند و یا حتی عملکرد صدای خود را با صدای سفیر برند خود که از قبل ضبط شده است ، داشته باشند. مارک های سنگین محتوایی مانند استودیوهای فیلم ، ورزش ، برنامه های کودکانه ، بازی ها و غیره دارای مزیت بزرگی برای ایجاد تجربیات شگفت انگیز و موارد استفاده جذاب در دستیارهای صوتی هستند.

یک مدیر برند باید قبل از جستجوی نام تجاری خود در دنیای صوتی ، این س questionsالات اساسی را بپرسد.

الف) ارزش – مهارت چه کاری می تواند برای مشتریان انجام دهد؟

ب) نقش ها – آیا آنها به طور واضح برای مهارت و دستیار صوتی شما به طور متقابل تعریف شده اند؟

ج) همدلی – بر اساس نیاز و چالش های کاربر نهایی و چگونگی تناسب مهارت های شما.

این اولین مقاله از یک مجموعه هفتگی است که به مدیران برند و CXO کمک می کند تا صدای جهان اول را بپذیرند.



Sreeraman Thiagarajan یکی از بنیانگذاران Agrahyah Technologies است ، شریک ارجح آمازون در هند برای ساخت مهارت های الکسا. او توییتsreeraman را می کند