จำนวนแอปพลิเคชันและความสำคัญของอินเทอร์เฟซเสียงกำลังเติบโตอย่างรวดเร็ว

Содержание

บิ๊กโฟร์
คนอเมริกันต้องการซื้อ
ล้าง อบ ทำความสะอาด!
แนวคิดเก่า ถึงเวลาของเธอในที่สุด?
คำถามที่ยากทางเทคนิค
เสียง? กราฟฟิคอาร์ต? หรืออาจจะทั้งสอง?
ระวังความปลอดภัย!

ครอบครัวชาวอเมริกันในพอร์ตแลนด์ รัฐโอเรกอน เพิ่งรู้ว่าผู้ช่วยเสียงของอเล็กซ์บันทึกการแชทส่วนตัวและส่งให้เพื่อน เจ้าของบ้านที่สื่อเรียกชื่อแดเนียลว่าแดเนียล บอกกับผู้สื่อข่าวว่า เธอจะ “ไม่เสียบอุปกรณ์นั้นอีกเลย เพราะเธอไว้ใจไม่ได้”

Alexaซึ่งให้บริการโดยลำโพง Echo (1) และอุปกรณ์อื่นๆ ในบ้านหลายสิบล้านหลังในสหรัฐฯ เริ่มบันทึกเมื่อได้ยินชื่อหรือ "คำเรียก" ที่ผู้ใช้พูด ซึ่งหมายความว่าแม้ว่าจะมีการกล่าวถึงคำว่า "Alexa" ในโฆษณาทางทีวี แต่อุปกรณ์ก็อาจเริ่มบันทึกได้ นั่นคือสิ่งที่เกิดขึ้นในกรณีนี้ Amazon ผู้จัดจำหน่ายฮาร์ดแวร์กล่าว

“การสนทนาที่เหลือถูกตีความโดยผู้ช่วยเสียงเป็นคำสั่งให้ส่งข้อความ” บริษัทกล่าวในแถลงการณ์ “เมื่อถึงจุดหนึ่ง Alexa ถามเสียงดัง: “เพื่อใคร” ความต่อเนื่องของการสนทนาในครอบครัวเกี่ยวกับพื้นไม้เนื้อแข็งควรถูกรับรู้โดยเครื่องว่าเป็นรายการในรายชื่อผู้ติดต่อของลูกค้า” อย่างน้อยนั่นคือสิ่งที่ Amazon คิด ดังนั้นการแปลจึงลดลงเป็นชุดของอุบัติเหตุ

ความวิตกกังวลยังคงอยู่ เพราะด้วยเหตุผลบางอย่าง ในบ้านที่เรายังคงรู้สึกสบายใจ เราต้องเข้าสู่ "โหมดเสียง" บางอย่าง ดูสิ่งที่เราพูด ทีวีกำลังออกอากาศ และแน่นอนว่าผู้พูดใหม่นี้อยู่ที่หน้าอกของอะไร ลิ้นชักพูดว่า เรา.

อย่างไรก็ตาม แม้จะมีความไม่สมบูรณ์ของเทคโนโลยีและความเป็นส่วนตัว แต่ด้วยความนิยมที่เพิ่มขึ้นของอุปกรณ์เช่น Amazon Echo ผู้คนเริ่มคุ้นเคยกับแนวคิดในการโต้ตอบกับคอมพิวเตอร์โดยใช้เสียงของพวกเขา.

ตามที่ Werner Vogels, CTO ของ Amazon ระบุไว้ในระหว่างเซสชัน AWS re:Invent ของเขาเมื่อปลายปี 2017 จนถึงตอนนี้ เทคโนโลยีได้จำกัดความสามารถของเราในการโต้ตอบกับคอมพิวเตอร์ เราพิมพ์คีย์เวิร์ดลงใน Google โดยใช้แป้นพิมพ์ เนื่องจากวิธีนี้ยังเป็นวิธีที่ใช้บ่อยและง่ายที่สุดในการป้อนข้อมูลลงในเครื่อง

โวเกลส์กล่าวว่า –

บิ๊กโฟร์

เมื่อใช้เสิร์ชเอ็นจิ้นของ Google บนโทรศัพท์ เราอาจสังเกตเห็นไมโครโฟนพร้อมสายสนทนาเมื่อนานมาแล้ว นี้ Google ตอนนี้ (2) ซึ่งสามารถกำหนดคำค้นหา ป้อนข้อความด้วยเสียง ฯลฯ ในช่วงไม่กี่ปีที่ผ่านมา Google, Apple และ Amazon มีการปรับปรุงอย่างมาก เทคโนโลยีการจดจำเสียง. ผู้ช่วยเสียงเช่น Alexa, Siri และ Google Assistant ไม่เพียงแต่บันทึกเสียงของคุณ แต่ยังเข้าใจสิ่งที่คุณพูดกับพวกเขาและตอบคำถามด้วย

Google Now ให้บริการฟรีสำหรับผู้ใช้ Android ทุกคน แอปพลิเคชันสามารถ เช่น ตั้งปลุก ตรวจสอบพยากรณ์อากาศ และตรวจสอบเส้นทางบน Google Maps ส่วนขยายการสนทนาของสถานะ Google Now Google ผู้ช่วย () – ความช่วยเหลือเสมือนแก่ผู้ใช้อุปกรณ์ มีให้บริการบนอุปกรณ์เคลื่อนที่และอุปกรณ์สมาร์ทโฮมเป็นหลัก ต่างจาก Google Now ที่สามารถสื่อสารสองทางได้ ผู้ช่วยเปิดตัวในเดือนพฤษภาคม 2016 โดยเป็นส่วนหนึ่งของแอปส่งข้อความ Allo ของ Google รวมถึงลำโพงเสียงของ Google Home (3)

3. หน้าแรกของ Google

ระบบ IOS ยังมีผู้ช่วยเสมือนของตัวเอง สิริซึ่งเป็นโปรแกรมที่มาพร้อมกับระบบปฏิบัติการของ Apple iOS, watchOS, tvOS homepod และ macOS Siri เปิดตัวพร้อมกับ iOS 5 และ iPhone 4s ในเดือนตุลาคม 2011 ที่งานประชุม Let's Talk iPhone

ซอฟต์แวร์นี้ใช้อินเทอร์เฟซการสนทนา: จดจำเสียงพูดที่เป็นธรรมชาติของผู้ใช้ (ด้วย iOS 11 คุณยังสามารถป้อนคำสั่งด้วยตนเอง) ตอบคำถามและทำงานให้เสร็จสิ้น ต้องขอบคุณการแนะนำของแมชชีนเลิร์นนิง ผู้ช่วยเมื่อเวลาผ่านไป วิเคราะห์ความชอบส่วนตัว ผู้ใช้เพื่อให้ผลลัพธ์และคำแนะนำที่เกี่ยวข้องมากขึ้น Siri ต้องการการเชื่อมต่ออินเทอร์เน็ตอย่างต่อเนื่อง - แหล่งข้อมูลหลักที่นี่คือ Bing และ Wolfram Alpha iOS 10 แนะนำการสนับสนุนสำหรับส่วนขยายของบุคคลที่สาม

อีกหนึ่งในบิ๊กโฟร์ Cortana. เป็นผู้ช่วยส่วนตัวอัจฉริยะที่สร้างโดย Microsoft รองรับบนแพลตฟอร์ม Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android และ iOS Cortana เปิดตัวครั้งแรกในการประชุม Microsoft Build Developer Conference ในเดือนเมษายน 2014 ที่ซานฟรานซิสโก ชื่อของโปรแกรมมาจากชื่อของตัวละครจากซีรีย์เกม Halo Cortana มีให้บริการในภาษาอังกฤษ อิตาลี สเปน ฝรั่งเศส เยอรมัน จีน และญี่ปุ่น

ผู้ใช้โปรแกรมดังกล่าว Alexa พวกเขาต้องพิจารณาข้อจำกัดทางภาษาด้วย - ผู้ช่วยดิจิทัลพูดได้เฉพาะภาษาอังกฤษ เยอรมัน ฝรั่งเศส และญี่ปุ่นเท่านั้น

Amazon Virtual Assistant ถูกใช้ครั้งแรกในลำโพงอัจฉริยะ Amazon Echo และ Amazon Echo Dot ที่พัฒนาโดย Amazon Lab126 เปิดใช้งานการโต้ตอบด้วยเสียง การเล่นเพลง การสร้างรายการสิ่งที่ต้องทำ การตั้งค่าการเตือน การสตรีมพอดแคสต์ การเล่นหนังสือเสียง และสภาพอากาศแบบเรียลไทม์ การจราจร กีฬา และข้อมูลข่าวสารอื่นๆ เช่น ข่าว (4) Alexa สามารถควบคุมอุปกรณ์อัจฉริยะหลายตัวเพื่อสร้างระบบอัตโนมัติภายในบ้าน นอกจากนี้ยังสามารถใช้ซื้อของในร้านค้าอเมซอนได้สะดวก

4. สิ่งที่ผู้ใช้ใช้ Echo สำหรับ (ตามการวิจัย)

ผู้ใช้สามารถปรับปรุงประสบการณ์ของ Alexa โดยการติดตั้ง "ทักษะ" ของ Alexa () คุณลักษณะเพิ่มเติมที่พัฒนาโดยบุคคลที่สาม ซึ่งโดยทั่วไปจะเรียกว่าแอป เช่น โปรแกรมสภาพอากาศและเสียงในการตั้งค่าอื่นๆ อุปกรณ์ Alexa ส่วนใหญ่อนุญาตให้คุณเปิดใช้งานผู้ช่วยเสมือนของคุณด้วยรหัสผ่านปลุกที่เรียกว่า .

วันนี้ Amazon ครองตลาดลำโพงอัจฉริยะอย่างแน่นอน (5) IBM ซึ่งเปิดตัวบริการใหม่ในเดือนมีนาคม 2018 กำลังพยายามเข้าสู่สี่อันดับแรก ผู้ช่วยวัตสันออกแบบมาสำหรับบริษัทที่ต้องการสร้างระบบผู้ช่วยเสมือนของตนเองด้วยการควบคุมด้วยเสียง ข้อดีของโซลูชัน IBM คืออะไร? ตามที่ตัวแทนของบริษัทกล่าว ประการแรก เกี่ยวกับโอกาสที่มากขึ้นสำหรับการปรับเปลี่ยนให้เป็นส่วนตัวและการปกป้องความเป็นส่วนตัว

ประการแรก Watson Assistant ไม่มีตราสินค้า บริษัทต่างๆ สามารถสร้างโซลูชันของตนเองบนแพลตฟอร์มนี้และติดป้ายกำกับด้วยแบรนด์ของตนเอง

ประการที่สอง พวกเขาสามารถฝึกระบบช่วยเหลือโดยใช้ชุดข้อมูลของตนเอง ซึ่ง IBM กล่าวว่าทำให้เพิ่มคุณลักษณะและคำสั่งให้กับระบบนั้นง่ายกว่าเทคโนโลยี VUI (ส่วนติดต่อผู้ใช้ด้วยเสียง) อื่นๆ

ประการที่สาม Watson Assistant ไม่ได้ให้ข้อมูลเกี่ยวกับกิจกรรมของผู้ใช้แก่ IBM - ผู้พัฒนาโซลูชันบนแพลตฟอร์มสามารถเก็บข้อมูลที่มีค่าไว้สำหรับตัวเองเท่านั้น ในขณะเดียวกัน ใครก็ตามที่สร้างอุปกรณ์ เช่น กับ Alexa ควรตระหนักว่าข้อมูลอันมีค่าของพวกเขาจะลงเอยที่ Amazon

Watson Assistant มีการใช้งานหลายอย่างอยู่แล้ว ระบบนี้ถูกใช้โดย Harman ซึ่งสร้างระบบสั่งงานด้วยเสียงสำหรับรถต้นแบบของ Maserati (6) ที่สนามบินมิวนิก ผู้ช่วย IBM ขับเคลื่อนหุ่นยนต์ Pepper เพื่อช่วยให้ผู้โดยสารเดินทางไปมา ตัวอย่างที่สามคือ Chameleon Technologies ซึ่งใช้เทคโนโลยีเสียงในมิเตอร์บ้านอัจฉริยะ

6. Watson Assistant ในรถแนวคิดของ Maserati

เป็นมูลค่าเพิ่มว่าเทคโนโลยีพื้นฐานที่นี่ก็ไม่ใช่เรื่องใหม่ Watson Assistant มีความสามารถในการเข้ารหัสสำหรับผลิตภัณฑ์ IBM ที่มีอยู่, Watson Conversation และ Watson Virtual Agent ตลอดจน API สำหรับการวิเคราะห์ภาษาและการแชท

Amazon ไม่เพียงแต่เป็นผู้นำด้านเทคโนโลยีเสียงอัจฉริยะเท่านั้น แต่ยังเปลี่ยนให้เป็นธุรกิจโดยตรงอีกด้วย อย่างไรก็ตาม บางบริษัทได้ทดลองใช้การรวม Echo ก่อนหน้านี้มาก Sisense ซึ่งเป็นบริษัทในอุตสาหกรรม BI และการวิเคราะห์ ได้เปิดตัวการผสานรวม Echo ในเดือนกรกฎาคม 2016 ในทางกลับกัน สตาร์ทอัพ Roxy ตัดสินใจสร้างซอฟต์แวร์และฮาร์ดแวร์ที่ควบคุมด้วยเสียงของตัวเองสำหรับอุตสาหกรรมการบริการ เมื่อต้นปีนี้ Synqq ได้เปิดตัวแอปจดบันทึกที่ใช้การประมวลผลเสียงและภาษาธรรมชาติเพื่อเพิ่มบันทึกและรายการปฏิทินโดยไม่ต้องพิมพ์บนแป้นพิมพ์

ธุรกิจขนาดเล็กทั้งหมดเหล่านี้มีความทะเยอทะยานสูง อย่างไรก็ตาม ส่วนใหญ่ พวกเขาได้เรียนรู้ว่าไม่ใช่ผู้ใช้ทุกคนที่ต้องการโอนข้อมูลของตนไปยัง Amazon, Google, Apple หรือ Microsoft ซึ่งเป็นผู้เล่นที่สำคัญที่สุดในการสร้างแพลตฟอร์มการสื่อสารด้วยเสียง

คนอเมริกันต้องการซื้อ

ในปี 2016 การค้นหาด้วยเสียงคิดเป็น 20% ของการค้นหาบนมือถือของ Google ทั้งหมด ผู้ที่ใช้เทคโนโลยีนี้เป็นประจำทุกวันกล่าวถึงความสะดวกและการทำงานหลายอย่างพร้อมกันในหมู่ผลประโยชน์ที่ใหญ่ที่สุด (เช่น ความสามารถในการใช้เครื่องมือค้นหาในขณะขับรถ)

นักวิเคราะห์ของ Visiongain ประเมินมูลค่าตลาดปัจจุบันของผู้ช่วยดิจิทัลอัจฉริยะที่ 1,138 พันล้านดอลลาร์ มีกลไกดังกล่าวมากขึ้นเรื่อยๆ ตาม Gartner ภายในสิ้นปี 2018 แล้ว 30% ของการโต้ตอบของเรา ด้วยเทคโนโลยีจะผ่านการสนทนากับระบบเสียง

บริษัทวิจัยสัญชาติอังกฤษ IHS Markit ประมาณการว่าตลาดสำหรับผู้ช่วยดิจิทัลที่ขับเคลื่อนด้วย AI จะเข้าถึงอุปกรณ์ 4 พันล้านเครื่องภายในสิ้นปีนี้ และจำนวนดังกล่าวอาจเพิ่มขึ้นเป็น 2020 พันล้านเครื่องภายในปี 7

ตามรายงานจาก eMarketer และ VoiceLabs ชาวอเมริกัน 2017 ล้านคนใช้การควบคุมด้วยเสียงอย่างน้อยเดือนละครั้งในปี 35,6 ซึ่งหมายความว่าเพิ่มขึ้นเกือบ 130% จากปีก่อนหน้า ตลาดผู้ช่วยดิจิทัลเพียงอย่างเดียวคาดว่าจะเติบโต 2018% ใน 23 ซึ่งหมายความว่าคุณจะใช้งานอยู่แล้ว ชาวอเมริกัน 60,5 ล้านคนซึ่งจะส่งผลให้มีเงินเป็นรูปธรรมสำหรับผู้ผลิตของตน RBC Capital Markets ประมาณการว่าอินเทอร์เฟซของ Alexa จะสร้างรายได้สูงถึง 2020 พันล้านดอลลาร์สำหรับ Amazon ภายในปี 10

ล้าง อบ ทำความสะอาด!

อินเทอร์เฟซเสียงกำลังเข้าสู่ตลาดเครื่องใช้ในบ้านและตลาดอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภคอย่างกล้าหาญมากขึ้น สิ่งนี้สามารถเห็นได้ในระหว่างนิทรรศการ IFA 2017 ของปีที่แล้ว บริษัทอเมริกัน Neato Robotics ได้เปิดตัวหุ่นยนต์ดูดฝุ่นที่เชื่อมต่อกับหนึ่งในแพลตฟอร์มสมาร์ทโฮมหลายแพลตฟอร์ม รวมถึงระบบ Amazon Echo เมื่อพูดคุยกับลำโพงอัจฉริยะ Echo คุณสามารถสั่งให้เครื่องทำความสะอาดบ้านทั้งหลังในช่วงเวลาที่กำหนดทั้งกลางวันและกลางคืน

ผลิตภัณฑ์ที่สั่งงานด้วยเสียงอื่นๆ ถูกจัดแสดงในงาน ตั้งแต่สมาร์ททีวีที่จำหน่ายภายใต้แบรนด์โตชิบาโดยบริษัท Vestel ของตุรกี ไปจนถึงผ้าห่มอุ่นโดยบริษัท Beurer ของเยอรมัน อุปกรณ์อิเล็กทรอนิกส์จำนวนมากเหล่านี้สามารถเปิดใช้งานจากระยะไกลโดยใช้สมาร์ทโฟนได้เช่นกัน

อย่างไรก็ตาม ตามที่ตัวแทนของ Bosch ระบุ ยังเร็วเกินไปที่จะบอกว่าตัวเลือกผู้ช่วยที่บ้านใดที่จะเข้ามาครอบงำ ที่งาน IFA 2017 กลุ่มเทคนิคของเยอรมันได้จัดแสดงเครื่องซักผ้า (7) เตาอบ และเครื่องชงกาแฟที่เชื่อมต่อกับ Echo บ๊อชยังต้องการให้อุปกรณ์ของตนเข้ากันได้กับแพลตฟอร์มเสียงของ Google และ Apple ในอนาคต

7. เครื่องซักผ้า Bosch ที่เชื่อมต่อกับ Amazon Echo

บริษัทต่างๆ เช่น Fujitsu, Sony และ Panasonic กำลังพัฒนาโซลูชันผู้ช่วยเสียงที่ใช้ AI ของตนเอง Sharp กำลังเพิ่มเทคโนโลยีนี้ให้กับเตาอบและหุ่นยนต์ขนาดเล็กที่เข้าสู่ตลาด Nippon Telegraph & Telephone กำลังจ้างผู้ผลิตฮาร์ดแวร์และของเล่นเพื่อปรับระบบปัญญาประดิษฐ์ที่ควบคุมด้วยเสียง

แนวคิดเก่า ถึงเวลาของเธอในที่สุด?

อันที่จริง แนวคิดของ Voice User Interface (VUI) มีมานานหลายทศวรรษแล้ว ใครก็ตามที่เคยดู Star Trek หรือ 2001: A Space Odyssey เมื่อหลายปีก่อนอาจคาดว่าประมาณปี 2000 เราทุกคนจะควบคุมคอมพิวเตอร์ด้วยเสียงของเรา นอกจากนี้ ไม่ใช่แค่นักเขียนนิยายวิทยาศาสตร์ที่มองเห็นศักยภาพของอินเทอร์เฟซประเภทนี้ ในปี 1986 นักวิจัยของ Nielsen ได้ถามผู้เชี่ยวชาญด้านไอทีว่าพวกเขาคิดว่าอะไรจะเป็นการเปลี่ยนแปลงครั้งใหญ่ที่สุดในอินเทอร์เฟซผู้ใช้ภายในปี 2000 พวกเขาส่วนใหญ่มักจะชี้ไปที่การพัฒนาส่วนต่อประสานเสียง

มีเหตุผลที่จะหวังวิธีแก้ปัญหาดังกล่าว ท้ายที่สุดแล้ว การสื่อสารด้วยวาจาเป็นวิธีที่เป็นธรรมชาติที่สุดสำหรับผู้คนในการแลกเปลี่ยนความคิดอย่างมีสติ ดังนั้นการใช้สิ่งนี้เพื่อการปฏิสัมพันธ์ระหว่างมนุษย์และเครื่องจักรจึงดูเหมือนเป็นทางออกที่ดีที่สุดจนถึงตอนนี้

หนึ่งใน VUIs แรกที่เรียกว่า กล่องรองเท้าถูกสร้างขึ้นในช่วงต้นยุค 60 โดย IBM เป็นผู้บุกเบิกระบบการจดจำเสียงในปัจจุบัน อย่างไรก็ตาม การพัฒนาอุปกรณ์ VUI ถูกจำกัดด้วยขีดจำกัดของพลังประมวลผล การแยกวิเคราะห์และตีความคำพูดของมนุษย์แบบเรียลไทม์ต้องใช้ความพยายามอย่างมาก และต้องใช้เวลามากกว่าห้าสิบปีกว่าจะถึงจุดที่มันเป็นไปได้จริงๆ

อุปกรณ์ที่มีอินเทอร์เฟซเสียงเริ่มปรากฏในการผลิตจำนวนมากในช่วงกลางทศวรรษที่ 90 แต่ไม่ได้รับความนิยม โทรศัพท์เครื่องแรกที่มีการควบคุมด้วยเสียง (โทรออก) คือ Philips Sparkออกในปี พ.ศ. 1996 อย่างไรก็ตาม อุปกรณ์ที่เป็นนวัตกรรมใหม่และใช้งานง่ายนี้ไม่ได้ปราศจากข้อจำกัดทางเทคโนโลยี

โทรศัพท์รุ่นอื่นๆ ที่มีอินเทอร์เฟซเสียง (สร้างโดยบริษัทต่างๆ เช่น RIM, Samsung หรือ Motorola) ออกสู่ตลาดเป็นประจำ ทำให้ผู้ใช้สามารถโทรออกด้วยเสียงหรือส่งข้อความได้ อย่างไรก็ตาม พวกเขาทั้งหมดต้องการการท่องจำคำสั่งเฉพาะและออกเสียงคำสั่งเหล่านั้นในรูปแบบบังคับและประดิษฐ์ ซึ่งปรับให้เข้ากับความสามารถของอุปกรณ์ในสมัยนั้น สิ่งนี้ทำให้เกิดข้อผิดพลาดจำนวนมาก ซึ่งส่งผลให้ผู้ใช้ไม่พอใจ

อย่างไรก็ตาม เรากำลังเข้าสู่ยุคใหม่ของการประมวลผล ซึ่งความก้าวหน้าในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์กำลังปลดล็อกศักยภาพของการสนทนาในรูปแบบใหม่ในการโต้ตอบกับเทคโนโลยี (8) จำนวนอุปกรณ์ที่รองรับการโต้ตอบด้วยเสียงได้กลายเป็นปัจจัยสำคัญที่มีผลกระทบอย่างมากต่อการพัฒนา VUI ทุกวันนี้ เกือบ 1 ใน 3 ของประชากรโลกมีสมาร์ทโฟนที่สามารถใช้กับพฤติกรรมประเภทนี้ได้แล้ว ดูเหมือนว่าในที่สุดผู้ใช้ส่วนใหญ่ก็พร้อมที่จะปรับอินเทอร์เฟซเสียงของพวกเขาแล้ว

8. ประวัติศาสตร์สมัยใหม่ของการพัฒนาส่วนต่อประสานเสียง

อย่างไรก็ตาม ก่อนที่เราจะสามารถพูดคุยกับคอมพิวเตอร์ได้อย่างอิสระอย่างที่ฮีโร่ของ A Space Odyssey ทำ เราต้องเอาชนะปัญหามากมาย เครื่องจักรยังคงไม่ค่อยดีในการจัดการความแตกต่างทางภาษา นอกจากนี้ หลายคนยังรู้สึกไม่สบายใจที่จะให้คำสั่งเสียงกับเครื่องมือค้นหา.

สถิติแสดงให้เห็นว่าระบบสั่งงานด้วยเสียงส่วนใหญ่ใช้ที่บ้านหรือกับเพื่อนสนิท ไม่มีผู้ให้สัมภาษณ์รายใดยอมรับว่าใช้การค้นหาด้วยเสียงในที่สาธารณะ อย่างไรก็ตาม การปิดล้อมนี้มีแนวโน้มที่จะหายไปพร้อมกับการแพร่กระจายของเทคโนโลยีนี้

คำถามที่ยากทางเทคนิค

ปัญหาที่ระบบ (ASR) เผชิญคือการดึงข้อมูลที่เป็นประโยชน์จากสัญญาณเสียงพูดและเชื่อมโยงกับคำบางคำที่มีความหมายบางอย่างสำหรับบุคคล เสียงที่ผลิตจะแตกต่างกันในแต่ละครั้ง

ความแปรปรวนของสัญญาณเสียงพูด เป็นคุณสมบัติทางธรรมชาติของมัน ตัวอย่างเช่น เราจำสำเนียงหรือน้ำเสียงสูงต่ำได้ แต่ละองค์ประกอบของระบบรู้จำเสียงพูดมีหน้าที่เฉพาะ ตามสัญญาณที่ประมวลผลและพารามิเตอร์ รูปแบบเสียงจะถูกสร้างขึ้น ซึ่งเชื่อมโยงกับรูปแบบภาษา ระบบการรู้จำสามารถทำงานบนพื้นฐานของรูปแบบจำนวนน้อยหรือมาก ซึ่งกำหนดขนาดของคำศัพท์ที่จะใช้ พวกเขาสามารถเป็น พจนานุกรมขนาดเล็ก ในกรณีของระบบที่จำคำหรือคำสั่งของแต่ละคนได้เช่นเดียวกัน ฐานข้อมูลขนาดใหญ่ ที่เทียบเท่ากับชุดภาษาและคำนึงถึงรูปแบบภาษา (ไวยากรณ์)

ปัญหาที่ต้องเผชิญกับอินเทอร์เฟซเสียงในตอนแรก เข้าใจคำพูดอย่างถูกต้องซึ่งตัวอย่างเช่น ลำดับไวยากรณ์ทั้งหมดมักจะถูกละเว้น ข้อผิดพลาดทางภาษาและการออกเสียง ข้อผิดพลาด การละเว้น ข้อบกพร่องของคำพูด คำพ้องเสียง การซ้ำซ้อนที่ไม่ยุติธรรม ฯลฯ ระบบ ACP ทั้งหมดเหล่านี้ต้องทำงานได้อย่างรวดเร็วและเชื่อถือได้ อย่างน้อยนั่นคือความคาดหวัง

แหล่งที่มาของปัญหายังเป็นสัญญาณเสียงนอกเหนือจากคำพูดที่รู้จักซึ่งป้อนอินพุตของระบบการจดจำเช่น ทุกชนิด การรบกวนและเสียงรบกวน. ในกรณีที่ง่ายที่สุด คุณต้องการมัน กรองออก. งานนี้ดูเหมือนเป็นกิจวัตรและง่าย เนื่องจากสัญญาณต่างๆ ถูกกรอง และวิศวกรอิเล็กทรอนิกส์ทุกคนรู้ว่าต้องทำอย่างไรในสถานการณ์เช่นนี้ อย่างไรก็ตาม สิ่งนี้จะต้องทำอย่างระมัดระวังและรอบคอบ หากผลลัพธ์ของการรู้จำคำพูดเป็นไปตามความคาดหวังของเรา

การกรองที่ใช้อยู่ในปัจจุบันทำให้สามารถลบสัญญาณเสียงพูด เสียงภายนอกที่ไมโครโฟนรับเข้ามา และคุณสมบัติภายในของสัญญาณเสียงพูดได้ ซึ่งทำให้ยากต่อการจดจำ อย่างไรก็ตาม ปัญหาทางเทคนิคที่ซับซ้อนกว่านั้นเกิดขึ้นเมื่อการรบกวนสัญญาณเสียงพูดที่วิเคราะห์คือ ... สัญญาณเสียงพูดอีกแบบหนึ่ง เช่น การสนทนาที่ดังไปทั่ว คำถามนี้เป็นที่รู้จักในวรรณคดีว่าเป็นคำถามที่เรียกว่า. สิ่งนี้ต้องใช้วิธีการที่ซับซ้อนซึ่งเรียกว่า deconvolution (คลี่คลาย) สัญญาณ

ปัญหาเกี่ยวกับการรู้จำคำพูดไม่ได้จบเพียงแค่นั้น เป็นเรื่องที่ควรค่าแก่การตระหนักว่าคำพูดมีข้อมูลหลายประเภท เสียงของมนุษย์บ่งบอกถึงเพศ อายุ ลักษณะต่าง ๆ ของเจ้าของหรือสถานะสุขภาพของเขา มีแผนกวิศวกรรมชีวการแพทย์ที่กว้างขวางซึ่งเกี่ยวข้องกับการวินิจฉัยโรคต่างๆ ตามปรากฏการณ์ทางเสียงที่มีลักษณะเฉพาะที่พบในสัญญาณเสียงพูด

นอกจากนี้ยังมีแอปพลิเคชั่นที่จุดประสงค์หลักของการวิเคราะห์เสียงของสัญญาณเสียงพูดคือเพื่อระบุผู้พูดหรือยืนยันว่าเขาคือคนที่เขาอ้างว่าเป็น (เสียงแทนคีย์ รหัสผ่าน หรือรหัส PUK) สิ่งนี้มีความสำคัญ โดยเฉพาะอย่างยิ่งสำหรับเทคโนโลยีการสร้างอัจฉริยะ

องค์ประกอบแรกของระบบรู้จำเสียงพูดคือ микрофон. อย่างไรก็ตาม สัญญาณที่ไมโครโฟนหยิบขึ้นมามักจะยังคงใช้งานน้อย จากการศึกษาพบว่ารูปร่างและทิศทางของคลื่นเสียงแตกต่างกันอย่างมากขึ้นอยู่กับบุคคล ความเร็วในการพูด และอารมณ์ของคู่สนทนาบางส่วน ในขณะที่สะท้อนถึงเนื้อหาของคำสั่งเสียงในระดับเล็กน้อย

ดังนั้นสัญญาณจะต้องได้รับการประมวลผลอย่างถูกต้อง อะคูสติก สัทศาสตร์ และวิทยาการคอมพิวเตอร์สมัยใหม่ร่วมกันเป็นชุดเครื่องมือที่สามารถใช้ประมวลผล วิเคราะห์ จดจำ และทำความเข้าใจสัญญาณเสียงพูดได้ ไดนามิกสเปกตรัมของสัญญาณที่เรียกว่า ไดนามิกสเปกโตรแกรม. สิ่งเหล่านี้หาได้ง่ายมาก และคำพูดที่นำเสนอในรูปแบบของไดนามิกสเปกโตรแกรมนั้นง่ายต่อการจดจำโดยใช้เทคนิคที่คล้ายกับที่ใช้ในการจดจำภาพ

องค์ประกอบที่เรียบง่ายของคำพูด (เช่น คำสั่ง) สามารถรับรู้ได้โดยความคล้ายคลึงกันอย่างง่ายของสเปกโตรแกรมทั้งหมด ตัวอย่างเช่น พจนานุกรมโทรศัพท์มือถือที่สั่งงานด้วยเสียงประกอบด้วยคำและวลีเพียงไม่กี่สิบถึงสองสามร้อยคำ โดยปกติแล้วจะจัดเรียงไว้ล่วงหน้าเพื่อให้สามารถระบุได้ง่ายและมีประสิทธิภาพ นี่เพียงพอสำหรับงานควบคุมทั่วไป แต่จะจำกัดแอปพลิเคชันโดยรวมอย่างมาก ระบบที่สร้างขึ้นตามแบบแผนจะรองรับเฉพาะผู้พูดเฉพาะที่ได้รับการฝึกฝนมาเป็นพิเศษเท่านั้น ดังนั้นหากมีคนใหม่ที่ต้องการใช้เสียงในการควบคุมระบบก็มักจะไม่ได้รับการยอมรับ

ผลลัพธ์ของการดำเนินการนี้เรียกว่า สเปกโตรแกรม 2-Wนั่นคือสเปกตรัมสองมิติ มีอีกหนึ่งกิจกรรมในบล็อคนี้ที่ควรค่าแก่การใส่ใจคือ - การแบ่งส่วน. โดยทั่วไป เรากำลังพูดถึงการแยกสัญญาณเสียงพูดต่อเนื่องออกเป็นส่วนๆ ที่แยกออกได้ จากการวินิจฉัยบุคคลเหล่านี้เท่านั้นที่ทำให้การรับรู้ทั้งหมดเกิดขึ้น ขั้นตอนนี้จำเป็นเพราะไม่สามารถระบุคำพูดที่ยาวและซับซ้อนได้ในครั้งเดียว มีการเขียนเล่มทั้งหมดเกี่ยวกับส่วนที่จะแยกแยะในสัญญาณเสียงพูดแล้ว ดังนั้นเราจะไม่ตัดสินใจว่าส่วนที่แตกต่างควรเป็นหน่วยเสียง (เทียบเท่าเสียง) พยางค์หรืออาจจะเป็น allophones

กระบวนการรับรู้อัตโนมัติมักจะอ้างถึงคุณสมบัติบางอย่างของวัตถุ สัญญาณเสียงพูดมีการทดสอบพารามิเตอร์ต่างๆ หลายร้อยชุด สัญญาณเสียงพูดมี แบ่งออกเป็นเฟรมที่รู้จัก และมี คุณสมบัติที่เลือกโดยที่เฟรมเหล่านี้ถูกนำเสนอในกระบวนการรับรู้ เราสามารถดำเนินการได้ (สำหรับแต่ละเฟรมแยกกัน) การจัดหมวดหมู่, เช่น. การกำหนดตัวระบุให้กับเฟรมซึ่งจะเป็นตัวแทนในอนาคต

ขั้นต่อไป การประกอบเฟรมเป็นคำที่แยกจากกัน – ส่วนใหญ่มักขึ้นอยู่กับสิ่งที่เรียกว่า แบบจำลองของแบบจำลอง Markov โดยนัย (IMM-) จากนั้นก็มาตัดต่อคำ ประโยคที่สมบูรณ์.

ตอนนี้เราสามารถกลับไปที่ระบบ Alexa ได้สักครู่ ตัวอย่างของเขาแสดงให้เห็นถึงกระบวนการหลายขั้นตอนของเครื่องจักร "ความเข้าใจ" ของบุคคล - แม่นยำยิ่งขึ้น: คำสั่งที่ได้รับจากเขาหรือคำถามที่ถาม

การเข้าใจคำ การเข้าใจความหมาย และการเข้าใจเจตนาของผู้ใช้นั้นแตกต่างกันโดยสิ้นเชิง

ดังนั้น ขั้นตอนต่อไปคืองานของโมดูล NLP () ซึ่งงานคือ การรับรู้ความตั้งใจของผู้ใช้, เช่น. ความหมายของคำสั่ง/คำถามในบริบทที่พูดออกไป หากมีการระบุเจตจำนงแล้ว การมอบหมายทักษะและความสามารถที่เรียกว่านั่นคือ คุณลักษณะเฉพาะที่สนับสนุนโดยผู้ช่วยอัจฉริยะ ในกรณีของคำถามเกี่ยวกับสภาพอากาศจะมีการเรียกแหล่งข้อมูลสภาพอากาศซึ่งยังคงได้รับการประมวลผลเป็นคำพูด (TTS - กลไก) ส่งผลให้ผู้ใช้ได้ยินคำตอบของคำถามที่ถาม

เสียง? กราฟฟิคอาร์ต? หรืออาจจะทั้งสอง?

ระบบปฏิสัมพันธ์สมัยใหม่ที่รู้จักกันมากที่สุดจะขึ้นอยู่กับตัวกลางที่เรียกว่า ส่วนต่อประสานกราฟิกกับผู้ใช้ (ส่วนต่อประสานกราฟิก). น่าเสียดายที่ GUI ไม่ใช่วิธีที่ชัดเจนที่สุดในการโต้ตอบกับผลิตภัณฑ์ดิจิทัล สิ่งนี้ต้องการให้ผู้ใช้เรียนรู้วิธีใช้อินเทอร์เฟซก่อนและจดจำข้อมูลนี้ด้วยการโต้ตอบแต่ละครั้ง ในหลาย ๆ สถานการณ์ การใช้เสียงจะสะดวกกว่ามาก เพราะคุณสามารถโต้ตอบกับ VUI ได้ง่ายๆ เพียงแค่พูดกับอุปกรณ์ อินเทอร์เฟซที่ไม่บังคับให้ผู้ใช้จดจำและจดจำคำสั่งหรือวิธีการโต้ตอบบางอย่างทำให้เกิดปัญหาน้อยลง

แน่นอน การขยาย VUI ไม่ได้หมายถึงการละทิ้งอินเทอร์เฟซแบบเดิม แต่จะมีอินเทอร์เฟซแบบไฮบริดที่รวมการโต้ตอบหลายวิธีเข้าด้วยกัน

อินเทอร์เฟซเสียงไม่เหมาะกับงานทั้งหมดในบริบทของมือถือ เราจะโทรหาเพื่อนขณะขับรถและแม้แต่ส่ง SMS ให้เขาด้วย แต่การตรวจสอบการโอนล่าสุดอาจทำได้ยากเกินไป - เนื่องจากปริมาณข้อมูลที่ส่งไปยังระบบ () และสร้างโดยระบบ (ระบบ) . ดังที่ Rachel Hinman แนะนำในหนังสือ Mobile Frontier ของเธอ การใช้ VUI จะมีประสิทธิภาพมากที่สุดเมื่อปฏิบัติงานที่มีข้อมูลอินพุตและเอาท์พุตน้อย

สมาร์ทโฟนที่เชื่อมต่อกับอินเทอร์เน็ตนั้นสะดวกแต่ก็ไม่สะดวกเช่นกัน (9) ทุกครั้งที่ผู้ใช้ต้องการซื้อบางอย่างหรือใช้บริการใหม่ พวกเขาจะต้องดาวน์โหลดแอปอื่นและสร้างบัญชีใหม่ มีการสร้างฟิลด์สำหรับการใช้และการพัฒนาส่วนต่อประสานเสียงที่นี่ แทนที่จะบังคับให้ผู้ใช้ติดตั้งแอปต่างๆ มากมายหรือสร้างบัญชีแยกกันสำหรับแต่ละบริการ ผู้เชี่ยวชาญกล่าวว่า VUI จะเปลี่ยนภาระงานยุ่งยากเหล่านี้ไปยังผู้ช่วยเสียงที่ขับเคลื่อนด้วย AI มันจะสะดวกสำหรับเขาที่จะทำกิจกรรมที่ต้องใช้กำลัง เราจะให้คำสั่งแก่เขาเท่านั้น

9. อินเทอร์เฟซเสียงผ่านสมาร์ทโฟน

ทุกวันนี้ มากกว่าแค่โทรศัพท์และคอมพิวเตอร์เชื่อมต่อกับอินเทอร์เน็ต ตัวควบคุมอุณหภูมิอัจฉริยะ หลอดไฟ กาต้มน้ำ และอุปกรณ์ที่รวม IoT อื่นๆ อีกมากมายยังเชื่อมต่อกับเครือข่าย (10) ดังนั้นจึงมีอุปกรณ์ไร้สายอยู่รอบตัวเราที่เติมเต็มชีวิตของเรา แต่ไม่ใช่ทุกอุปกรณ์จะเข้ากับส่วนต่อประสานกราฟิกกับผู้ใช้ตามธรรมชาติ การใช้ VUI จะช่วยให้คุณรวมเข้ากับสภาพแวดล้อมของเราได้อย่างง่ายดาย

10. อินเทอร์เฟซเสียงกับอินเทอร์เน็ตของสรรพสิ่ง

การสร้างส่วนต่อประสานผู้ใช้ด้วยเสียงจะกลายเป็นทักษะสำคัญของนักออกแบบในไม่ช้า นี่เป็นปัญหาที่แท้จริง - ความจำเป็นในการใช้ระบบเสียงจะกระตุ้นให้คุณมุ่งเน้นที่การออกแบบเชิงรุกมากขึ้น นั่นคือ พยายามเข้าใจความตั้งใจเริ่มต้นของผู้ใช้ คาดการณ์ความต้องการและความคาดหวังของผู้ใช้ในทุกขั้นตอนของการสนทนา

เสียงเป็นวิธีที่มีประสิทธิภาพในการป้อนข้อมูล—ทำให้ผู้ใช้สามารถออกคำสั่งไปยังระบบได้อย่างรวดเร็วตามเงื่อนไขของตนเอง ในทางกลับกัน หน้าจอเป็นวิธีที่มีประสิทธิภาพในการแสดงข้อมูล: ช่วยให้ระบบสามารถแสดงข้อมูลจำนวนมากได้พร้อมกัน ช่วยลดภาระในหน่วยความจำของผู้ใช้ การรวมมันเข้าไว้ในระบบเดียวถือเป็นเรื่องสมเหตุผล

ลำโพงอัจฉริยะอย่าง Amazon Echo และ Google Home ไม่มีการแสดงผลแบบภาพเลย การปรับปรุงความแม่นยำของการรู้จำเสียงในระยะทางปานกลางอย่างมีนัยสำคัญ ช่วยให้ใช้งานแบบแฮนด์ฟรีได้ ซึ่งจะช่วยเพิ่มความยืดหยุ่นและประสิทธิภาพ - เหมาะสำหรับผู้ใช้ที่มีสมาร์ทโฟนที่มีการควบคุมด้วยเสียงอยู่แล้ว อย่างไรก็ตาม การไม่มีหน้าจอนั้นเป็นข้อจำกัดอย่างมาก

ใช้ได้เฉพาะเสียงบี๊บเพื่อแจ้งให้ผู้ใช้ทราบถึงคำสั่งที่เป็นไปได้ และการอ่านออกเสียงจะเป็นเรื่องที่น่าเบื่อหน่าย ยกเว้นงานพื้นฐานส่วนใหญ่ การตั้งเวลาด้วยคำสั่งเสียงขณะทำอาหารนั้นยอดเยี่ยม แต่การถามว่าเหลือเวลาอีกเท่าไรไม่จำเป็น การได้รับข้อมูลพยากรณ์อากาศเป็นประจำจะกลายเป็นการทดสอบความจำสำหรับผู้ใช้ ซึ่งต้องฟังและซึมซับข้อเท็จจริงต่างๆ ตลอดทั้งสัปดาห์ แทนที่จะหยิบขึ้นมาจากหน้าจอเพียงชำเลืองมอง

ดีไซเนอร์มาแล้ว ไฮบริดโซลูชั่น, Echo Show (11) ซึ่งเพิ่มหน้าจอแสดงผลให้กับลำโพงอัจฉริยะ Echo พื้นฐาน สิ่งนี้ช่วยขยายการทำงานของอุปกรณ์อย่างมาก อย่างไรก็ตาม Echo Show ยังคงมีความสามารถน้อยกว่ามากในการทำหน้าที่พื้นฐานที่มีในสมาร์ทโฟนและแท็บเล็ตมานานแล้ว ไม่สามารถ (ยัง) ท่องเว็บ แสดงความคิดเห็นหรือแสดงเนื้อหาของตะกร้าสินค้าของ Amazon ได้

การแสดงภาพเป็นวิธีที่มีประสิทธิภาพมากกว่าในการให้ข้อมูลมากมายแก่ผู้คนมากกว่าแค่เสียง การออกแบบโดยให้ความสำคัญกับเสียงสามารถปรับปรุงการโต้ตอบด้วยเสียงได้อย่างมาก แต่ในระยะยาว การไม่ใช้เมนูภาพโดยพลการเพื่อประโยชน์ในการโต้ตอบจะเหมือนกับการต่อสู้ด้วยมือเดียวที่ผูกด้านหลังของคุณ เนื่องจากความซับซ้อนที่ปรากฏขึ้นของอินเทอร์เฟซเสียงและการแสดงผลอัจฉริยะแบบ end-to-end นักพัฒนาจึงควรพิจารณาแนวทางไฮบริดสำหรับอินเทอร์เฟซอย่างจริงจัง

การเพิ่มประสิทธิภาพและความเร็วของระบบการสร้างและจดจำเสียงพูดทำให้สามารถใช้งานได้ในแอปพลิเคชันและพื้นที่ต่างๆ เช่น

• ทหาร (คำสั่งเสียงในเครื่องบินหรือเฮลิคอปเตอร์ เช่น F16 VISTA)

• การถอดข้อความอัตโนมัติ (พูดเป็นข้อความ)

• ระบบข้อมูลเชิงโต้ตอบ (Prime Speech, พอร์ทัลเสียง)

• อุปกรณ์เคลื่อนที่ (โทรศัพท์ สมาร์ทโฟน แท็บเล็ต)

• วิทยาการหุ่นยนต์ (Cleverbot - ระบบ ASR รวมกับปัญญาประดิษฐ์)

• ยานยนต์ (การควบคุมส่วนประกอบรถยนต์แบบแฮนด์ฟรี เช่น Blue & Me)

• การใช้งานที่บ้าน (ระบบสมาร์ทโฮม)

ระวังความปลอดภัย!

ยานยนต์ เครื่องใช้ในบ้าน ระบบทำความร้อน/ทำความเย็น และระบบรักษาความปลอดภัยภายในบ้าน และเครื่องใช้ภายในบ้านจำนวนมากเริ่มใช้อินเทอร์เฟซด้วยเสียง ซึ่งมักใช้ระบบ AI ในขั้นตอนนี้ ข้อมูลที่ได้จากการสนทนานับล้านกับเครื่องจะถูกส่งไปยัง เมฆคอมพิวเตอร์. เป็นที่ชัดเจนว่านักการตลาดสนใจพวกเขา และไม่ใช่แค่พวกเขาเท่านั้น

รายงานล่าสุดจากผู้เชี่ยวชาญด้านความปลอดภัยของไซแมนเทคแนะนำว่าผู้ใช้คำสั่งเสียงไม่ได้ควบคุมคุณลักษณะด้านความปลอดภัย เช่น ล็อคประตู นับแต่ระบบรักษาความปลอดภัยภายในบ้าน เช่นเดียวกับการจัดเก็บรหัสผ่านหรือข้อมูลที่เป็นความลับ ความปลอดภัยของปัญญาประดิษฐ์และผลิตภัณฑ์อัจฉริยะยังไม่ได้รับการศึกษาอย่างเพียงพอ

เมื่ออุปกรณ์ต่างๆ ในบ้านฟังทุกคำ ความเสี่ยงของการแฮ็กระบบและการใช้งานในทางที่ผิดจะกลายเป็นปัญหาใหญ่ หากผู้โจมตีเข้าถึงเครือข่ายท้องถิ่นหรือที่อยู่อีเมลที่เกี่ยวข้อง การตั้งค่าอุปกรณ์อัจฉริยะสามารถเปลี่ยนแปลงหรือรีเซ็ตเป็นการตั้งค่าจากโรงงานได้ ซึ่งจะทำให้ข้อมูลที่มีค่าสูญหายและประวัติผู้ใช้ถูกลบ

กล่าวอีกนัยหนึ่งผู้เชี่ยวชาญด้านความปลอดภัยกลัวว่า AI และ VUI ที่ขับเคลื่อนด้วยเสียงยังไม่ฉลาดพอที่จะปกป้องเราจากภัยคุกคามที่อาจเกิดขึ้นและปิดปากของเราเมื่อมีคนแปลกหน้าขอบางสิ่งบางอย่าง