Google สอนข้อจำกัดของหุ่นยนต์ ทำให้พวกเขาฉลาดขึ้น – TechCrunch

ถ้าคุณใช้ ไม่ว่าผู้ช่วยเสียงอัจฉริยะของคุณเช่น Alexa, Siri และผู้ช่วยอัจฉริยะของ Google คุณอาจสังเกตเห็นว่าเทคโนโลยีนี้ฉลาดขึ้นทุกวัน Google สามารถรอคุณได้ Siri สามารถพูดด้วยเสียงที่เป็นกลางทางเพศ และ Alexa สามารถอ่านนิทานก่อนนอนของคุณด้วยเสียงของคุณยายที่เสียชีวิตของคุณ วิทยาการหุ่นยนต์กำลังก้าวหน้าอย่างก้าวกระโดด ดังที่เราเห็นในงาน Robotics เมื่อเดือนที่แล้ว ช่องว่างระหว่างคำสั่งเสียงและหุ่นยนต์อัตโนมัติเติบโตขึ้นอย่างมากด้วยเหตุผลหลายประการ สัปดาห์ที่แล้วเราไปเยี่ยมชม Robotics Lab ของ Google ใน Mountain View เพื่อดูว่าหุ่นยนต์จะเปลี่ยนไปอย่างไรในอนาคตอันใกล้

การสอนหุ่นยนต์ให้ทำงานซ้ำๆ ในพื้นที่ควบคุมโดยที่มนุษย์ไม่ได้รับอนุญาตนั้นไม่ใช่เรื่องง่าย แต่เป็นปัญหาที่ค่อนข้างแก้ไขได้ การเยี่ยมชมโรงงานครั้งล่าสุดของ Rivian เป็นการเตือนความจำที่ดี แต่การใช้หุ่นยนต์อุตสาหกรรมมีอยู่ทั่วไปในการผลิต

หุ่นยนต์เอนกประสงค์ที่สามารถแก้ไขงานต่างๆ ตามคำสั่งเสียงในพื้นที่ที่มนุษย์มีอยู่นั้นยากกว่ามาก คุณสามารถพูดว่า “แล้ว Roomba ล่ะ” แต่หุ่นยนต์ดูดฝุ่นที่ทุกคนชื่นชอบมักถูกตั้งโปรแกรมไม่ให้แตะต้องสิ่งอื่นใดนอกจากพื้นและสิ่งของบนพื้น

หุ่นยนต์เล่นปิงปอง

เทเบิลเทนนิสเป็นเกมที่หุ่นยนต์สามารถตัดสินความสำเร็จของงานได้อย่างง่ายดายด้วยตัวเองและเรียนรู้จากความผิดพลาด นี่คือหนึ่งในนักวิจัยด้านวิทยาการหุ่นยนต์ของ Google ที่หยุดพักเพื่อแสดงให้คุณเห็นว่าหุ่นยนต์คืออะไร เครดิตรูปภาพ: ค่ายฤดูร้อน (เปิดในหน้าต่างใหม่) / Tech Crunch(เปิดในหน้าต่างใหม่)

“คุณอาจสงสัยว่าทำไมฉันถึงเล่นปิงปอง หนึ่งในความท้าทายที่ใหญ่ที่สุดสำหรับวิทยาการหุ่นยนต์ในปัจจุบันคือความรวดเร็ว แม่นยำ และปรับตัวได้ คุณอาจจะเร็วและไม่สามารถปรับตัวได้เลย นั่นไม่ใช่ปัญหา. ในสภาพแวดล้อมอุตสาหกรรม นี่เป็นเรื่องปกติ แต่ความรวดเร็ว ปรับตัวได้ และแม่นยำนั้นเป็นความท้าทายอย่างแท้จริง เทเบิลเทนนิสเป็นพิภพเล็ก ๆ ที่ยอดเยี่ยมจริงๆ ต้องใช้ความแม่นยำและความเร็ว คุณสามารถเรียนรู้จากผู้ที่เล่นเกม มันเป็นทักษะที่ผู้คนพัฒนาด้วยการฝึกฝน” Vincent Vanhoucke นักวิทยาศาสตร์ที่มีชื่อเสียงและหัวหน้าฝ่ายวิทยาการหุ่นยนต์ที่ Google Research กล่าว “ไม่ใช่ทักษะในการอ่านกฎและกลายเป็นแชมป์ในชั่วข้ามคืน คุณต้องฝึกฝนจริงๆ”

ความเร็วและความแม่นยำเป็นสิ่งหนึ่ง แต่กุญแจสำคัญที่ Google พยายามแก้ไขในห้องปฏิบัติการวิทยาการหุ่นยนต์คือจุดตัดของภาษามนุษย์และวิทยาการหุ่นยนต์ เป็นการก้าวกระโดดที่น่าประทับใจในระดับที่หุ่นยนต์สามารถเข้าใจภาษาธรรมชาติที่มนุษย์สามารถใช้ได้ “ถ้าคุณมีเวลา คุณช่วยซื้อเครื่องดื่มที่เคาน์เตอร์ให้ฉันหน่อยได้ไหม” เป็นคำขอที่ง่ายมากที่คุณสามารถถามมนุษย์ได้ แต่สำหรับเครื่องจักร คำกล่าวนั้นบรรจุความรู้และความเข้าใจไว้มากมายเป็นคำถามเดียวที่ดูเหมือน มาวิเคราะห์กัน “เมื่อคุณมีเวลาน้อย” อาจไม่มีความหมายอะไรเลย อาจเป็นเพียงคำอุปมา หรืออาจเป็นคำขอจริง ๆ ให้เสร็จสิ้นสิ่งที่หุ่นยนต์ทำ หากหุ่นยนต์ตรงไปตรงมาเกินไป “คำตอบที่ถูกต้อง” ของ “คุณช่วยพาเครื่องดื่มมาให้ฉันหน่อย” อาจเป็นหุ่นยนต์ที่พูดว่า “ใช่” มันสามารถและทำให้แน่ใจว่าคุณสามารถคว้าเครื่องดื่ม อย่างไรก็ตาม ในฐานะผู้ใช้ คุณไม่ได้ขอให้หุ่นยนต์ทำเช่นนั้นอย่างชัดเจน และถ้าเราอวดดีมากกว่านี้ เราไม่ได้บอกให้หุ่นยนต์เอาเครื่องดื่มมาให้

ต่อไปนี้คือปัญหาบางประการที่ Google กำลังจัดการกับระบบประมวลผลภาษาธรรมชาติ: Pathways Language Model — หรือ PaLM ระหว่างเพื่อน: มันประมวลผลและซึมซับสิ่งที่มนุษย์ต้องการอย่างแท้จริง แทนที่จะทำในสิ่งที่มนุษย์พูด

ความท้าทายต่อไปคือการตระหนักว่าหุ่นยนต์สามารถทำอะไรได้บ้าง หุ่นยนต์เหมาะสมอย่างยิ่งเมื่อถูกขอให้หยิบขวดน้ำยาทำความสะอาดจากด้านบนของตู้เย็น ซึ่งเก็บไว้อย่างปลอดภัยให้พ้นมือเด็ก ปัญหาคือหุ่นยนต์ไม่สามารถเข้าถึงความสูงนั้นได้ ความก้าวหน้าครั้งใหญ่คือสิ่งที่ Google เรียกว่า “ค่าใช้จ่าย” เป็นสิ่งที่หุ่นยนต์สามารถบรรลุได้ด้วยความสำเร็จในระดับหนึ่ง สิ่งเหล่านี้อาจรวมถึงงานง่าย ๆ (“ก้าวไปข้างหน้า 1 เมตร”) งานขั้นสูงอีกเล็กน้อย (“ไปหาโค้กกระป๋องในครัว”) หรืองานหลายขั้นตอนที่ซับซ้อนซึ่งต้องใช้หุ่นยนต์แสดงความเข้าใจอย่างมาก ความสามารถและโลกรอบตัวพวกเขา (“เอ่อ ฉันทำโค้กหกกระป๋องลงบนพื้น คุณช่วยเช็ดถูแล้วเอาเครื่องดื่มเพื่อสุขภาพมาให้ฉันหน่อยได้ไหม”)

แนวทางของ Google ใช้ความรู้ที่มีอยู่ในแบบจำลองภาษา (“คำพูด”) เพื่อกำหนดและให้คะแนนการดำเนินการที่เป็นประโยชน์สำหรับคำสั่งระดับสูง นอกจากนี้ยังเปิดใช้งานฟังก์ชันการจ่าย (“Can”) เพื่อเปิดใช้งานพื้นฐานในโลกแห่งความเป็นจริงและกำหนดสิ่งที่สามารถดำเนินการได้ในสภาพแวดล้อมที่กำหนด การใช้โมเดลภาษา PaLM Google เรียกมันว่า PaLM-SayCan

หุ่นยนต์ประจำวัน

ห้องปฏิบัติการวิทยาการหุ่นยนต์ของ Google ใช้หุ่นยนต์เหล่านี้จำนวนมากจาก Everyday Robots บทนี้ได้รับ R&R มากมาย (การผ่อนคลายและการชาร์จ) และคุณยังได้เรียนรู้วิธีเชื่อมต่อแหล่งพลังงานสำหรับการชาร์จอีกด้วย เครดิตรูปภาพ: ค่ายฤดูร้อน (เปิดในหน้าต่างใหม่) / Tech Crunch(เปิดในหน้าต่างใหม่)

เพื่อแก้ไขคำสั่งขั้นสูงข้างต้น หุ่นยนต์จำเป็นต้องแยกคำสั่งออกเป็นหลายขั้นตอน ตัวอย่างหนึ่งคือ:

  • มาเป็นวิทยากร
  • มองไปที่พื้น มองหาสิ่งที่หก และจำไว้ว่ามันอยู่ที่ไหน
  • มองผ่านลิ้นชัก ตู้ และเคาน์เตอร์ครัวเพื่อหาผ้าขี้ริ้ว ฟองน้ำ หรือกระดาษชำระ
  • เมื่อคุณพบเครื่องมือทำความสะอาด (มีฟองน้ำอยู่ในลิ้นชัก) ให้หยิบขึ้นมา
  • ปิดลิ้นชัก
  • ไปที่การรั่วไหล
  • ทำความสะอาดสิ่งที่หกในขณะที่ตรวจสอบว่าฟองน้ำสามารถดูดซับของเหลวได้ มิฉะนั้นให้ไปที่อ่างล้างจานแล้วบีบแล้วกลับมา
  • หลังจากทำความสะอาดน้ำที่หกแล้ว ให้บิดฟองน้ำอีกครั้ง
  • เปิดก๊อกน้ำ ล้างฟองน้ำ ปิดก๊อกน้ำ และบีบฟองน้ำเป็นครั้งสุดท้าย
  • เปิดลิ้นชัก วางฟองน้ำ แล้วปิดลิ้นชัก
  • ตรวจสอบเครื่องดื่มในครัวของคุณและตัดสินใจเลือกเครื่องดื่มที่ “ดีต่อสุขภาพ” มากกว่าโค้ก
  • หาขวดน้ำในตู้เย็นหยิบขึ้นมาแล้วนำไปให้คนที่ขอ อาจมีบางคนย้ายออกไปตั้งแต่มีการถามคำถาม เพราะฉันคิดว่าควรใช้ฟองน้ำครัวขนาดเล็กเช็ดของเหลว 11 ออนซ์แทนการใช้กระดาษชำระ

อย่างไรก็ตาม – ฉันกำลังมองหาความสนุกที่นี่ แต่คุณได้รับส่วนสำคัญ แม้แต่คำสั่งที่ฟังดูง่ายในความเป็นจริงอาจเกี่ยวข้องกับขั้นตอน ตรรกะ และการตัดสินใจจำนวนมากในกระบวนการ คุณกำลังมองหาเครื่องดื่มเพื่อสุขภาพที่ดีที่สุด หรือเป้าหมายของคุณคือการได้รับสิ่งที่ดีต่อสุขภาพมากกว่า Coca-Cola หรือไม่? การดื่มก่อนแล้วจึงล้างสิ่งสกปรกเพื่อให้มนุษย์สามารถดับกระหายได้ในขณะที่คุณคิดออกที่เหลือนั้นสมเหตุสมผลหรือไม่

สกรีนช็อตนี้แสดงให้เห็นว่าหุ่นยนต์สามารถประเมินการสืบค้นได้อย่างไร และคิดออกว่าต้องทำอะไรในทุกขั้นตอน ในกรณีนี้ หุ่นยนต์ต้องค้นหาฟองน้ำและพบว่ามีอัตราความสำเร็จสูงในการค้นหา ระบุ และจัดการฟองน้ำ เรายังสรุปด้วยว่าแม้ว่าหุ่นยนต์ตัวนี้จะเก่งในการ “เข้าลิ้นชัก” แต่ก็ไม่ได้ช่วยอะไรมากในกรณีนี้ เครดิตรูปภาพ: Google

สิ่งสำคัญที่นี่คือการสอนสิ่งที่หุ่นยนต์สามารถทำได้และไม่สามารถทำได้ และสิ่งที่สมเหตุสมผลในสถานการณ์ต่างๆ ในขณะที่คุณเยี่ยมชมห้องปฏิบัติการวิทยาการหุ่นยนต์ของ Google หุ่นยนต์กว่า 30 ตัวจาก Everyday Robots และเครื่องจักรที่ประดิษฐ์ขึ้นเป็นพิเศษอื่นๆ สามารถเล่นปิงปอง จับลูกบอลลาครอส เรียนรู้การสร้างบล็อค เปิดประตูตู้เย็น และทำงาน “สุภาพ” ได้ สิ่งแวดล้อม เห็นอะไรบางอย่าง พื้นที่ในฐานะมนุษย์

หุ่นยนต์จับลูกบอลลาครอส

จับดี! เครดิตรูปภาพ: ค่ายฤดูร้อน (เปิดในหน้าต่างใหม่) / Tech Crunch

ความท้าทายที่น่าสนใจสำหรับวิทยาการหุ่นยนต์ก็คือ โมเดลภาษาไม่ได้ขึ้นอยู่กับโลกทางกายภาพโดยเนื้อแท้ พวกเขาได้รับการฝึกอบรมเกี่ยวกับไลบรารีข้อความขนาดใหญ่ แต่ไลบรารีข้อความไม่มีปฏิสัมพันธ์กับสิ่งแวดล้อม และคุณไม่ต้องกังวลมากเกินไปเกี่ยวกับปัญหาที่เกิดขึ้น เมื่อคุณขอให้ Google พาคุณไปยังร้านกาแฟที่ใกล้ที่สุด แผนที่จะจับคู่การเดินป่า 45 วันและการว่ายน้ำ 3 วันข้ามทะเลสาบโดยไม่ได้ตั้งใจ ในโลกแห่งความเป็นจริง ความผิดพลาดโง่ๆ มีผลตามมาอย่างแท้จริง

ตัวอย่างเช่น หากข้อความ “ฉันทำเครื่องดื่มหก คุณสามารถช่วยฉันได้ไหม” แบบจำลองภาษา GPT-3 จะตอบกลับว่า “คุณสามารถลองใช้เครื่องดูดฝุ่นได้” มันสมเหตุสมผล สำหรับการดูดฝุ่น การดูดฝุ่นเป็นทางเลือกที่ดี และไม่น่าแปลกใจเลยที่รูปแบบภาษาจะเชื่อมโยงกับการดูดฝุ่นกับการทำความสะอาด หากหุ่นยนต์ทำอย่างนั้นจริง ๆ ก็มีแนวโน้มว่าจะล้มเหลว เครื่องดูดฝุ่นไม่ทำเครื่องดื่มหก น้ำ และอุปกรณ์อิเล็กทรอนิกส์ไม่ผสมกัน ดังนั้น อย่างดีที่สุด เครื่องดูดฝุ่นอาจพังหรือที่แย่ที่สุดก็คือ เครื่องใช้ไฟฟ้าของคุณเกิดไฟไหม้

หุ่นยนต์ที่เปิดใช้งาน PaLM-SayCan ของ Google ถูกนำไปใช้ในสภาพแวดล้อมของห้องครัวและได้รับการฝึกฝนให้ทำงานได้ดีขึ้นในหลากหลายวิธีที่จะเป็นประโยชน์ต่อห้องครัว เมื่อหุ่นยนต์ได้รับคำสั่ง หุ่นยนต์จะพยายามตัดสินใจ “โอกาสในการประสบความสำเร็จในสิ่งที่ฉันพยายามทำคืออะไร” และ “คุณคิดว่าสิ่งนี้จะเป็นประโยชน์เพียงใด” ระหว่างข้อพิจารณาทั้งสองนี้ หุ่นยนต์เริ่มฉลาดขึ้นทุกวัน

หุ่นยนต์ถือฟองน้ำ

การกลับมาอย่างมีชัยของหุ่นยนต์ดึงฟองน้ำ เครดิตรูปภาพ: ค่ายฤดูร้อน (เปิดในหน้าต่างใหม่) / Tech Crunch

ค่าใช้จ่าย (หรือความสามารถในการทำบางสิ่งบางอย่าง) ไม่ใช่ไบนารี การบาลานซ์ลูกกอล์ฟสามลูกทับกันเป็นเรื่องยากมาก แต่ก็ใช่ว่าจะเป็นไปไม่ได้ แทบจะเป็นไปไม่ได้เลยที่จะเปิดลิ้นชักสำหรับหุ่นยนต์ที่ไม่ได้แสดงให้คุณเห็นว่ามันทำงานอย่างไร อย่างไรก็ตาม เมื่อได้รับการฝึกฝนและสามารถทดลองวิธีการเปิดลิ้นชักได้ดีที่สุดแล้ว หุ่นยนต์จะสามารถเพิ่มความมั่นใจในลิ้นชักได้มากขึ้น หน้าที่. หุ่นยนต์ที่ไม่ได้รับการฝึกฝนอาจไม่สามารถหยิบถุงมันฝรั่งทอดจากลิ้นชักได้ Google แนะนำ อย่างไรก็ตาม ด้วยแนวทางไม่กี่ข้อและการฝึกฝนสองสามวัน โอกาสในการประสบความสำเร็จของคุณก็เพิ่มขึ้นอย่างมาก

แน่นอน ข้อมูลการฝึกทั้งหมดนี้ได้รับคะแนนเมื่อหุ่นยนต์ทดลอง บางครั้งหุ่นยนต์สามารถ “แก้ปัญหา” งานในลักษณะที่น่าแปลกใจ แต่ในความเป็นจริง หุ่นยนต์อาจ “ง่ายกว่า” ในการทำงานในลักษณะนั้น

การแยกโมเดลภาษาออกจากราคาที่จ่ายได้ หมายความว่าหุ่นยนต์สามารถ “เข้าใจ” คำสั่งในภาษาต่างๆ ได้ ทีมงานยังได้สาธิตในห้องครัวเมื่อ Vincent Vanhoucke หัวหน้าหุ่นยนต์ถามหุ่นยนต์เพื่อขอโค้กเป็นภาษาฝรั่งเศส “เราได้รับทักษะทางภาษาของเราฟรี” ทีมงานกล่าว โดยสังเกตว่าโครงข่ายประสาทเทียมที่ใช้ในการฝึกหุ่นยนต์นั้นมีความยืดหยุ่นเพียงพอที่จะเปิดประตูใหม่ (ตามตัวอักษรและเปรียบเปรย) สำหรับการเข้าถึงและการเข้าถึงแบบสากล เน้นย้ำ

แขนหุ่นยนต์ใกล้ชิดมนุษย์

หุ่นยนต์ส่วนใหญ่ที่สัมผัส เปิด เคลื่อนย้าย และทำความสะอาดวัตถุมักไม่ได้รับเชิญให้ทำงานอย่างใกล้ชิดกับมนุษย์ เราได้รับคำแนะนำให้รักษาระยะห่าง แต่ดูเหมือนว่านักวิจัยจะรู้สึกสบายใจกับหุ่นยนต์ที่ทำงานโดยอัตโนมัติภายในระยะไม่กี่นิ้วจากร่างกายมนุษย์ที่ไม่มีอาวุธ เครดิตรูปภาพ: ค่ายฤดูร้อน (เปิดในหน้าต่างใหม่) / Tech Crunch

ปัจจุบันไม่มีหุ่นยนต์และเทคโนโลยีใด ๆ หรือจำเป็นต้องมีการวางแผนสำหรับผลิตภัณฑ์เชิงพาณิชย์

“รตอนนี้เป็นการวิจัยอย่างสมบูรณ์ ดังที่คุณทราบได้จากระดับทักษะที่คุณมีในปัจจุบัน ทักษะนี้ยังไม่พร้อมสำหรับการใช้งานในสภาพแวดล้อมเชิงพาณิชย์ เราเป็นชุดวิจัย และเราชอบทำสิ่งที่ไม่ได้ผล” Vanhoucke กระซิบ “นั่นคือคำจำกัดความของการวิจัยในทางใดทางหนึ่ง และเราจะเดินหน้าต่อไป เราชอบทำสิ่งที่ไม่จำเป็นต้องปรับขนาดเพราะมันเป็นวิธีที่บอกว่าสิ่งต่าง ๆ ปรับขนาดด้วยข้อมูลที่มากขึ้นและพลังคอมพิวเตอร์มากขึ้น เราสามารถเห็นแนวโน้มที่จะก้าวไปข้างหน้า”

แล็บวิทยาการหุ่นยนต์ของ Google จะใช้เวลาสักครู่ในการค้นหาว่าการทดลองจะมีผลกระทบเชิงพาณิชย์อย่างไรในระยะยาว แต่แม้ในการสาธิตที่ค่อนข้างง่ายเมื่อสัปดาห์ที่แล้วที่ Mountain View คุณจะมีทักษะที่ลึกซึ้งยิ่งขึ้น ความรู้เกี่ยวกับภาษาธรรมชาติ การประมวลผลและวิธีที่ทีมของ Google ฝึกหุ่นยนต์ และหุ่นยนต์ทั้งสองชนะเมื่อสร้างชุดข้อมูลขนาดใหญ่