
![]() |
เนคเทค ดันโครงการ BEST สร้างมาตรฐานประมวลผลภาษาไทยให้หุ่นยนต์ ผู้เชี่ยวชาญชี้ ภาษาไทยซับซ้อน เล็งผลิตโปรแกรม "อับดุล" ฉลาดสุดๆ ปี 2020 ที่โลกเข้าสู่ยุคของเทคโนโลยีเต็มขั้น เมื่อคุณเดินเข้าไปในร้านอาหาร หุ่นยนต์บริกรเข้ากล่าวทักทายเลื่อนเก้าอี้ จัดผ้าเช็ดปาก ก่อนที่จะแนะนำเมนูพิเศษประจำวัน กิริยาท่าทางและคำพูดทุกอย่างสมบูรณ์ราวกับมนุษย์ โลกอาจจะกำลังเข้าสู่การเปลี่ยนแปลง แม่บ้าน คนสวน พี่เลี้ยงหรือแม้แต่คู่ชีวิต อาจเป็นคนแต่ภายนอก ภายในกลับเต็มไปด้วยระบบกลไกไฮโดรลิกของกล้ามเนื้อเทียม และระบบเซนเซอร์ มนุษย์อยากมีแรงงานเป็นหุ่นยนต์มานานแล้ว สะท้อนให้เห็นจากคำว่า Robot ที่มาจากภาษาเชค หมายถึง แรงงาน (labor) ถูกนำมาใช้เป็นครั้งแรกในบทละครของคาเรล คาเพ็ก (2433-2481) เรื่อง R.U.R. (Rossum's Universal Robots) เปิดการแสดงครั้งแรกที่กรุงปรากเดือนมกราคม 2464 เล่าเรื่องเมืองสวรรค์แห่งหนึ่ง ช่วงแรกจักรกลถูกนำมาใช้ประโยชน์สารพัด แต่ภายหลังทำให้คนตกงาน และเกิดความวุ่นวายในสังคม เราอาจรวมนิยายเรื่อง พิน็อคคิโอ (Pinocchio) เจ้าหุ่นไม้จมูกยาวเวลาพูดโกหกอันลือลั่นไว้เป็นหนึ่งความฝันที่เป็นรูปร่างมากขึ้น พิน็อคคิโอ ประพันธ์โดย คาร์โล คอลโลดี ชาวอิตาเลียน ตีพิมพ์ครั้งแรกปี 2481 เป็นหุ่นเด็กแกะสลักจากไม้สนโดย เจพเพ็ตโต ช่างไม้ในเมืองเล็กแห่งหนึ่ง และฝันอยากให้หุ่นยนต์ไม้มีชีวิต ชื่อพิน็อคคิโอ เป็นภาษาชาวเมืองทัสคัน หมายถึง ลูกสน มาจากคำว่า pino หมายถึง ไม้สน ผสมกับคำว่า occhio หมายถึง ตา เป็นไปได้ว่า ภาพยนตร์ไตรภาค Matrix อาจมีต้นกำเนิดเรื่องมาจากบทละครเรื่อง R.U.R เมื่อหุ่นยนต์ก่อจลาจลและทำสงครามกับมนุษย์จนได้รับชัยชนะ และจับมนุษย์มาเป็นแหล่งสร้างพลังงานหล่อเลี้ยงประชากรหุ่นยนต์ ไม่ต้องห่วงว่ากฎสามข้อของ ไอแซค อาซิมอฟ ที่บัญญัติให้หุ่นยนต์ปกป้องมนุษย์จะแหกกฎ ยังมีอุปสรรคสำคัญรอฟันฝ่า หากจะพัฒนาหุ่นยนต์ไทยให้เป็นทาสรับใช้ของมนุษย์ และเป็นโจทย์หินที่นักวิจัยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือเนคเทคกำลังคิดหาทางออกอยู่ นั่นคือ การคิดค้นเทคโนโลยีการประมวลผลคำเพื่อให้หุ่นยนต์เข้าใจภาษาไทย ที่มีทั้งวรรณยุกต์ สระเสียงสั้น สระเสียงยาว มาตราตัวสะกด แม่กก แม่กง ยังไม่นับปัญหาคลาสสิก ภาษาไทยไม่มีเว้นวรรคระหว่างคำ ไม่มีจุด Full Stop และไม่มีเครื่องหมายลูกน้ำแบ่งประโยค จับหุ่นยนต์มาเรียน ก.ไก่ "กว่าที่สมองกลจะสื่อสาร และโต้ตอบกับตัวอักษรหรือคำพูดของมนุษย์ จำเป็นต้องประมวลผลคำ วลี หรือประโยคให้ถูกต้องตามบริบทที่ใช้กันอยู่ จึงจะสามารถแปลภาษา ทำงานตามคำสั่ง รวมถึงพูดคุยโต้ตอบได้อย่างถูกต้องเหมือนมนุษย์ เปรียบเสมือนการสอนเด็กให้พูด" ดร.ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการ หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เนคเทค อธิบาย หากจะเปรียบกับการสอนเด็กพูด การพัฒนาระบบคอมพิวเตอร์อาจจะยากกว่า เพราะคอมพิวเตอร์ต้องประมวลผลโดยไม่รู้ภาษา หรือเข้าใจความหมาย นอกจากการจดจำรหัสของตัวอักษร การตัดคำ วลี หรือประโยคจึงเป็นสิ่งที่จำเป็นอย่างมาก เพื่อให้การออกเสียงหรือตีความไม่ผิดเพี้ยนไปอย่างสิ้นเชิง ความท้าทายในการพัฒนาปัญญาประดิษฐ์ จึงเกิดขึ้นทั่วทุกมุมโลก ทุกชาติทุกภาษาพยายามที่จะสร้างสมองกลที่สามารถพูดจาโต้ตอบด้วยภาษาที่ตนเข้าใจได้ แต่ในแต่ละภาษาจะมีความโดดเด่น และซับซ้อนแฝงอยู่จนกลายเป็นความท้าทายครั้งใหญ่ของนักวิจัยที่จะพัฒนาเทคโนโลยีขั้นสูงนี้ออกมาให้ได้ นักวิจัยไทยก็เช่นกัน “ภาษาไทย ไม่มีขอบเขตของคำ กลุ่มคำ วลี หรือประโยค ไม่เหมือนภาษาอังกฤษที่มีเครื่องหมายลูกน้ำ หรือสัญลักษณ์จบประโยค ของเราใช้เว้นวรรคคั่นในแทบทุกความหมาย ทำให้เกิดความกำกวมและยากต่อการแบ่งคำ ไม่มีเครื่องหมายบ่งบอกการจบประโยค ให้เข้าใจกันเอาเอง” ผู้อำนวยการ หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษาของเนคเทคอธิบายความยาก ประโยคยอดนิยมที่อ้างกันบ่อย บางครั้งคนไทยอ่านเองยังต้องคิดก่อนว่าจะอ่านแบบไหนดี เช่น “คนตากลมนอนตากลม” หรือ “เรือโคลงเพราะโคลงเรือ” ถ้าเป็นคอมพิวเตอร์เจอประโยคนี้อาจขึ้นข้อความ "พบความผิดพลาด" ไปเลย ความพยายามพัฒนาระบบประมวลผลภาษาไทยคิดค้นกันมากว่า 20 ปีแล้ว ไม่เฉพาะแต่เนคเทค ยังรวมถึงสถาบันการศึกษาอย่างมหาวิทยาลัยเกษตรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย มหาวิทยาลัยเชียงใหม่ มหาวิทยาลัยสงขลานครินทร์ เป็นต้น “ตอนนี้ ทุกคนประสบปัญหาเดียวกันคือ ภาษาไทยยังไม่มีมาตรฐานการประมวลผลภาษาที่ชัดเจน เพราะภาษาไทยมีความซับซ้อนทั้งการเขียน และไวยากรณ์ ที่ไม่สามารถนำเทคนิคการประมวลผลภาษาอื่นมาประยุกต์ใช้ได้” ผู้อำนวยการหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ชี้จุดช้า เดิม นักวิจัยจะใช้เทคนิคการประมวลผลภาษาธรรมชาติในรูปแบบต่าง ๆ แต่ก็พบข้อดีข้อเสียต่างกันไป ดร.กฤษณ์ โกสวัสดิ์ นักวิจัยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) เล่าว่า 20 ปีก่อน อาศัยเทคนิคกฎการสะกดคำ โดยคอมพิวเตอร์จะจดจำตามหลักไวยากรณ์ ตัวอักษร สระ ตัวสะกด แต่ในกรณีที่เป็นคำหลายพยางค์ เทคนิคดังกล่าวจะใช้ไม่ได้ 10 ปี ถัดมา นักวิจัยพัฒนาเทคนิคใหม่ อาศัยพจนานุกรมเข้ามาช่วยโดยตัดคำตามคำในพจนานุกรม แต่ก็พบปัญหาอีกว่า คำกำกวม เช่น ตา-กลม หรือ ตาก-ลม ก็จะไม่สามารถแยกได้ เพราะมีอยู่ในพจนานุกรมทั้งคู่ แต่ก็ยังคงใช้กันอยู่แพร่หลาย เนื่องจากสามารถทำงานได้เร็ว ระยะหลัง นักพัฒนาโปรแกรมหันมาหาเทคนิคการเรียนรู้ด้วยเครื่องคอมพิวเตอร์ โดยอาศัยหลักสถิติ ซึ่งจำเป็นต้องทำข้อความที่มีการแบ่งคำ เพื่อเป็นตัวอย่าง จากนั้นเครื่องจะเก็บสถิติการใช้คำไว้ เทคนิคนี้ก็มีข้อเสียคือ ต้องใช้ตัวอย่างจำนวนมากพอที่จะครอบคลุมภาษาไทยทั้งหมด ไม่ว่าจะเป็นศัพท์ที่มีอยู่ในพจนานุกรมประมาณ 3 หมื่นคำ รวมทั้งคำใหม่ที่เกิดขึ้นตลอดเวลา หากเปรียบเทียบกับภาษาอื่น นักวิจัยจากเนคเทคชี้ว่า ภาษาอังกฤษ จีน หรือญี่ปุ่นสามารถตัดคำได้ง่ายกว่า เพราะแยกคำอย่างชัดเจน ทั้งยังมีเครื่องหมายที่บ่งชี้การจบประโยค หรือการแบ่งวรรคตอน วลี ที่แน่ชัด ช่วยให้สมองกลสามารถประมวลผลได้ง่ายขึ้น ปัจจุบันมีซอฟต์แวร์ที่สามารถติดตั้งลงในโปรแกรมไมโครซอฟต์ เวิร์ด ให้ผู้ใช้สามารถพูดแทนการพิมพ์ได้เลย แต่ใช้ได้เฉพาะภาษาอังกฤษ จีนและญี่ปุ่น "ความซับซ้อนของภาษาไทยไม่ใช่เป็นปัญหาเดียวในโลก" ดร.กฤษณ์ กล่าวก่อนอธิบายเพิ่มว่า แต่ละภาษามีความซับซ้อนเฉพาะตัว ไม่ว่าจะเป็นภาษาลาวที่มีรากฐานของภาษา แบบเดียวกับภาษาไทย แต่มีเครื่องหมายลูกน้ำ และจุดปิดประโยค ภาษาพม่าและภูฏาน มีการแบ่งพยางค์ชัดเจน ทำให้ การพัฒนาเทคนิคการแบ่งคำทำได้ง่ายกว่า ภาษาที่ยากกว่าภาษาไทยก็มี เช่น ภาษาอาหรับ บางคำละทิ้งในฐานที่เข้าใจ หรือเปลี่ยนรูปคำไปตามบริบท ทำให้แบ่งคำได้ยาก หรือภาษาเขมรที่มีความกำกวม ไม่มีการแบ่งพยางค์ หรือคำที่แน่นอน ยังดีมีตัวจบประโยคให้ทราบ จัดแข่ง แบ่งคำไทย “ตอนนี้เราจึงต้องถอยหลังกลับไปเริ่มการแบ่งคำ โครงการ Best นี้จะมุ่งเน้นการสร้างมาตรฐานของภาษาไทยขึ้น โดยจะเริ่มเป็นลำดับขั้น ตั้งแต่การแบ่งคำ แบ่งวลี และประโยคในที่สุด” ดร.กฤษณ์กล่าว นักวิจัยเนคเทคหวังว่า การจัดแข่งขันจะเป็นการสร้างมาตรฐานที่ยอมรับในวงกว้างไม่เฉพาะแต่การแบ่งคำของภาษาไทยเท่านั้นที่เป็นปัญหา นิพจน์ระบุนาม หรือพวกชื่อเฉพาะก็มีปัญหายิ่งกว่า เนื่องจากเป็นคำที่ไม่ปรากฏในพจนานุกรม และชื่อเฉพาะหรือศัพท์ใหม่ยังเกิดขึ้นตลอดเวลา เช่น ซานติก้า ที่หลายคนไม่เคยได้ยินก็กลายเป็นศัพท์ที่ถูกสืบค้นมากเป็นอันดับ 1 ในช่วงเวลา 1 เดือนที่ผ่านมา และระบบแบ่งคำที่มีอยู่ก็จะไม่สามารถแบ่งได้ เนื่องจากไม่รู้จัก และจะแบ่งรหัสที่ระบุไว้คือ ซา-น-ติ-ก้-า ถอยหลัง เพื่อตั้งหลัก “เราพัฒนามาเกิน 10 ปีแล้ว แต่ท้ายที่สุด เราก็ต้องกลับมาสู่โครงการเบสต์ ที่เริ่มตั้งแต่การแบ่งคำใหม่ จากฐานข้อมูลคำที่มีมากขึ้น รวมถึง เทคโนโลยีที่พัฒนาขึ้น จะช่วยให้โครงการวิจัยของเราก้าวหน้า เช่น โปรแกรมแปลภาษา โปรแกรมสืบค้นข้อมูล การสั่งงานด้วยเสียง และการสังเคราะห์เสียง“ ดร.ชัยกล่าว ปัญหาตัดคำภาษาไทยยังทำให้โปรแกรมแปลภาษาไทย-อังกฤษและอังกฤษ-ไทย มีระดับความแม่นยำเพียง 60 เปอร์เซ็นต์ แปลอังกฤษเป็นไทยได้ แต่ไม่สามารถแปลไทยเป็นอังกฤษได้เนื่องจากยังตัดคำได้ไม่สมบูรณ์ เช่นเดียวกับโปรแกรมสืบค้น การใช้งานซอฟต์แวร์ การสั่งงานด้วยเสียงก็ไม่สามารถทำงานได้สำเร็จ การสังเคราะห์เสียงมีความผิดเพี้ยน ผิดความหมาย ไม่เหมือนเวอร์ชั่นภาษาญี่ปุ่น จีนและอังกฤษ ที่ปัจจุบันทำได้แล้ว “หากเทคโนโลยีพื้นฐานสำเร็จ ก็จะทำให้การวิจัยสมองกลอัจฉริยะเดินหน้าไปอย่างรวดเร็ว เนคเทคมี 2 เทคโนโลยีใหม่ที่อยู่ระหว่างการพัฒนาคือ โปรแกรมอับดุล ที่จะวิเคราะห์คำได้ดีขึ้น และการสรุปความอัตโนมัติ (Summarization) ที่จะทำหน้าที่สรุปใจความสำคัญไม่ว่าจะเป็นอีเมล์หรือ ข่าว แต่มีความยากในระดับสูงเพราะต้องตัดทั้งคำ วลี ประโยคและต้องเข้าใจเนื้อหาทั้งหมดก่อนที่จะสรุป” ดร.ชัย เพิ่มเติม นอกจากนี้ เนคเทคยังมีแผนที่จะจัดแข่งขันในระดับนานาชาติ โดยใช้ภาษาไทยเป็นโจทย์ เพื่อเปิดโอกาสให้ชาวต่างชาติหรือนักศึกษาไทยในต่าง ประเทศได้เข้าร่วม โดยตั้งเป้าจะจัดการแข่งขันขึ้นภายในงาน Symposium on Natural Language Processing (SNLP) ที่จะจัดขึ้นในเดือนตุลาคม 2552 นี้ “เราหวังที่จะดึงผู้เชี่ยวชาญด้านคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติจากทั่วโลกมาร่วมพัฒนา ผู้เชี่ยวชาญหลายรายสนใจความซับซ้อนของภาษาไทย จนกลายเป็นความท้าทายที่แม้จะไม่รู้และเข้าใจในภาษาไทยก็ตาม" นักวิจัยไทยวาดฝัน
สอน ก.ไก่ ..ให้หุ่นยนต์


