[เปิดให้นักพัฒนา AI ทั่วโลกสามารถใช้งานได้แล้ววันนี้ “ไต้ฝุ่น” โมเดลภาษาไทยขนาดใหญ่บน Samba-1]
กลุ่ม SCBX นำโดย เอสซีบี เอกซ์ (SCBX) และเอสซีบี เท็นเอกซ์ (SCB 10X) เดินหน้าผลักดันระบบนิเวศและคอมมูนิตี้ AI ในประเทศไทยอย่างต่อเนื่องเพื่อตอกย้ำความมุ่งมั่นของกลุ่ม SCBX ในการเป็นองค์กรที่ขับเคลื่อนด้วย AI หรือ AI-First Organization ล่าสุด ผนึกกำลัง SambaNova Systems บริษัทผู้ให้บริการโซลูชันด้าน Generative AI ที่รวบรวมโมเดลที่เร็วที่สุด และ Chips ที่ทันสมัยที่สุด นำ “ไต้ฝุ่น” (Typhoon) โมเดลภาษาไทยขนาดใหญ่ (Thai Large Language Model) เปิดให้บริการบนแพลตฟอร์ม Samba-1 Composition of Experts (CoE) เพื่อให้นักพัฒนา AI ทั่วโลกสามารถใช้ต่อยอดและพัฒนาแอปพลิเคชันด้าน AI บนแพลตฟอร์ม Samba-1 ได้แล้ววันนี้
“ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai) ซึ่งนับเป็นโมเดลภาษาไทยขนาดใหญ่ที่ดีที่สุดในปัจจุบันและมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 และ GPT-4 ในภาษาไทย โดยวัดจาก Benchmark ที่รวบรวมและจัดเตรียมมาจากข้อสอบภาษาไทยความยากเทียบเท่าข้อสอบมัธยมปลายและข้อสอบมาตรฐานอื่นๆ ในประเทศไทย โดย “ไต้ฝุ่น” (Typhoon) ถูกออกแบบมาเพื่อแก้ไขปัญหาช่องว่างทางภาษาที่โมเดลส่วนใหญ่ในปัจจุบันถูกฝึกฝนเป็นภาษาอังกฤษเป็นหลัก รวมถึงข้อจำกัดด้านทรัพยากรของภาษาไทยที่ไม่มีข้อมูลมากเพียงพอ (Low Resource Language) ผู้สนใจและนักพัฒนาทดลองสามารถดาวน์โหลด Typhoon Model เพื่อต่อยอดในการพัฒนาแอปพลิเคชันและนวัตกรรมด้าน AI ได้ฟรีตั้งแต่วันนี้ ศึกษาข้อมูลเพิ่มเติม ได้ที่ https://opentyphoon.ai/
[ทำไมไทยต้องมี AI ที่มี LLM เป็นของตนเอง?]
ทางทีมงานก็หวังว่าจะให้มีการแข่งขันและแบรนด์อื่นๆ ของไทยกระโดดเข้ามาในตลาดของเทคโนโลยี AI มากขึ้น ซึ่งอาจจะกลายเป็นน่านน้ำใหม่ของอุตสาหกรรมและจุดขับเคลื่อนเศรษฐกิจใหม่ต่อไป
การที่ประเทศไทยต้องพัฒนา AI เป็นของตนเอง โดยเฉพาะอย่างยิ่ง Large Language Model (LLM) ที่เป็นระบบภาษาไทย มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายประการดังนี้
1. ความมั่นคงทางข้อมูลและอธิปไตยทางเทคโนโลยี:
- การควบคุมข้อมูล: AI ต้องการข้อมูลจำนวนมหาศาลในการฝึกฝน หากต้องพึ่งพา AI จากต่างประเทศ ข้อมูลสำคัญของคนไทย เช่น ข้อมูลสุขภาพ การเงิน การศึกษา หรือข้อมูลประชากร อาจถูกนำไปใช้ในทางที่ไม่เหมาะสม หรือเสี่ยงต่อการถูกโจมตีทางไซเบอร์ การมี AI ของไทยเองช่วยให้เราควบคุมข้อมูลภายในประเทศ ลดความเสี่ยงด้านความปลอดภัยและความเป็นส่วนตัว
- ลดการพึ่งพาต่างชาติ: การพึ่งพาเทคโนโลยี AI จากต่างประเทศมากเกินไป อาจทำให้ไทยเสียเปรียบในแง่ของข้อจำกัดในการเข้าถึง การถูกจำกัดการใช้งาน หรือการขึ้นอยู่กับนโยบายของประเทศผู้พัฒนาเทคโนโลยีนั้นๆ ซึ่งอาจส่งผลกระทบต่อความสามารถในการแข่งขันและการพัฒนาประเทศในระยะยาว
2. ความแม่นยำและบริบททางภาษาและวัฒนธรรมไทย:
- ความเฉพาะของภาษาไทย: ภาษาไทยมีโครงสร้าง ไวยากรณ์ และลักษณะเฉพาะตัวที่แตกต่างจากภาษาอื่น ๆ โมเดลภาษาที่พัฒนาจากข้อมูลภาษาต่างประเทศมักจะไม่เข้าใจบริบททางวัฒนธรรม การเล่นคำ สำนวน หรือความละเอียดอ่อนของภาษาไทย ทำให้การทำงานไม่แม่นยำเท่าที่ควร
- การประยุกต์ใช้: LLM ภาษาไทยที่ถูกฝึกฝนด้วยข้อมูลภาษาไทยจะสามารถเข้าใจและผลิตภาษาไทยได้อย่างเป็นธรรมชาติและแม่นยำ ตอบสนองความต้องการของผู้ใช้งานในประเทศไทยได้ดีกว่า ไม่ว่าจะเป็นในด้านการศึกษา ธุรกิจ หรือการวิจัย
- การสร้างสรรค์นวัตกรรม: การมี LLM ภาษาไทยเป็นของตนเองจะเปิดโอกาสให้เกิดการสร้างสรรค์นวัตกรรมและต่อยอดการใช้งานในหลากหลายรูปแบบ เช่น การสร้างเอกสารราชการ การถอดเทปภาษาไทย หรือการพัฒนา Gen AI ที่เชี่ยวชาญข้อมูลและบริบทไทย
3. การขับเคลื่อนเศรษฐกิจและสังคม:
- เพิ่มขีดความสามารถในการแข่งขัน: การพัฒนา AI ของตนเองจะช่วยเพิ่มประสิทธิภาพและผลิตภาพในการทำงานของภาคธุรกิจและอุตสาหกรรมต่าง ๆ ช่วยให้เกิดการพัฒนาผลิตภัณฑ์และบริการมูลค่าสูง สร้างธุรกิจ Start-up ด้าน AI และดิจิทัล
- ลดความเหลื่อมล้ำ: AI สามารถเข้าถึงบริการภาครัฐได้อย่างทั่วถึงและเป็นธรรม ลดความเหลื่อมล้ำด้านรายได้ การศึกษา และสุขภาพการแพทย์ เช่น การใช้ AI ในการวินิจฉัยโรคเบื้องต้น หรือการเข้าถึงแหล่งเรียนรู้
- การพัฒนาคุณภาพชีวิต: AI สามารถนำไปประยุกต์ใช้ในการแก้ปัญหาสังคมและสิ่งแวดล้อม เช่น การบริหารจัดการพลังงาน การลดมลภาวะ หรือการรักษาความมั่นคงปลอดภัยของประเทศ
4. การพัฒนาบุคลากรและความรู้:
- สร้างผู้เชี่ยวชาญ: การพัฒนา AI ในประเทศจะส่งเสริมให้เกิดการพัฒนาบุคลากรที่มีความรู้และทักษะด้าน AI โดยเฉพาะในสาขา Deep Tech ซึ่งเป็นสิ่งสำคัญในการขับเคลื่อนประเทศ
- สร้างองค์ความรู้: การวิจัยและพัฒนา AI ภาษาไทยจะนำไปสู่การสร้างองค์ความรู้ใหม่ ๆ ที่เป็นประโยชน์ต่อประเทศ และสามารถต่อยอดไปสู่การพัฒนาเทคโนโลยีอื่น ๆ ในอนาคต
[ความท้าทายในการพัฒนา AI ภาษาไทย]
แม้จะมีประโยชน์มากมาย แต่การพัฒนา AI ภาษาไทยก็มีความท้าทายเช่นกัน ได้แก่:
- การขาดแคลนบุคลากร: ประเทศไทยยังขาดแคลนนักวิจัยและนักพัฒนา AI ที่มีความเชี่ยวชาญโดยเฉพาะ
- ข้อมูล: การรวบรวมและจัดการข้อมูลภาษาไทยจำนวนมหาศาลที่มีคุณภาพเพื่อใช้ในการฝึกฝนโมเดลเป็นสิ่งสำคัญและท้าทาย
- ทรัพยากรด้านฮาร์ดแวร์: การฝึกฝน LLM ขนาดใหญ่ต้องอาศัยทรัพยากรด้านคอมพิวเตอร์และฮาร์ดแวร์ที่มีประสิทธิภาพสูง
- โครงสร้างภาษาไทย: ภาษาไทยมีลักษณะเฉพาะบางประการที่อาจทำให้ AI ตีความได้ยาก เช่น การไม่มีช่องว่างระหว่างคำ การผันวรรณยุกต์ เป็นต้น
อย่างไรก็ตาม ประเทศไทยได้เริ่มดำเนินการพัฒนา AI ของตนเองแล้ว เช่น โครงการ Thai LM และมีการพัฒนาโมเดลภาษาไทยอย่าง WangchanBERTa และ Pathumma LLM ซึ่งถือเป็นก้าวสำคัญในการสร้างอธิปไตยทางเทคโนโลยีและขับเคลื่อนประเทศไทยไปสู่ยุค AI อย่างมั่นคง
ที่มา
- TYPHOON; Open-Source Language Technologies for Thai Language Knowledge, and Culture
- WangchanBERTa: Pre-trained Thai Language Model, สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (Thailand Artificial Intelligence Research Institute)
- ‘Pathumma LLM’ โมเดลเพื่อการสร้าง Generative AI ที่เชี่ยวชาญทั้งภาษา ข้อมูล และบริบทไทย, สสวท.
- LLM โมเดลเข้าใจภาษามนุษย์, aiforthai.in.th