🗨️Typhoon; โมเดล AI สัญชาติไทย รองรับ ‘เลขไทย’ เอกสาร ‘ราชการ’ ก็ไม่กลัว ดึงข้อมูลจาก-PDF OCR โปรเจคภายใต้ยานแม่ SCB-X

[เปิดให้นักพัฒนา AI ทั่วโลกสามารถใช้งานได้แล้ววันนี้ “ไต้ฝุ่น” โมเดลภาษาไทยขนาดใหญ่บน Samba-1]

 

กลุ่ม SCBX นำโดย เอสซีบี เอกซ์ (SCBX) และเอสซีบี เท็นเอกซ์ (SCB 10X) เดินหน้าผลักดันระบบนิเวศและคอมมูนิตี้ AI ในประเทศไทยอย่างต่อเนื่องเพื่อตอกย้ำความมุ่งมั่นของกลุ่ม SCBX ในการเป็นองค์กรที่ขับเคลื่อนด้วย AI หรือ AI-First Organization ล่าสุด ผนึกกำลัง SambaNova Systems บริษัทผู้ให้บริการโซลูชันด้าน Generative AI ที่รวบรวมโมเดลที่เร็วที่สุด และ Chips ที่ทันสมัยที่สุด นำ “ไต้ฝุ่น” (Typhoon) โมเดลภาษาไทยขนาดใหญ่ (Thai Large Language Model) เปิดให้บริการบนแพลตฟอร์ม Samba-1 Composition of Experts (CoE) เพื่อให้นักพัฒนา AI ทั่วโลกสามารถใช้ต่อยอดและพัฒนาแอปพลิเคชันด้าน AI บนแพลตฟอร์ม Samba-1 ได้แล้ววันนี้

“ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai) ซึ่งนับเป็นโมเดลภาษาไทยขนาดใหญ่ที่ดีที่สุดในปัจจุบันและมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 และ GPT-4 ในภาษาไทย โดยวัดจาก Benchmark ที่รวบรวมและจัดเตรียมมาจากข้อสอบภาษาไทยความยากเทียบเท่าข้อสอบมัธยมปลายและข้อสอบมาตรฐานอื่นๆ ในประเทศไทย โดย “ไต้ฝุ่น” (Typhoon) ถูกออกแบบมาเพื่อแก้ไขปัญหาช่องว่างทางภาษาที่โมเดลส่วนใหญ่ในปัจจุบันถูกฝึกฝนเป็นภาษาอังกฤษเป็นหลัก รวมถึงข้อจำกัดด้านทรัพยากรของภาษาไทยที่ไม่มีข้อมูลมากเพียงพอ (Low Resource Language) ผู้สนใจและนักพัฒนาทดลองสามารถดาวน์โหลด Typhoon Model เพื่อต่อยอดในการพัฒนาแอปพลิเคชันและนวัตกรรมด้าน AI ได้ฟรีตั้งแต่วันนี้ ศึกษาข้อมูลเพิ่มเติม ได้ที่ https://opentyphoon.ai/

Typhoon Release

[ทำไมไทยต้องมี AI ที่มี LLM เป็นของตนเอง?]

.
ประหยัดต้นทุนต่อ Token: ในเชิงเทคนิค หากใครจ่ายเงินใช้ AI อย่าง ChatGPT, Gemini หรือ แบรนด์ใดๆ อยู่จะทราบว่าการใช้งานของคุณ จำกัด token ตามแพ็คเกจที่จ่ายเงิน สมมติเช่น Hi = 1 คำ 2 token, แต่พอเป็น สวัสดี อาจจะใช้มากถึง 4-5 token เพื่อให้ Ai เข้าใจคำที่มีความหมายเดียวกันในต่างภาษา เพราะ LM หรือ ฐานข้อมูลของ Ai ที่เอามาเทรนด์เป็น base on ภาษาอังกฤษ
.
“ทำให้ต้นทุนการพัฒนา หรือการใช้งาน AI ของไทยหากไม่มี LM เป็นระบบภาษาไทย หรือระบบของตนเอง จะมีต้นทุนที่สูงกว่าต่างชาติ 2-3 เท่า”
.
ดังนั้น การพัฒนาให้มี LM ที่เป็นฐานข้อมูลในระบบ ภาษาไทย จะทำให้การใช้งานถูกกว่า ต้นทุนต่ำกว่า รวมไปถึงเมื่อนำไปประยุกต์ใช้งานสำหรับผู้ประกอบการไทย ก็จะสามารถแข่งขันได้หากมีต้นทุนทางเทคโนโลยีที่ต่ำกว่า ซึ่งในอนาคตหลายคนไม่สามารถปฏิเสธได้ว่า AI จะเข้ามามีทุกบทบาทในทุกๆ อุตสาหกรรม
.
นี่จึงเป็นก้าวสำคัญที่ไทยมี AI สัญชาติไทยภายใต้ LLM ของระบบภาษาไทย
.
ทางทีมงานก็หวังว่าจะให้มีการแข่งขันและแบรนด์อื่นๆ ของไทยกระโดดเข้ามาในตลาดของเทคโนโลยี AI มากขึ้น ซึ่งอาจจะกลายเป็นน่านน้ำใหม่ของอุตสาหกรรมและจุดขับเคลื่อนเศรษฐกิจใหม่ต่อไป

การที่ประเทศไทยต้องพัฒนา AI เป็นของตนเอง โดยเฉพาะอย่างยิ่ง Large Language Model (LLM) ที่เป็นระบบภาษาไทย มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายประการดังนี้

1. ความมั่นคงทางข้อมูลและอธิปไตยทางเทคโนโลยี:

  • การควบคุมข้อมูล: AI ต้องการข้อมูลจำนวนมหาศาลในการฝึกฝน หากต้องพึ่งพา AI จากต่างประเทศ ข้อมูลสำคัญของคนไทย เช่น ข้อมูลสุขภาพ การเงิน การศึกษา หรือข้อมูลประชากร อาจถูกนำไปใช้ในทางที่ไม่เหมาะสม หรือเสี่ยงต่อการถูกโจมตีทางไซเบอร์ การมี AI ของไทยเองช่วยให้เราควบคุมข้อมูลภายในประเทศ ลดความเสี่ยงด้านความปลอดภัยและความเป็นส่วนตัว
  • ลดการพึ่งพาต่างชาติ: การพึ่งพาเทคโนโลยี AI จากต่างประเทศมากเกินไป อาจทำให้ไทยเสียเปรียบในแง่ของข้อจำกัดในการเข้าถึง การถูกจำกัดการใช้งาน หรือการขึ้นอยู่กับนโยบายของประเทศผู้พัฒนาเทคโนโลยีนั้นๆ ซึ่งอาจส่งผลกระทบต่อความสามารถในการแข่งขันและการพัฒนาประเทศในระยะยาว

2. ความแม่นยำและบริบททางภาษาและวัฒนธรรมไทย:

  • ความเฉพาะของภาษาไทย: ภาษาไทยมีโครงสร้าง ไวยากรณ์ และลักษณะเฉพาะตัวที่แตกต่างจากภาษาอื่น ๆ โมเดลภาษาที่พัฒนาจากข้อมูลภาษาต่างประเทศมักจะไม่เข้าใจบริบททางวัฒนธรรม การเล่นคำ สำนวน หรือความละเอียดอ่อนของภาษาไทย ทำให้การทำงานไม่แม่นยำเท่าที่ควร
  • การประยุกต์ใช้: LLM ภาษาไทยที่ถูกฝึกฝนด้วยข้อมูลภาษาไทยจะสามารถเข้าใจและผลิตภาษาไทยได้อย่างเป็นธรรมชาติและแม่นยำ ตอบสนองความต้องการของผู้ใช้งานในประเทศไทยได้ดีกว่า ไม่ว่าจะเป็นในด้านการศึกษา ธุรกิจ หรือการวิจัย
  • การสร้างสรรค์นวัตกรรม: การมี LLM ภาษาไทยเป็นของตนเองจะเปิดโอกาสให้เกิดการสร้างสรรค์นวัตกรรมและต่อยอดการใช้งานในหลากหลายรูปแบบ เช่น การสร้างเอกสารราชการ การถอดเทปภาษาไทย หรือการพัฒนา Gen AI ที่เชี่ยวชาญข้อมูลและบริบทไทย

3. การขับเคลื่อนเศรษฐกิจและสังคม:

  • เพิ่มขีดความสามารถในการแข่งขัน: การพัฒนา AI ของตนเองจะช่วยเพิ่มประสิทธิภาพและผลิตภาพในการทำงานของภาคธุรกิจและอุตสาหกรรมต่าง ๆ ช่วยให้เกิดการพัฒนาผลิตภัณฑ์และบริการมูลค่าสูง สร้างธุรกิจ Start-up ด้าน AI และดิจิทัล
  • ลดความเหลื่อมล้ำ: AI สามารถเข้าถึงบริการภาครัฐได้อย่างทั่วถึงและเป็นธรรม ลดความเหลื่อมล้ำด้านรายได้ การศึกษา และสุขภาพการแพทย์ เช่น การใช้ AI ในการวินิจฉัยโรคเบื้องต้น หรือการเข้าถึงแหล่งเรียนรู้
  • การพัฒนาคุณภาพชีวิต: AI สามารถนำไปประยุกต์ใช้ในการแก้ปัญหาสังคมและสิ่งแวดล้อม เช่น การบริหารจัดการพลังงาน การลดมลภาวะ หรือการรักษาความมั่นคงปลอดภัยของประเทศ

4. การพัฒนาบุคลากรและความรู้:

  • สร้างผู้เชี่ยวชาญ: การพัฒนา AI ในประเทศจะส่งเสริมให้เกิดการพัฒนาบุคลากรที่มีความรู้และทักษะด้าน AI โดยเฉพาะในสาขา Deep Tech ซึ่งเป็นสิ่งสำคัญในการขับเคลื่อนประเทศ
  • สร้างองค์ความรู้: การวิจัยและพัฒนา AI ภาษาไทยจะนำไปสู่การสร้างองค์ความรู้ใหม่ ๆ ที่เป็นประโยชน์ต่อประเทศ และสามารถต่อยอดไปสู่การพัฒนาเทคโนโลยีอื่น ๆ ในอนาคต

[ความท้าทายในการพัฒนา AI ภาษาไทย]

แม้จะมีประโยชน์มากมาย แต่การพัฒนา AI ภาษาไทยก็มีความท้าทายเช่นกัน ได้แก่:

  • การขาดแคลนบุคลากร: ประเทศไทยยังขาดแคลนนักวิจัยและนักพัฒนา AI ที่มีความเชี่ยวชาญโดยเฉพาะ
  • ข้อมูล: การรวบรวมและจัดการข้อมูลภาษาไทยจำนวนมหาศาลที่มีคุณภาพเพื่อใช้ในการฝึกฝนโมเดลเป็นสิ่งสำคัญและท้าทาย
  • ทรัพยากรด้านฮาร์ดแวร์: การฝึกฝน LLM ขนาดใหญ่ต้องอาศัยทรัพยากรด้านคอมพิวเตอร์และฮาร์ดแวร์ที่มีประสิทธิภาพสูง
  • โครงสร้างภาษาไทย: ภาษาไทยมีลักษณะเฉพาะบางประการที่อาจทำให้ AI ตีความได้ยาก เช่น การไม่มีช่องว่างระหว่างคำ การผันวรรณยุกต์ เป็นต้น

อย่างไรก็ตาม ประเทศไทยได้เริ่มดำเนินการพัฒนา AI ของตนเองแล้ว เช่น โครงการ Thai LM และมีการพัฒนาโมเดลภาษาไทยอย่าง WangchanBERTa และ Pathumma LLM ซึ่งถือเป็นก้าวสำคัญในการสร้างอธิปไตยทางเทคโนโลยีและขับเคลื่อนประเทศไทยไปสู่ยุค AI อย่างมั่นคง

ที่มา

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top