There is a newer version of the record available.

Published November 16, 2019 | Version 2.1.dev8
Software Open

PyThaiNLP/pythainlp: PyThaiNLP 2.1.dev8

Description

ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8 PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้

ความสามารถใหม่

  • เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
  • เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)

การตัดคำ

  • เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
  • เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
  • เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
  • ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ

Model updated

  • thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
  • ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ <DATE>15 ก.ย. 61</DATE> ทดสอบระบบเวลา <TIME>14:49 น.</TIME>'

Refactoring

  • ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
  • ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
  • ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
  • เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
  • รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ

ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ https://github.com/PyThaiNLP/pythainlp/issues/181

สามารถทดลองโดยใช้คำสั่ง

pip install -U --pre pythainlp

ลิงก์ที่สำคัญ

ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors

We build Thai NLP. PyThaiNLP

ThaiNLP #NLP #PyThaiNLP

Files

PyThaiNLP/pythainlp-2.1.dev8.zip

Files (11.3 MB)

Name Size Download all
md5:d4c4ce1259355595b1a8a86258e8eb8e
11.3 MB Preview Download

Additional details

Related works