Published November 16, 2019
| Version 2.1.dev8
Software
Open
PyThaiNLP/pythainlp: PyThaiNLP 2.1.dev8
Authors/Creators
- Wannaphong Phatthiyaphaibun1
- bact'2
- Pattarawat Chormai
- Chakri Lowphansirikul3
- smeeklai
- Charin4
- Peradon Charoenchainetr5
- Pete Peeradej Tanruangporn
- Supaseth
- Can Udomcharoenchaikit6
- "Plane" Abhabongse Janthong
- Kan Ouivirach7
- Korkeat W.
- Nonthakon Jitchiranant
- Korakot Chaovavanich8
- David Pollack9
- Nutchanon Ninyawee
- nyamakawa
- Yann Dubois10
- boomsquared
- pontakornth
- koaly_
- fossabot11
- Codacy Badger12
- Preeti Yuankrathok
- Cody13
- Chanchana Sornsoontorn
- 1. @PyThaiNLP
- 2. Thai Netizen Network
- 3. VISTEC
- 4. Datatouille.org
- 5. KBTG
- 6. Chulalongkorn University
- 7. @prontodev @prontotools
- 8. True Corporation
- 9. i2x
- 10. Facebook AI Research
- 11. @fossas
- 12. Codacy
- 13. QuantifiedCode
Description
ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8 PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้
ความสามารถใหม่
- เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
- เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)
การตัดคำ
- เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
- เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
- เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
- ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ
Model updated
- thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
- ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ <DATE>15 ก.ย. 61</DATE> ทดสอบระบบเวลา <TIME>14:49 น.</TIME>'
Refactoring
- ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
- ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
- ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
- เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
- รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ
ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ https://github.com/PyThaiNLP/pythainlp/issues/181
สามารถทดลองโดยใช้คำสั่ง
pip install -U --pre pythainlp
ลิงก์ที่สำคัญ
- เอกสาร API ศึกษาได้ที่ https://www.thainlp.org/pythainlp/docs/dev/
- เอกสารสอนการใช้งานศึกษาได้ที่ https://thainlp.org/pythainlp/tutorials/
- แจ้ง Bug, สอบถามข้อมูลเกี่ยวกับ PyThaiNLP และรายงานปัญหาได้ที่ https://github.com/PyThaiNLP/pythainlp/issues
ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors
We build Thai NLP. PyThaiNLP
ThaiNLP #NLP #PyThaiNLPFiles
PyThaiNLP/pythainlp-2.1.dev8.zip
Files
(11.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:d4c4ce1259355595b1a8a86258e8eb8e
|
11.3 MB | Preview Download |
Additional details
Related works
- Is supplement to
- https://github.com/PyThaiNLP/pythainlp/tree/2.1.dev8 (URL)