PyThaiNLP/pythainlp: PyThaiNLP 2.1
Creators
- 1. PyThaiNLP
- 2. VISTEC
- 3. Datatouille.org
- 4. Thai Netizen Network
Description
English
Hello World. Today, we're happy to announce the availability of PyThaiNLP. Since the project moved to GitHub, we have recorded over 197,000 downloads -- thank you for using PyThaiNLP.
Summary – Release Highlights New Features Tokenizer
- AttaCut, a fast and accurate tokenizer, is now available through engine="attacut" in pythainlp.tokenize.word_tokenize(). Read more about AttaCut implementation at https://arxiv.org/abs/1911.07056, as presented at New in ML Workshop, NeurIPS 2019.
- ssg, a syllable segmentor, is now available through engine="ssg" in pythainlp.tokenize.subword_tokenize()
- Tokenization benchmark
Corpus
- Add Thai female, male names corpus
- Add PYTHAINLP_DATA_DIR environment variable to set location of downloaded data
Named-Entity Tagger
- Add HTML-like tag in output
Localization
- New function: pythainlp.util.thai_time, time spell out to Thai words
Other improvements
- Removing and updating many dependencies
- Remove marisa-trie from pythainlp
- Updated tutorial notebooks and documentation
- Better command-line interface
Installation
You can install or upgarde from pip install -U pythainlp
Change log: https://github.com/PyThaiNLP/pythainlp/issues/181
Documentation: https://www.thainlp.org/pythainlp/docs/dev/
Tutorials: https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
We build Thai NLP
PyThaiNLP Team
ภาษาไทย
สวัสดีชาวโลก วันนี้ 10 ธันวาคม 2562 พวกเราได้ปล่อย PyThaiNLP 2.1 ตอนนี้ PyThaiNLP มียอดดาวน์โหลดมากกว่า 197,000 ครั้ง ขอบคุณที่ใช้ PyThaiNLP
สรุป – สิ่งที่สำคัญ คุณลักษณะใหม่ ตัวตัดข้อความ
- เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize() อ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ https://arxiv.org/abs/1911.07056
- เพิ่ม ssg ตัวตัดพยางค์แบบ CRF เรียกใช้ผ่าน engine="ssg" ใน pythainlp.tokenize.subword_tokenize()
- ตัววัดประสิทธิภาพตัวตัดคำ
คลังข้อความ
- เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
- เพิ่ม PYTHAINLP_DATA_DIR environment variable สำหรับตั้งค่าการโหลดข้อมูลโมเดล
ตัวหาชื่อ
- เพิ่ม tag ทำนอง HTML ครอบข้อความที่มีชื่อ
การปรับเป็นท้องถิ่น
- เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย
การปรับปรุงอื่นๆ
- ลบและอัปเดตไลบรารีหลายอัน
- ลบ marisa-trie จาก pythainlp
- ปรับปรุง tutorial notebooks และเอกสาร
- ปรับปรุง command-line interface
การติดตั้ง
สามารถติดตั้งหรือปรับรุ่นได้ด้วยคำสั่ง pip install -U pythainlp
Change log: https://github.com/PyThaiNLP/pythainlp/issues/181
Documentation: https://www.thainlp.org/pythainlp/docs/dev/
Tutorials https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
พวกเราสร้าง Thai NLP
ทีม PyThaiNLP
Files
PyThaiNLP/pythainlp-2.1.zip
Files
(11.3 MB)
Name | Size | Download all |
---|---|---|
md5:bb4248780f26a6c9ea4009831de2e449
|
11.3 MB | Preview Download |
Additional details
Related works
- Is supplement to
- https://github.com/PyThaiNLP/pythainlp/tree/2.1 (URL)