There is a newer version of the record available.

Published December 10, 2019 | Version 2.1
Software Open

PyThaiNLP/pythainlp: PyThaiNLP 2.1

  • 1. PyThaiNLP
  • 2. VISTEC
  • 3. Datatouille.org
  • 4. Thai Netizen Network

Description

English

Hello World. Today, we're happy to announce the availability of PyThaiNLP. Since the project moved to GitHub, we have recorded over 197,000 downloads -- thank you for using PyThaiNLP.

Summary – Release Highlights New Features Tokenizer

  • AttaCut, a fast and accurate tokenizer, is now available through engine="attacut" in pythainlp.tokenize.word_tokenize(). Read more about AttaCut implementation at https://arxiv.org/abs/1911.07056, as presented at New in ML Workshop, NeurIPS 2019.
  • ssg, a syllable segmentor, is now available through engine="ssg" in pythainlp.tokenize.subword_tokenize()
  • Tokenization benchmark

Corpus

  • Add Thai female, male names corpus
  • Add PYTHAINLP_DATA_DIR environment variable to set location of downloaded data

Named-Entity Tagger

  • Add HTML-like tag in output

Localization

  • New function: pythainlp.util.thai_time, time spell out to Thai words

Other improvements

  • Removing and updating many dependencies
  • Remove marisa-trie from pythainlp
  • Updated tutorial notebooks and documentation
  • Better command-line interface

Installation

You can install or upgarde from pip install -U pythainlp

Change log: https://github.com/PyThaiNLP/pythainlp/issues/181

Documentation: https://www.thainlp.org/pythainlp/docs/dev/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

ภาษาไทย

สวัสดีชาวโลก วันนี้ 10 ธันวาคม 2562 พวกเราได้ปล่อย PyThaiNLP 2.1 ตอนนี้ PyThaiNLP มียอดดาวน์โหลดมากกว่า 197,000 ครั้ง ขอบคุณที่ใช้ PyThaiNLP

สรุป – สิ่งที่สำคัญ คุณลักษณะใหม่ ตัวตัดข้อความ

  • เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize() อ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ https://arxiv.org/abs/1911.07056
  • เพิ่ม ssg ตัวตัดพยางค์แบบ CRF เรียกใช้ผ่าน engine="ssg" ใน pythainlp.tokenize.subword_tokenize()
  • ตัววัดประสิทธิภาพตัวตัดคำ

คลังข้อความ

  • เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
  • เพิ่ม PYTHAINLP_DATA_DIR environment variable สำหรับตั้งค่าการโหลดข้อมูลโมเดล

ตัวหาชื่อ

  • เพิ่ม tag ทำนอง HTML ครอบข้อความที่มีชื่อ

การปรับเป็นท้องถิ่น

  • เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย

การปรับปรุงอื่นๆ

  • ลบและอัปเดตไลบรารีหลายอัน
  • ลบ marisa-trie จาก pythainlp
  • ปรับปรุง tutorial notebooks และเอกสาร
  • ปรับปรุง command-line interface

การติดตั้ง

สามารถติดตั้งหรือปรับรุ่นได้ด้วยคำสั่ง pip install -U pythainlp

Change log: https://github.com/PyThaiNLP/pythainlp/issues/181

Documentation: https://www.thainlp.org/pythainlp/docs/dev/

Tutorials https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

พวกเราสร้าง Thai NLP

ทีม PyThaiNLP

Files

PyThaiNLP/pythainlp-2.1.zip

Files (11.3 MB)

Name Size Download all
md5:bb4248780f26a6c9ea4009831de2e449
11.3 MB Preview Download

Additional details

Related works