A Tamil Lexical Analysis Framework Based on Tolkappiyam Linguistic Rules தொல்காப்பிய மொழியியல் விதிகளை அடிப்படையாகக் கொண்ட தமிழ் சொல்லியல் பகுப்பாய்வுகக் கட்டமைப்பு
Creators
-
Thangasamy, Sathiyaraj1
-
Chinnaudayar Navaneethakrishnan, Subalalitha
(Researcher)2
-
ANTHONYSAMY, VINOTH
(Researcher)
-
A, John Paul Boopathi
(Researcher)
-
Rajendran, Nithya
(Researcher)
-
Rajendran, Nallathambi
(Researcher)3
-
P, KAVITHA
(Researcher)4
-
Vasagar, Karunya
(Researcher)
-
Manoharan, Mythily
(Researcher)
-
R, Gunaseelan
(Researcher)5
- 1. Sri Krishna Adithya College of Arts and Science
- 2. SRM University
- 3. P.S.G. College of Arts and Science
- 4. PSGR Krishnammal College for Women
- 5. PSG College of Arts & Science
Description
In today's generation, frequent spelling mistakes in Tamil necessitate advanced tools for accurate linguistic analysis and correction. This study proposes a Tamil lexical analysis framework grounded in the linguistic principles of Tolkappiyam, focusing on MeiMayakkam, a rule governing consonant-vowel harmony. Tolkappiyar's twelve rules on word formation have been reclassified into nine categories and further refined into nineteen rules based on consonantal sequences. By applying these rules, we evaluate the validity of Tamil word formations, demonstrated with examples like 'பக்கம்' ('pəkkəm') versus 'பக்மம்' ('pəkməm'). A computational analysis of over 53,617 Tamil proper names was conducted to identify words compliant with MeiMayakkam phonotactics. This framework lays the groundwork for developing Tamil linguistic tools akin to advanced NLP platforms such as Grammarly, AntConc, SpaCy, and TextRazor, offering precise phonological and syntactic validation. This study contributes to improving Tamil language technology through the creation of robust lexical analysis frameworks, enabling intelligent text analysis and correction.
இன்றைய தலைமுறையில், தமிழில் அடிக்கடி ஏற்படும் எழுத்துப் பிழைகள் துல்லியமான மொழியியல் பகுப்பாய்வு மற்றும் திருத்தத்திற்கான மேம்பட்ட கருவிகளின் அவசியத்தை உணர்த்துகின்றன. இந்த ஆய்வு, தொல்காப்பியத்தின் மொழியியல் கோட்பாடுகளை அடிப்படையாகக் கொண்ட தமிழ் சொல்லியல் பகுப்பாய்வுக் கட்டமைப்பை முன்மொழிகிறது, குறிப்பாக மெய்மயக்கம் என்ற மெய்-உயிர்மை இணக்க விதிகளை மையமாகக் கொண்டது. தொல்காப்பியரின் பன்னிரண்டு சொற்புருவாக்க விதிகள் ஒன்பது பிரிவுகளாக மறுவகைப்படுத்தப்பட்டு, மெய்யொலித் தொடர்ச்சிகளின் அடிப்படையில் பத்தொன்பது விதிகளாக மேலும் செம்மைப்படுத்தப்பட்டுள்ளன. இந்த விதிகளைப் பயன்படுத்துவதன் மூலம், 'பக்கம்' ('pəkkəm') மற்றும் 'பக்மம்' ('pəkməm') போன்ற எடுத்துக்காட்டுகளுடன் தமிழ் சொற்களின் சரியான உருவாக்கத்தை மதிப்பிடுகிறோம். 53,617 க்கும் மேற்பட்ட தமிழ் சொந்தப் பெயர்களின் கணினி பகுப்பாய்வு மெய்மயக்கம் ஒலிப்பியல் விதிகளுக்கு இணங்காத சொற்களை அடையாளம் காண மேற்கொள்ளப்பட்டது. இந்தக் கட்டமைப்பானது Grammarly, AntConc, SpaCy மற்றும் TextRazor போன்ற மேம்பட்ட NLP தளங்களைப் போன்ற தமிழ் மொழியியல் கருவிகளை உருவாக்குவதற்கான அடித்தளத்தை அமைக்கிறது, துல்லியமான ஒலியியல் மற்றும் தொடரியல் சரிபார்ப்பை வழங்குகிறது. வலுவான சொல்லியல் பகுப்பாய்வுக் கட்டமைப்புகளை உருவாக்குவதன் மூலம், அறிவார்ந்த உரை பகுப்பாய்வு மற்றும் திருத்தத்தைச் செயல்படுத்துவதன் மூலம், இந்த ஆய்வு தமிழ் மொழி தொழில்நுட்பத்தை மேம்படுத்துவதற்கு பங்களிக்கிறது.
Files
Sathiyaraj at el_3-17.pdf
Files
(982.5 kB)
Name | Size | Download all |
---|---|---|
md5:e1bca37d9a3e35f89e8f9fbd3a1eaaba
|
982.5 kB | Preview Download |
Additional details
References
- Deivasundaram N., 2021, Linguistics and Computational Linguistics, Chennai: Amuda Institute. p.184.
- Deivasundaram N., 2021, Language and Tamil Grammar, Chennai: Amuda Station. p.99.
- Sathiyaraj Thangasamy, April 2024, Tolkappiyam - Nunmarapu (Pythonic text), Grammar Quarterly, p. 2; Issue 2, Chitrai - Annie, ISSN: 2961-5712, pp.22-28.
- Balasubramanian K., 2017, Archaeological Grammatical Tradition, Chennai - Arima Nokku.
- Balasubramanian K., 2015, Unity and Wholeness of Archeology, Chennai - World Tamil Research Institute.
- Tamilannal, 2008, Tholkappiyam Source and Commentary, Madurai; Meenakshi Bookstore. p.12.
- Vinoth, A., Thangasamy, S., Nithya, R., Poovandran, G., Mounash, V., Subalalitha, C. N., ... & Jafer, K. S. (2023, December). Automatic Identification of Meimayakkam in Tamil Words Using Rule Based and Transfer Learning Approaches. In International Conference on Speech and Language Technologies for Low-resource Languages (pp. 443-458). Cham: Springer Nature Switzerland. https://link.springer.com/chapter/10.1007/978-3-031-58495-4_33)
- Vinoth A, Sathiyaraj Thangasamy, John Paul Boopathi A, Poovandran G, A development of the Meimayakkam second Rule Based on Tholkaappiyam and Nannul grammar concepts, proceeding of ICSIEM 2024.
- MAHALAKSHMI M., Charles Mahimainathan A., Dr. Vinoth A., Dr. Sathiyaraj Thangasamy, DATA SCIENCE BASED CORPUS CREATION FOR THOLKAAPPPIYAM, JNU, (2024)
- Dr. Vinoth A., Dr. Sathiyaraj Thangasamy, Poovandran, G., App Development for Tholkaappiya Meymayakkam First rule problem solve, INFITT & Kumaraguru (2024)
- Nedunchezhiyan, K.: Tholkappiyar period. https://newindian.activeboard.com/t59991225/topic-59991225/. Accessed 16 May 2024
- Kaniyam, https://github.com/KaniyamFoundation/all_tamil_nouns, Accessed 16 May 2024
- Tamil Oneindia Homepage. https://tamil.oneindia.com/art-culture/essays/2010/0429-Tholkaappiyar-tamil-literature.html. Accessed 16 May 2024
- Tolkappiyam App, https://github.com/neyakkoot/tholkaappiyam_mobil_app_development, Accessed 16 June 2024
- Tolkappiyam Meimayakkam, https://github.com/neyakkoot/Tholkaappiyam_meymayakkm_first_rule_developed, Accessed 16 June 2024
- Repository migrated to KanchiLUG's repository, https://gitlab.com/kachilug/tamilrulepy, Accessed 16 May 2024
- Unwanted Character Remove, https://texttools.org/remove-unwanted-characters, Accessed 16 June 2024
- Word split, https://beautifycode.net/line-splitter, Accessed 16 June 2024
- Word Formation in Tamil A1, https://www.researchgate.net/publication/283436541_A_Comprehensive_Study_of_Word_Fomation_in_Tamil, Accessed 1 May 2024
- Word Formation in Tamil A2, https://www.academia.edu/15112082/WORD_FORMATION_IN_TAMIL, Accessed 16 May 2024
- Word Formation in Tamil A3, https://www.ijrte.org/wp-content/uploads/papers/v8i4/D9588118419.pdf, Accessed 16 May 2024
- Word Formation in Tamil A4, https://aircconline.com/ijnlc/V8N1/8119ijnlc03.pdf Accessed 16 May 2024
- Word Formation in Tamil A5, http://www.languageinindia.com/dec2001/nramaswami.html, Accessed 16 May 2024
- Word Formation in Tamil A6, https://arxiv.org/pdf/2401.08367, Accessed 16 May 2024
- Word Formation in Tamil A7, https://www.ijert.org/modern-tamil-word-formation-rules-in-nlp, Accessed 16 May 2024
- Morphological Analyzer A1, https://www.semanticscholar.org/paper/Morphological-Analyzer-for-Classical-Tamil-Texts%3A-A-Akilan-Naganathan/5fd3545c60fdf6f0371b28f368db8d6513315995, Accessed 16 May 2024
- Morphological Analyzer A2, https://www.ijiset.com/v1s5/IJISET_V1_I5_84.pdf, Accessed 16 May 2024
- Morphological Analyzer A3, https://www.researchgate.net/publication/353007521_A_PROCEDURAL_STUDY_ON_MORPHOLOGICAL_ANALYZERS_FOR_TAMIL_LANGUAGE_USING_THE_LEXICAL_-SURFACE_RULE_BASED_CORRESPONDENCES, Accessed 16 May 2024
- Anunaadham, https://anunaadam.appspot.com/, Accessed 17 October 2024
- Shanmugma S. V., 1980, Ezhuthilakkan Kotpadu, Chidambaram: Anithindiya Tamil Mozhiyiyal kazagam.
- Paramasivam K., Ikkalath Tamil Marabu, Trichy; Adaiyalam; 2011, pp. 32-43
- Ilampuuranar Urai, https://ta.wikisource.org/s/4an, Accessed 17 October 2024
- Nachinarkkiniyar Urai, https://www.projectmadurai.org/pm_etexts/pdf/pm0516_01.pdf, Accessed 17 October 2024