Published July 24, 2024
| Version 1.1
Dataset
Open
Burmese MicroBiology 1K Dataset
Creators
Description
Burmese-Microbiology-1K
Min Si Thu, min@globalmagicko.com
Clinical Microbiology 1K QA pairs in Burmese Language
Purpose
Before this Burmese Clinical Microbiology 1K dataset, the open-source resources to train the Burmese Large Language Model in Medical fields were rare.
Thus, the high-quality dataset needs to be curated to cover medical knowledge for the development of LLM in the Burmese language.
Motivation
I found an old notebook in my box. The book was from 2019. It contained written notes on microbiology when I was a third-year medical student. Because of the need for Burmese language resources in medical fields, I added more facts, and more notes and curated a dataset on microbiology in the Burmese language.
About
The dataset for microbiology in the Burmese language contains 1262 rows of instruction and output pairs in CSV format.
The dataset mainly focuses on clinical microbiology foundational knowledge, abstracting basic facts on culture medium, microbes - bacteria, viruses, fungi, parasites, and diseases caused by these microbes.
Examples
- ငှက်ဖျားရောဂါဆိုတာ ဘာလဲ?,ငှက်ဖျားရောဂါသည် Plasmodium ကပ်ပါးကောင်ကြောင့် ဖြစ်ပွားသော အသက်အန္တရာယ်ရှိနိုင်သည့် သွေးရောဂါတစ်မျိုးဖြစ်သည်။ ၎င်းသည် ငှက်ဖျားခြင်ကိုက်ခြင်းမှတဆင့် ကူးစက်ပျံ့နှံ့သည်။
- Influenza virus အကြောင်း အကျဉ်းချုပ် ဖော်ပြပါ။,Influenza virus သည် တုပ်ကွေးရောဂါ ဖြစ်စေသော RNA ဗိုင်းရပ်စ် ဖြစ်သည်။ Orthomyxoviridae မိသားစုဝင် ဖြစ်ပြီး type A၊ B၊ C နှင့် D ဟူ၍ အမျိုးအစား လေးမျိုး ရှိသည်။
- Clostridium tetani ဆိုတာ ဘာလဲ,Clostridium tetani သည် မေးခိုင်ရောဂါ ဖြစ်စေသော gram-positive၊ anaerobic bacteria တစ်မျိုး ဖြစ်သည်။ မြေဆီလွှာတွင် တွေ့ရလေ့ရှိသည်။
- Onychomycosis ဆိုတာ ဘာလဲ?,Onychomycosis သည် လက်သည်း သို့မဟုတ် ခြေသည်းများတွင် ဖြစ်ပွားသော မှိုကူးစက်မှုဖြစ်သည်။ ၎င်းသည် လက်သည်း သို့မဟုတ် ခြေသည်းများကို ထူထဲစေပြီး အရောင်ပြောင်းလဲစေသည်။
GitHub Repository
https://github.com/MinSiThu/Burmese-Microbiology-1K/blob/main/data/Microbiology.csv
Applications
Burmese Microbiology 1K Dataset can be used in building various medical-related NLP applications.
- The dataset can be used for pretraining or finetuning the dataset on Burmese Large Langauge Models.
- The dataset is ready to use in building RAG-based Applications.
Acknowledgments
Special thanks to magickospace.org for supporting the curation process of **Burmese Microbiology 1K Dataset**.
Contact
LinkedIn - https://www.linkedin.com/in/min-si-thu/
Files
Microbiology.csv
Files
(732.6 kB)
Name | Size | Download all |
---|---|---|
md5:ff65413eb9831781e18e89c39e826f40
|
732.6 kB | Preview Download |
Additional details
Additional titles
- Alternative title (Burmese)
- အဏုဇီဝဗေဒအမေးအဖြေများ
Identifiers
- DOI
- 10.57967/hf/2765
Software
- Repository URL
- https://github.com/MinSiThu/Burmese-Microbiology-1K
- Programming language
- CSV
- Development Status
- Active