Published July 24, 2024 | Version 1.1
Dataset Open

Burmese MicroBiology 1K Dataset

Description

Burmese-Microbiology-1K


Min Si Thu, min@globalmagicko.com


Clinical Microbiology 1K QA pairs in Burmese Language

Purpose

Before this  Burmese Clinical Microbiology 1K dataset, the open-source resources to train the Burmese Large Language Model in Medical fields were rare.
Thus, the high-quality dataset needs to be curated to cover medical knowledge for the development of LLM in the Burmese language.

Motivation

I found an old notebook in my box. The book was from 2019. It contained written notes on microbiology when I was a third-year medical student. Because of the need for Burmese language resources in medical fields, I added more facts, and more notes and curated a dataset on microbiology in the Burmese language.

About

The dataset for microbiology in the Burmese language contains 1262 rows of instruction and output pairs in CSV format.
The dataset mainly focuses on clinical microbiology foundational knowledge, abstracting basic facts on culture medium, microbes - bacteria, viruses, fungi, parasites, and diseases caused by these microbes.

Examples

  • ငှက်ဖျားရောဂါဆိုတာ ဘာလဲ?,ငှက်ဖျားရောဂါသည် Plasmodium ကပ်ပါးကောင်ကြောင့် ဖြစ်ပွားသော အသက်အန္တရာယ်ရှိနိုင်သည့် သွေးရောဂါတစ်မျိုးဖြစ်သည်။ ၎င်းသည် ငှက်ဖျားခြင်ကိုက်ခြင်းမှတဆင့် ကူးစက်ပျံ့နှံ့သည်။

  • Influenza virus အကြောင်း အကျဉ်းချုပ် ဖော်ပြပါ။,Influenza virus သည် တုပ်ကွေးရောဂါ ဖြစ်စေသော RNA ဗိုင်းရပ်စ် ဖြစ်သည်။ Orthomyxoviridae မိသားစုဝင် ဖြစ်ပြီး type A၊ B၊ C နှင့် D ဟူ၍ အမျိုးအစား လေးမျိုး ရှိသည်။

  • Clostridium tetani ဆိုတာ ဘာလဲ,Clostridium tetani သည် မေးခိုင်ရောဂါ ဖြစ်စေသော gram-positive၊ anaerobic bacteria တစ်မျိုး ဖြစ်သည်။ မြေဆီလွှာတွင် တွေ့ရလေ့ရှိသည်။

  • Onychomycosis ဆိုတာ ဘာလဲ?,Onychomycosis သည် လက်သည်း သို့မဟုတ် ခြေသည်းများတွင် ဖြစ်ပွားသော မှိုကူးစက်မှုဖြစ်သည်။ ၎င်းသည် လက်သည်း သို့မဟုတ် ခြေသည်းများကို ထူထဲစေပြီး အရောင်ပြောင်းလဲစေသည်။

GitHub Repository

https://github.com/MinSiThu/Burmese-Microbiology-1K/blob/main/data/Microbiology.csv
 
Applications

Burmese Microbiology 1K Dataset can be used in building various medical-related NLP applications.
 
  • The dataset can be used for pretraining or finetuning the dataset on Burmese Large Langauge Models.
  • The dataset is ready to use in building RAG-based Applications.

Acknowledgments

Special thanks to magickospace.org for supporting the curation process of **Burmese Microbiology 1K Dataset**.
 
Contact
 
LinkedIn - https://www.linkedin.com/in/min-si-thu/

Files

Microbiology.csv

Files (732.6 kB)

Name Size Download all
md5:ff65413eb9831781e18e89c39e826f40
732.6 kB Preview Download

Additional details

Additional titles

Alternative title (Burmese)
အဏုဇီဝဗေဒအမေးအဖြေများ

Identifiers

Software

Repository URL
https://github.com/MinSiThu/Burmese-Microbiology-1K
Programming language
CSV
Development Status
Active