Skip to main content

1.1 Data ဆိုတာဘာလဲ

ဒေတာဆိုတာဘာလဲလို့ မေးလာရင် ဘာမဆိုဖြစ်နိုင်တယ်လို့ပဲ ပြောရမှာပါ။


Data can be "Numbers"


ပထမဆုံးအနေနဲ့ ဒေတာက ကိန်းဂဏန်းတွေဖြစ်နိုင်ပါတယ်။ ဒေတာလို့ပြောလိုက်တာနဲ့ လူအများစုက ကိန်းဂဏန်းတွေကိုပဲ ပြေးမြင်ကြမှာပါ။ ကိန်းဂဏန်းတွေနဲ့ ပြည့်နေတဲ့ Excel Spreadsheet လိုဟာမျိုးပေါ့။ အောက်မှာပြထားတဲ့ပုံက US က Center for Disease Control က ကောက်ယူထားတဲ့ National Health and Nutrition Examination Survey (NHANES) ဒေတာတွေဖြစ်ပါတယ်။ ကျွန်တော်တို့မြင်နေကြ Spreadsheet Data Format နဲ့ပဲ ဖြစ်ပါတယ်။


ဒီပုံထဲမှာ Form ပုံစံထဲမှာ ကိန်းဂဏန်းတွေကို ဖြည့်သွင်းထားတာကို တွေ့ရမှာပါ။ Column တစ်ခုချင်းစီရဲ့ Variable(အမည်)တွေက နားလည်ဖို့ ခက်ခဲမှာပါ။ ဒါပေမဲ့ တတိယမြောက် Column က Gender ဖြစ်ပါတယ်။ ကျား/မ ခွဲခြားထားတာပါ။ Column အောက်မှာရှိတဲ့ နံပါတ် 1 နဲ့ 2 တွေက ကျား သို့မဟုတ် မ ကို ကိုယ်စားပြုပါတယ်။


Data can be "Images"


နောက်တစ်ချက်က ဒေတာတွေက ပုံရိပ်တွေလည်း ဖြစ်နိုင်ပါတယ်။ ဥပမာ - လူတွေရဲ့ မျက်နှာပုံရိပ်တွေဖြစ်ပါတယ်။ သူတို့ကို Eigenfaces တွေလို့ ခေါ်ပါတယ်။


Eigenface ပုံများ Source https://towardsdatascience.com/eigenfaces-recovering-humans-from-ghosts-17606c328184


ဒီ Eigenfaces တွေက ကျွန်တော်တို့ရဲ့မျက်နှာပုံရိပ်တွေကို နံပါတ်တွေနဲ့ ကိုယ်စားပြုပါတယ်။ သုတေသနပညာရှင်တွေက ကျွန်တော်တို့ရဲ့ မျက်နှာပုံရိပ်တွေကို အခုလို နံပါတ်တွေနဲ့ ကိုယ်စားပြုသတ်မှတ်လိုက်ပြီး အရမ်းကောင်းတဲ့ ဆောင်ရွက်ချက်တွေကို ပြုလုပ်နိုင်ပါတယ်။ ဥပမာ - SnapChat ထဲမှာ လူနှစ်ယောက်ရဲ့ မျက်နှာကို ပြောင်းလဲတပ်ပေးတဲ့ Face Swapping လုပ်ဆောင်ချက်မျိုး ဖြစ်ပါတယ်။


Face Swapping ပြုလုပ်ထားပုံ။ Source - https://www.elitereaders.com/funny-baby-face-swaps/


ဒါ့အပြင် Facial Recognition လို မျက်နှာပြင်သိမှတ်စနစ်မှာလည်း အသုံးပြုပါတယ်။


Facial Recognition, Source - https://www.thalesgroup.com/en/markets/digital-identity-and-security/government/biometrics/facial-recognition


Facebook မှာပို့စ်တင်တဲ့အခါမျိုးမှာ ဓာတ်ပုံထဲက သူကို မှန်မှန်ကန်ကန်ပြသပေးနိုင်ဖို့အတွက်လည်း Facial Recognition အသုံးပြုထားတာ၊ စမတ်ဖုန်းတွေမှာ လူတွေရဲ့မျက်နှာကို ကင်မရာ Focus ချိန်နိုင်ဖို့အတွက် အသုံးပြုတာ စတာတွေကို တွေ့ဖူး/အသုံးပြုဖူးကြမှာပါ။


နောက်တစ်ခုက ဂြိုလ်တုဓာတ်ပုံတွေ ဖြစ်ပါတယ်။ ဂြိုလ်တုဓာတ်ပုံတွေကို အမျိုးမျိုးသော အကြောင်းအရာတွေအတွက် အသုံးပြုနိုင်ပါတယ်။ ကမ်းရိုးတန်းနေရာတွေကို ရှာဖွေကြည့်ရှုတာ၊ နေရာဒေသတစ်ခုရဲ့ သစ်တောပြုန်းတီးမှုကို စောင့်ကြည့်တာ၊ မုန်တိုင်းဖြစ်ပေါ်ဖို့ အစပျိုးနေတာကို စောင့်ကြည့်တာ၊ မုန်တိုင်းဝင်ရောက်နိုင်တဲ့ ဒေသတွေကို ခန့်မှန်းတာ စတဲ့ လုပ်ငန်းတွေမှာ အသုံးပြုနိုင်ပါတယ်။


ဂြိုလ်တုဓာတ်ပုံရိုက်ကူးနေပုံ, Source - https://phys.org/news/2020-01-space-highway-satellite.html


Data can be "Words"


ဒေတာတွေက စကားလုံးတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဥပမာ - ဟယ်ရီပေါ်တာ စာအုပ် ခုနစ်အုပ်လုံးထဲက စကားလုံးတွေအားလုံးကို လေ့လာမှတ်သားပြီး Algorithms အမျိုးမျိုးကို အသုံးပြုပြီးတော့ Sample Chapter တစ်ခုဖန်တီးတာမျိုးကို Botnet က လုပ်ဆောင်ခဲ့ပါတယ်။


ဟယ်ရီပေါ်တာစာအုပ်ကာဗာ, Source - https://www.barnesandnoble.com/w/harry-potter-and-the-order-of-the-phoenix-j-k-rowling/1100041270


နောက်တစ်ခုက ကျန်းမာရေးမှတ်တမ်း Electronic Health Record ဖြစ်ပါတယ်။ ဒီကျန်းမာရေးမှတ်တမ်းထဲမှာ လူတစ်ယောက်ရဲ့ ကျန်းမာရေးအခြေအနေကို စာလုံးတွေနဲ့ ဖော်ပြထားတာဖြစ်ပြီး ဘယ်နေရာမှာ ဘယ်လိုကုသမှုကိုပဲ ခံယူခဲ့ပါစေ ဒီ Record ထဲမှာ ထည့်သွင်းထားမယ်ဆိုရင် သူ/သူမရဲ့ ကျန်းမာရေးရာဇဝင်ကို သိရှိနိုင်မှာ ဖြစ်ပါတယ်။


နောက်ထပ်စာလုံးတွေကို ဒေတာအဖြစ်အသုံးပြုတာကတော့ စာရွက်စာတမ်းတွေကို အမျိုးအစားခွဲခြားတဲ့ Document Classification ဖြစ်ပါတယ်။ စာရွက်ထဲမှာ အသုံးပြုထားတဲ့ စာလုံးတွေကို ကြည့်ပြီးတော့ ဒီစာရွက်စာတမ်းဟာ စီးပွားရေးလုပ်ငန်းမှာ အသုံးပြုတာလား ဒါမှမဟုတ် အားကစားနယ်ပယ် သို့မဟုတ် ပညာရေးနယ်ပယ်မှာ အသုံးပြုတာလားဆိုတာကို ခွဲခြားနိုင်ပါတယ်။


Data can be "Audio"


နောက်ဆုံးတစ်ခုကတော့ ဒေတာတွေက အသံတွေလည်း ဖြစ်နိုင်ပါတယ်။ ဘယ်လိုဒေတာ Format မျိုးနဲ့မဆို ဖန်တီးထားတဲ့အသံတွေဖြစ်ပါတယ်။ ဥပမာ - ကိုယ်ကသီချင်းတစ်ပုဒ်ကို FM ရေဒီယိုကနေ ကြားလိုက်ရတယ်။ သီချင်းကို ကြိုက်သွားလို့ သီချင်းနာမည်နဲ့ အဆိုတော်ကို သိချင်တယ်ဆိုရင် Shazam လို Applications တွေကို အသုံးပြုပြီး သီချင်းနာမည်ကို ရှာဖွေနိုင်ပါတယ်။


နောက်ထပ်အသံကို အသုံးပြုတာကတော့ အသံတုပဖန်တီးနိုင်တဲ့ ဆော့ဖ်ဝဲတွေဖြစ်ပါတယ်။ ဥပမာ - လူတစ်ယောက်ကို စကားလုံးငါးဆယ်လောက်ကို အသံထွက်ပြောခိုင်းပြီး အသံဖမ်းထားလိုက်တယ်။ အဲ့ဒီ့အသံကို အသုံးပြုပြီးတော့ စကားသံတွေကို ခုနက အသံထွက်ပြောခဲ့တဲ့သူရဲ့ အသံအတိုင်း တူညီတဲ့ စကားသံတွေကို အသံတုဖန်တီးနိုင်ပါတယ်။


ဒေတာကောက်ယူမှုသမိုင်းကြောင်းကို ပြန်ကြည့်ရင် ဖလောရင့် နိုက်တင်ဂေးလ်ရဲ့ Coxcomb Graph က နာမည်ကြီးပါတယ်။ ဖလောရင့် နိုက်တင်ဂေးလ်ဟာ သူပြုစုခဲ့တဲ့ လူနာတွေကို စာရင်းအင်းဒေတာကောက်ယူခဲ့ပြီး စစ်ပွဲမှာရခဲ့တဲ့ ဒဏ်ရာကြောင့် သေဆုံးသူ၊ ရောဂါကြောင့် သေဆုံးသူ၊ ရာသီအချိန်အလိုက် အသေအပျောက်နှုန်း စတဲ့အချက်အလက်တွေ ပါဝင်ပါတယ်။

ဖလောရင့် နိုက်တင်ဂေးလ်၏ Coxcomb Chart  https://www.uh.edu/engines/epi1712.htm


ဖလောရင့် နိုက်တင်ဂေးလ် ၁၈၂၀-၁၉၁၀ , Source - Wikipedia


သူမတီထွင်ခဲ့တဲ့ Coxcomb Chart က ဒီနေ့ခေတ် Statistics မှာအသုံးပြုနေတဲ့ Graph တွေ Chart တွေရဲ့ အခြေခံအုတ်မြစ်ပဲ ဖြစ်ပါတယ်။


အဆုံးသတ်ရမယ်ဆိုရင် ဒေတာတွေကို ဒီနေ့ခေတ်မှာ ပုံစံအမျိုးမျိုး Format အမျိုးမျိုးနဲ့ အသုံးပြုနေကြတာကို တွေ့ရမှာဖြစ်ပြီး ဒေတာတွေက ကျွန်တော်တို့ ပတ်ဝန်းကျင်မှာတင် အများအပြားရှိနေကြတာကို တွေ့ရမှာပါ။


(Zaw Myo Htet)

Comments

Popular posts from this blog

1.3 ဒေတာတွေ ဘယ်ကလာသလဲ? (Where Do Data Come From?)

ဒီအပိုင်းမှာ ဒေတာတွေဘယ်ကလာသလဲ ဆိုတဲ့ အကြောင်းအရာနဲ့ ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာလေ့လာရာမှာအသုံးပြုတဲ့ Statistical Approaches (ချဉ်းကပ်ပုံ)တွေအတွက် ဒေတာတွေဘယ်ကလာသလဲဆိုတဲ့အချက်က ဘာကြောင့် အရေးကြီးသလဲဆိုတာကို ဆွေးနွေးပါမယ်။ Data Analysis ပြုလုပ်ရာမှာ ဒေတာတွေဘယ်ကလာသလဲဆိုတာကို ကောင်းကောင်းသိဖို့လိုပြီးတော့ ဒေတာတွေက ဘယ်လိုဖြစ်ပေါ်လာသလဲဆိုပြီး စဉ်းစားတဲ့နေရာမှာ မဖြစ်မနေမေးဖို့လိုအပ်တဲ့ အရေးကြီးမေးခွန်းတွေလည်း ရှိကြပါတယ်။ Research Study ပြုလုပ်ချိန်မှာ ကောက်ယူတဲ့ဒေတာတွေက အမျိုးမျိုးဖြစ်နိုင်ပါတယ်။ (Different Types of Data) ယေဘုယျအားဖြင့် အဓိကဒေတာအမျိုးအစား နှစ်ခု ရှိပါတယ်။ Organic (or) Process Data (သဘာဝအရဖြစ်ပေါ်သောဒေတာ) 'Designed' Data Collection (ဒီဇိုင်းထုတ်စီမံပြီး ကောက်ယူသောဒေတာ) တို့ ဖြစ်ပါတယ်။ Organic (or) Process Data အကြောင်းပြောမယ်ဆိုရင် ဒီဒေတာတွေက ကွန်ပြူတာသတင်းအချက်အလက်စနစ်ကနေ ထုတ်ပေးလိုက်တဲ့ ဒေတာတွေ (ဒါမှမဟုတ်) ဗီဒီယိုနဲ့ အသံ Recordings တွေကနေ ထုတ်ယူထားတဲ့ ဒေတာတွေ ဖြစ်ပါတယ်။ အဓိကအချက်က ဒီဒေတာတွေဟာ Process တွေကနေ သဘာဝအတိုင်း ထွက်ပေါ်လာတဲ့ ဒေတာတွေဖ...

1.2 Statistics ဆိုတာဘာလဲ

By D Wells - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=79921898 Statistics ဆိုတာက ဒေတာကနေ သင်ယူလေ့လာရတဲ့ ဘာသာရပ်တွေအားလုံး အကြုံးဝင်တဲ့ ဘာသာရပ်တစ်ခုဖြစ်ပါတယ်။ Statistics ရဲ့ Methodology (နည်းစနစ်)မှာ ပါဝင်တာကတော့ Tools နဲ့ Methods တွေဖြစ်ပါတယ်။ ဒီ Tools နဲ့ Methods တွေကို ဒေတာတွေကို နားလည်ဖို့အတွက်ရယ်၊ ဒေတာတွေနဲ့ အလုပ်လုပ်ဖို့အတွက်ရယ် အသုံးပြုပါတယ်။

Learning Django Web Development (From Idea to Prototype)

Download ပြုလုပ်ရန်အောက်ပါလင့်ခ်ကို နှိပ်ပါ။ https://drive.google.com/file/d/1qotYrZ3LELSL7RTKkiHiatSjNuK_9ZoN/view?usp=sharing