By D Wells - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=79921898 |
Statistics ဆိုတာက ဒေတာကနေ သင်ယူလေ့လာရတဲ့ ဘာသာရပ်တွေအားလုံး အကြုံးဝင်တဲ့ ဘာသာရပ်တစ်ခုဖြစ်ပါတယ်။
Statistics ရဲ့ Methodology (နည်းစနစ်)မှာ ပါဝင်တာကတော့ Tools နဲ့ Methods တွေဖြစ်ပါတယ်။ ဒီ Tools နဲ့ Methods တွေကို ဒေတာတွေကို နားလည်ဖို့အတွက်ရယ်၊ ဒေတာတွေနဲ့ အလုပ်လုပ်ဖို့အတွက်ရယ် အသုံးပြုပါတယ်။
Statisticians
Statisticians (Statistics ပညာရှင်) တွေက ဒေတာတွေရဲ့ ဂုဏ်သတ္တိ(Properties)ကို နားလည်ဖို့အတွက် ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာလေ့လာတဲ့ Data Analysis Methods တွေကို အသုံးချ/ဖန်တီးကြပါတယ်။ အထူးသဖြင့် ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာလေ့လာတာက ဘယ်အချိန်မှာ အသိအမြင်သစ်(Insights)တွေကို ပေးတယ်၊ ဘယ်အချိန်မှာ အထင်အမြင်မှားစေ(Mislead)နိုင်တယ်ဆိုတာတွေကို နားလည်ဖို့အတွက် ဖြစ်ပါတယ်။
ပညာရပ်နယ်ပယ်က သုတေသနပညာရှင်အားလုံးနဲ့ လုပ်ငန်းနယ်ပယ်က လေ့လာသူတွေအားလုံးဟာ Statistics နည်းနာတွေကို တိုက်ရိုက်အသုံးချကြသလို တိုးချဲ့ပြီးလည်း အသုံးပြုကြပါတယ်။ ဒါ့အပြင် Data Analysis (ဒေတာခွဲခြမ်းစိတ်ဖြာမှု)ပြုလုပ်ရန်အတွက် စိတ်ကူးအသစ်နဲ့ နည်းလမ်းအသစ်တွေကို ပါဝင်အကြံပြု/ဖြည့်ဆည်းပေးကြပါတယ်။
Statistic နဲ့ Statistics နယ်ပယ် (Field of Statistics) ကို ခွဲခြားကြည့်ကြရအောင်။
ကျွန်တော်တို့ရဲ့ နေ့စဉ်ဘဝမှာ Statistic ကို အသုံးပြုကြရပြီး ဒေတာတွေကို စုစည်းထားတဲ့ ကိန်းဂဏန်း သို့မဟုတ် ဂရပ်ဖ်ပုံတွေကို ကျွန်တော်တို့ အမြဲတမ်း အသုံးပြုလေ့ရှိပါတယ်။ ဥပမာ - နောက်ဆုံးစာမေးပွဲက ကျောင်းသားတွေရဲ့ ပျမ်းမျှရမှတ်၊ နေရာဒေသတစ်ခုရဲ့ အချိန်ကာလတစ်ခုအတွင်း အနည်းဆုံးအပူချိန်၊ အငြိမ်းစားယူသွားတဲ့ ဝန်ထမ်းအချိုး စတဲ့တွက်ချက်ဖော်ပြမှုတွေဟာ Statistic ပဲ ဖြစ်ပါတယ်။
ဒါပေမဲ့ Statistics နယ်ပယ်(Field of Statistics)ကတော့ သုတေသနနည်းနာ(Research Methodology)ကို ဦးတည်တဲ့ ပညာရေးဆိုင်ရာစည်းမျဉ်း (Academic Discipline) ဖြစ်ပါတယ်။ Statisticians တွေဟာ Statistical Tools အသစ်တွေဖန်တီးတာ၊ ဒေတာကနေ Statistics တွက်ချက်မှုပြုလုပ်တာ၊ ဒေတာတွေကို မှန်ကန်တဲ့နည်းလမ်းနဲ့ သရုပ်ဖော်ပြနိုင်ဖို့ သုတေသနပြုလုပ်နေတဲ့ နယ်ပယ်က ပညာရှင်တွေနဲ့ပူးပေါင်းလုပ်ကိုင်တာ စတာတွေကို လုပ်ဆောင်ကြပါတယ်။
Statistical Methods တွေကို ဘယ်အချိန်မှာ သင့်တော်တဲ့နည်းလမ်းနဲ့ အသုံးပြုရမယ်ဆိုတာသိဖို့အတွက် Statistical Methods တွေရဲ့ ဂုဏ်သတ္တိအရည်အသွေး(Properties)တွေကို ဆက်လက်လေ့လာနေကြဆဲ ဖြစ်ပါတယ်။ Statistics ကို အသုံးချတဲ့နယ်ပယ်နဲ့ တွေ့ရှိလာတဲ့ ဒေတာတွေက တစတစပိုမိုများပြားလာနေပြီး ဒေတာတွက်ချက်မှုတွေဟာ Computing နယ်ပယ်ထဲကို ပိုပိုရောက်ရှိလာပါတယ်။
Statistics's Perspectives
Statistics ရဲ့ ရှုထောင့်(Perspectives)တွေက စုစုပေါင်း (၇)ခု ရှိပါတယ်။
- Art of Summarizing Data
- Science of Uncertainty
- Science of Decisions
- Science of Variation
- Art of Forecasting
- Science of Measurement
- The Basics for Principled Data Collection
တို့ဖြစ်ပါတယ်။
Statistics as "Art of Summarizing Data"
ဒေတာတွေက အလွန့်အလွန်များပြားပြီး ဒေတာတွေရဲ့ အဓိပ္ပာယ်ကို ဒီအတိုင်း အဓိပ္ပါယ်ကောက်ယူဆက်စပ်လို့ မရနိုင်ပါဘူး။ ဒီဒေတာတွေကို ပိုမိုအဓိပ္ပါယ်ရှိလာဖို့အတွက် ဒေတာပမာဏလျှော့ချခြင်း(Data Reduction)နဲ့ ဒေတာအကျဉ်းချုံးခြင်း(Data Summarization)တို့ကို ပြုလုပ်ရပါတယ်။
ဒေတာပမာဏလျှော့ချခြင်း(Data Reduction)က ဒေတာတွေကို လူသားတွေ သဘောပေါက်နားလည်နိုင်တဲ့ အစီအစဉ်တကျပြုလုပ်ထားတဲ့ ဒေတာပုံစံအနေအထားကို ရောက်ရှိလာအောင် ပြုလုပ်ခြင်းပဲ ဖြစ်ပါတယ်။
ဒေတာအကျဉ်းချုံးခြင်း(Data Summarization)ပြုလုပ်တဲ့ နည်းလမ်းတွေက အများကြီးရှိပါတယ်။ အရေးကြီးတဲ့အချက်က ဒေတာကိုအကျဉ်းချုံးဖော်ပြတဲ့အခါမှာ ဒေတာကိုအသုံးပြုမဲ့သူရဲ့ ရည်မှန်းချက်ပန်းတိုင်နဲ့ ကိုက်ညီဖို့နဲ့ အဓိပ္ပါယ်တစ်ခုခုကို ဖော်ပြပေးနိုင်တဲ့ နည်းလမ်းတွေဖြစ်ဖို့ လိုအပ်ပါတယ်။
Statistics as "Science of Uncertainty"
ဒေတာတွေက လွဲမှားနိုင်ပါတယ်။ ဒေတာအခြေပြုအဆိုပြုချက်တွေက အဓိပ္ပါယ်ရှိမရှိဆိုတာကို အကဲဖြတ်ဖို့အတွက်အသုံးပြုနိုင်တဲ့ ဖွဲ့စည်းတည်ဆောက်ပုံ(Framework)တစ်ခုကို ရရှိလာဖို့က Statistics နယ်ပယ်ရဲ့ အဓိကတွန်းအားတစ်ခုဖြစ်ပါတယ်။
ယေဘုယျပြောမယ်ဆိုရင် ဒေတာကနေရရှိလာတဲ့ အသိအမြင်က 100% မမှန်ကန်ပါဘူး။ ဒါပေမဲ့လည်း ရရှိလာတဲ့အချက်အလက်က တကယ့်အမှန်တရားနဲ့ ဘယ်လောက်အထိနီးစပ်နိုင်/ဝေးကွာနိုင်သလဲဆိုတာကို တွက်ချက်နိုင်တဲ့အတွက် လေ့လာတွေ့ရှိချက်တွေက အလကားဖြစ်မသွားဘဲ အသုံးပြုနိုင်မှာ ဖြစ်ပါတယ်။ ဆန္ဒကောက်ယူမှုတွေမှာ Margin of Error ဆိုတာကို ထည့်သွင်းဖော်ပြလေ့ရှိပြီး ဒါက ပြည်သူတွေရဲ့ စိတ်ထဲမှာရှိနေတဲ့ အထင်အမြင်နဲ့ စစ်တမ်းကောက်ယူမှုကနေရလာတဲ့ ရလဒ်နဲ့ ကွဲလွဲမှုဘယ်လောက်ရှိမယ်ဆိုတာကို ဖော်ပြထားတာဖြစ်ပါတယ်။
Statistics as "The Science of Decisions"
ဒေတာတွေကို နားလည်ဖို့က အရေးပါပါတယ်။ ဒါပေမဲ့ ဒေတာတွေကနေ ဖော်ပြနေတဲ့အချက်အလက်ကို နားလည်ပြီးတဲ့နောက်မှာ ရရှိလာတဲ့အချက်အလက်ကို အသုံးပြုပြီး ဘာဆက်လုပ်မယ်ဆိုတဲ့ ဆုံးဖြတ်ချက်ကို ချမှတ်ဖို့လည်း လိုအပ်ပါတယ်။
Decision Making ဆုံးဖြတ်ချက်ချမှတ်ခြင်းဟာ Statistical Analysis ရဲ့ အဆုံးစွန်သော ရည်မှန်းချက်ဖြစ်ပါတယ်။ ကျွန်တော်တို့ရဲ့ နေ့စဉ်ဘဝနဲ့ လုပ်ငန်းနယ်ပယ်မှာ မသေချာမှုတွေနဲ့အတူ ဆုံးဖြတ်ချက်တွေကို ပြုလုပ်နေကြရပါတယ်။ မတူညီတဲ့ချဉ်းကပ်ပုံနည်းလမ်းတွေရဲ့ အကျိုးနဲ့အပြစ်ကို မျှခြေဖြစ်အောင် လုပ်ဆောင်နိုင်ကြဖို့ လိုအပ်ပါတယ်။ ဥပမာ - လူတစ်ယောက်ဟာ ကင်ဆာဖြစ်နိုင်ခြေ မြင့်မားနေတယ်ဆိုရင် သူ့ကို ကင်ဆာကြိုတင်ကာကွယ်ကုသမှု လုပ်ဆောင်ပေးမလား ဆိုတဲ့ မေးခွန်းမျိုး ဖြစ်ပါတယ်။
Statistics က အဲ့ဒီ့လိုမေးခွန်းမျိုးအတွက် မှန်ကန်တဲ့ဆုံးဖြတ်ချက်တစ်ခုချနိုင်အောင် ကူညီပေးနိုင်ပါတယ်။
Statistics as "The Science of Variation"
ဒေတာရလဒ်တွေကို အကျဉ်းချုံးဖော်ပြတဲ့အခါမှာ တခါတလေမှာ Central Value သို့မဟုတ် Typical Value လို့ ခေါ်တဲ့ ဒေတာတန်ဖိုးကို ရရှိဖို့ ဦးတည်လေ့ရှိပါတယ်။ ဒါပေမဲ့လည်း Statistics မှာ Central/Typical Value တင်မဟုတ်ဘဲ Data Variation (ဒေတာအပြောင်းအလဲ) ကိုလည်း အများကြီးထည့်သွင်းစဉ်းစားပါတယ်။
ဥပမာ - ကျွန်တော်တို့နိုင်ငံသားတွေရဲ့ ပျမ်းမျှဝင်ငွေက တစ်လကို တစ်သိန်းခွဲရှိတယ်ဆိုကြပါစို့။ ဒါက ကျွန်တော်တို့နိုင်ငံသားတွေရဲ့ ဝင်ငွေတွက်ချက်မှုကနေရရှိလာတဲ့ Central/Typical Value ဖြစ်ပါတယ်။ ဒါပေမဲ့ စာရင်းကောက်ယူတဲ့ နိုင်ငံသားတွေရဲ့ ၁၀ ရာခိုင်နှုန်းက တစ်လဝင်ငွေ ငါးသိန်းရှိတယ်ဆိုရင် ဒီအချက်က Data Variation ပဲ ဖြစ်ပါတယ်။
Statistics as "The Art of Forecasting"
Statistics ကို ကြိုတင်ခန့်မှန်းမှုပြုလုပ်တဲ့နေရာတွေမှာလည်း အဓိကအားဖြင့် အသုံးပြုပါတယ်။ ဘာဖြစ်တော့မယ်ဆိုတာကို ရာနှုန်းပြည့်မှန်ကန်အောင် မခန့်မှန်းနိုင်ပေမဲ့ ရှိနေတဲ့ဒေတာတွေကို လိမ္မာပါးနပ်စွာစနစ်တကျ အသုံးပြုမယ်ဆိုရင် အနာဂတ်အတွက် ကြိုတင်ခန့်မှန်းမှုတွေကို သင့်တော်တဲ့ တိကျမှုအနေအထားဖြင့် ပြုလုပ်ပေးနိုင်ပါတယ်။
မိုးရေချိန်ခန့်မှန်းတာ၊ ငလျင်လှုပ်နိုင်ခြေကို ခန့်မှန်းတာ၊ ဈေးကွက်ထဲကို ဖြန့်ချီလိုက်တဲ့ ထုတ်ကုန်တစ်ခုရဲ့ ဝယ်လိုအားကို ခန့်မှန်းတာ၊ ရွေးကောက်ပွဲရလဒ်တွေကို ခန့်မှန်းတာ၊ လူနာရဲ့ ဆေးကုသမှုကုထုံးကို ခံယူလိုခြင်းရှိမရှိခန့်မှန်းတာ စတဲ့ ခန့်မှန်းမှုတွေကို ပြုလုပ်နိုင်ပါတယ်။
Statistics as "The Science of Measurement"
ဒေတာတွေကို တိုင်းတာတဲ့အခါမှာ အချို့ဒေတာတွေက တိတိကျကျနဲ့ လွယ်လွယ်ကူကူတိုင်းတာနိုင်သလို အချို့ဒေတာတွေက တိုင်းတာဖို့ ခက်ခဲပါတယ်။ ဥပမာ - အရပ်အမြင့်၊ ကိုယ်အလေးချိန် စတာတွေက လွယ်လွယ်ကူကူ တောင်းတာနိုင်ပေမဲ့ အပြောင်းအလဲမြန်တဲ့ သွေးခုန်နှုန်း(တစ်မိနစ်နဲ့ တစ်မိနစ်အတွင်း ပြောင်းလဲနိုင်) လိုဟာမျိုးကို တိတိကျကျ တိုင်းတာဖို့က ခက်ခဲပါတယ်။ ပိုပြီးခက်ခဲတာကတော့ စိတ်ခံစားချက်၊ နိုင်ငံရေးအတွေးအမြင် နဲ့ ရုပ်ရည်အသွင်အပြင် စတဲ့ ဒေတာတွေပဲ ဖြစ်ပါတယ်။
ဒီလို အဓိပ္ပာယ်ဖော်ပြဖို့ခက်ခဲတဲ့ ဒေတာတွေကို တိုင်းတာဖို့နဲ့ တိုင်းတာရရှိလာတဲ့ ဒေတာအရည်အသွေးကို အကဲဖြတ်ဖို့အတွက် တိကျတဲ့ ချဉ်းကပ်ပုံနည်းလမ်းတွေကို အသုံးပြုကြရပါတယ်။ ဒီလိုအသုံးပြုတဲ့ နည်းလမ်းတွေကို လေ့လာအကဲဖြတ်ဖို့ Statistics က အရေးပါတဲ့ အခန်းကဏ္ဍကနေ ပါဝင်ပါတယ်။
Statistics as "The Basics for Principled Data Collection"
တခါတလေမှာ မိမိကောက်ယူလိုတဲ့ ဒေတာတွေက ကုန်ကျစရိတ်အရမ်းကြီးမားပြီး ကောက်ယူဖို့ အခက်အခဲရှိတာမျိုးတွေ ကြုံရတတ်ပါတယ်။ ဥပမာ - ကိုယ့်ထုတ်ကုန်ရဲ့ အရည်အသွေးကို သိရှိဖို့အတွက် ဖျက်ဆီးကြည့်ဖို့ လိုအပ်တဲ့အခါမျိုးတွေ ဖြစ်ပါတယ်။ ဒီလို အကန့်အသတ်ရှိနေတဲ့ ဒေတာတွေကို ကောက်ယူရတဲ့အခါမှာ တတ်နိုင်သမျှ ဒေတာအနည်းဆုံး ကောက်ယူနိုင်အောင် ကြိုးစားကြရပါတယ်။ ဒါပေမဲ့ နည်းပါးတဲ့ ဒေတာတွေကနေရလာတဲ့ အချက်အလက်က အရည်အသွေးသိပ်ကောင်းလေ့တော့ မရှိပါဘူး။
ဒီ့အတွက်ကြောင့် Statistics ဟာ ဒီလိုဒေတာတွေကို ကောက်ယူဖို့အတွက် ကျိုးကြောင်းဆက်စပ်နည်းလမ်း(Rational Way) ကိုအသုံးပြုကြရပြီး အကန့်အသတ်ရှိနေတဲ့ ဒေတာတွေကို များနိုင်သမျှ များများရအောင် ကောက်ယူကြရပါတယ်။
History of Statistics
Statistics ရဲ့သမိုင်းကြောင်းကို ပြန်ကြည့်မယ်ဆိုရင် ရှေးခေတ်မှာကတည်းက လူသားတွေဟာ ကောက်ပဲသီးနှံအထွက်နှုန်း၊ ရေကြီးမှုနဲ့ လူဦးရေ စတာတွေကို ဒေတာကောက်ခဲ့ကြပါတယ်။
၁၇၀၀ ပြည့်နှစ်တွေမှာ Probability Theory (ဖြစ်တန်စွမ်း) သီအိုရီ စတင်ပေါ်ပေါက်လာခဲ့ပြီး ကျပန်း(Randomness) နဲ့ ကွဲလွဲမှု(Variation) တို့ကို သင်္ချာနည်းနဲ့ ဖော်ထုတ်သတ်မှတ်နိုင်ခဲ့ပါတယ်။
ယနေ့အသုံးပြုနေတဲ့ မော်ဒန် Statistics ကတော့ ၁၉ ရာစုနှစ်တွေမှာ ပေါ်ထွက်ခဲ့တာဖြစ်ပြီး မျိုးရိုးဗီဇ၊ ဖွား/သေ စာရင်း၊ စီးပွားရေးအခြေအနေ စတဲ့ ဒေတာတွေအတွက် အသုံးပြုခဲ့ကြပါတယ်။
၂၀ ရာစုနှစ်တွေမှာတော့ Statistics Advance Theory တွေ ပိုမိုထွက်ပေါ်လာပြီး သိပ္ပံနဲ့ လုပ်ငန်းနယ်ပယ်တွေမှာ တွင်တွင်ကျယ်ကျယ် အသုံးချလာကြပါတယ်။ ကွန်ပြူတာတွေမှာလည်း Data Analysis လုပ်ဆောင်နိုင်စွမ်းတွေ စတင်ရှိလာကြပါတယ်။
အခုနောက်ဆုံး ကျွန်တော်တို့ရောက်ရှိနေတဲ့ ၂၁ ရာစုကတော့ Big Data ခေတ်ပဲ ဖြစ်ပါတယ်။ Massive Data, Data Science, Machine Learning စတဲ့နည်းပညာတွေရဲ့ ခေတ်လို့ပဲ ဆိုရမှာပါ။
Statistics and its Allied Fields
Statistics ကို အတော်လေး ထဲထဲဝင်ဝင် အသုံးပြုနေတဲ့ နယ်ပယ်လေးခုရှိပါတယ်။
- Computer Science
- Mathematics
- Probability Theory
- Data Science
တို့ဖြစ်ပါတယ်။
Computer Science မှာ Algorithms တွေအပြင် ဒေတာတွေနဲ့အလုပ်လုပ်ဖို့အတွက် Data Structure, ဒေတာတွေကို တွက်ချက်မှုအတွက် Programming Language တွေကို အသုံးပြုကြရပါတယ်။
Mathematics မှာ Statistical Concepts တွေကို ကျစ်လျစ်စွာဖော်ပြနိုင်ဖို့ ဘာသာစကားနဲ့ သင်္ကေတစနစ်တွေရှိပြီး Statistical Methods တွေရဲ့ ဂုဏ်သတ္တိအရည်အသွေးကို နားလည်နိုင်တဲ့ Tools တွေလည်း ရှိပါတယ်။
Probability Theory က Mathematics ရဲ့အောက်က ခွဲထွက်လာတဲ့နယ်ပယ်တစ်ခုဖြစ်ပြီး Statistics အုတ်မြစ်ရဲ့ အရေးပါတဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်ပါတယ်။ Randomness နဲ့ Uncertainty ကို ဖော်ပြဖို့အတွက် အသုံးပြုပါတယ်။
Data Science နယ်ပယ်မှာတော့ Data Management, Machine Learning နဲ့ Data Analysis လုပ်ဆောင်နိုင်တဲ့ Computational Infrastructure တို့ပါဝင်ပါတယ်။
Statistic ဟာ သေးငယ်တဲ့အရာတစ်ခုကနေ အရေးပါတဲ့အရာတစ်ခုအနေနဲ့တဖြည်းဖြည်း ကြီးထွားလာခဲ့ပြီ ဖြစ်ပါတယ်။ အထူးသဖြင့် သုတေသနနဲ့ စီးပွားရေးလုပ်ငန်းတွေမှာ အရေးကြီးဆုံးအစိတ်အပိုင်းတစ်ခု ဖြစ်နေပါပြီ။ အသုံးပြုတဲ့ နယ်ပယ်တွေကလည်း ပိုမိုများပြားလာနေတာကို တွေ့ရပြီး Auto Driving System, Facial Recognition, Online Searching နဲ့ Purchasying အတွက် Recommender System တည်ဆောက်ခြင်း စတာတွေမှာ အသုံးပြုကြပါတယ်။ ဆေးဘက်ဆိုင်ရာနယ်ပယ်တွေမှာဆိုရင် Precision Medicine, Fraud Detection စတာတွေအတွက် အသုံးပြုကြပါတယ်။ Environment နဲ့ Infrastructure အခန်းကဏ္ဍတွေအတွက် Risk Assement ပြုလုပ်တာ၊ ဝန်ထမ်းတွေရဲ့ Training ကာလမှာ အမူအကျင့်ကုထုံးဆောင်ရွက်ပေးတာ စတာတွေအတွက်လည်း အသုံးပြုကြပါတယ်။
အချုပ်ပြောရမယ်ဆိုရင် Statistics ဟာ ကျွန်တော်တို့ ပတ်ဝန်းကျင်မှာ ရှိနေတဲ့ ဒေတာတွေကို ပိုမိုနားလည်လာအောင် ကူညီပေးနိုင်တဲ့ ဘာသာရပ်တစ်ခုပဲ ဖြစ်ပါတယ်။
Comments
Post a Comment