Myanmar Search

မြန်မာစာတွေ ရှာဖို့အတွက် Search Theory လေး စဉ်းစားကြည့်ရအောင်.. ကျွန်တော်လက်ရှိကတော့ ဇော်ဂျီနဲ့ပဲ စဉ်းစားထားတယ်.. ဘာလို့လည်းဆိုတော့ လက်ရှိ website တွေအားလုံးက ဇော်ဂျီကို အသုံးပြုနေလို့ပါ…

ဇော်ဂျီမှာ ပြသနာရှိတယ်… အဲဒါကတော့ က ိ ု နဲ့ က ု ိ မတူတာပဲ.. သူ့မှာ rendering မပါဘူး.. ဒါကြောင့် ပြသနာဖြစ်နေတာ ( Unicode 5.1 မှာတော့ ဒီပြဿနာတွေ မရှိဘူး…. ) ဒါကြောင့် ဇော်ဂျီမှာ က ိ ု နဲ့ က ု ိ ရှာရင် ရတဲ့ result မတူဘူး… လက်ရှိ google မှာ ရှာရင်တောင် result မတူတာကိုတွေ့ရမယ်ဗျ…. ဒါက ပြဿနာတစ်ရပ်ပေါ့..

နောက်တစ်ခုက ကို နဲ့ ကိုး ဟာ အဓိပ္ပာယ်မတူသလို search result ထဲမှာ ရောမနေသင့်ဘူးထင်တယ်… ကို ကိုရှာရင် ကိုး | ကို့ | ကိုယ် | ကိုက် စတာတွေပါ ပါလာတယ်။ ဒါဟာမဖြစ်သင့်ဘူးထင်တယ်… ကို ရှာရင် ကို နဲ့ ဆိုင်တာပဲထွက်သင့်တယ်… ကိုး | ကိုး | ကိုယ် | ကိုက်တွေ မပါသင့်ဘူး….

နောက်ပြီး spell checking အဆင့်လည်း လိုတယ်… အကျီးအကျယ် | အကြီးအကြယ် | အကျီးအကြယ် | အကြီးအကျယ် မှာ ဘယ်ဟာမှန်သလဲ…. user မှားနေရင် စာလုံးပေါင်းမှားနေကြာင်းဖော်ပြပေးရမယ်…

ပထမအဆင့်က Normalization နဲ့ ဖြေရှင်းမယ်… ဒုတိယအဆင့်က syllable breaking နဲ့ ရှင်းမယ်.. အဲဒီ နှစ်ဆင့်က စဉ်းစားလို့ရပြီ..

နောက်ဆုံး spell checing က စဉ်းစားဆဲပဲ… word breaking အရင်လုပ်ရမယ်.. ပြီးရင် word dictionary နဲ့ တိုက်စစ်ရမယ်…. ကိုစိုးမင်းရေးထားတာကိုတွေ့တယ်.. PHP နဲ့ ကိုယ်တိုင်မရေးရသေးဘူး….

အဲဒီ ၃ ဆင့်ပြီးရင်တော့ ပထမဆုံး search လုပ်ဖို့ query ကို ရပြီ။ ပြီးရင် crawling အဆင့်ပေါ့. crawling မှာ ဝင်း | ဇော်ဂျီ | မြန်မာ ၃ စတာတွေကို detection သိရမယ်။ ဇော်ဂျီနဲ့ ရှာပေမယ့် အဲဒီစာလုံးတွေကိုပါ ရှာပေးနိုင်ရမယ်။

ဥပမာ ဝင်း ကို ဇော်ဂျီပြောင်းပြီး သိမ်းထားမယ်။ မြန်မာ ၃ ကိုလည်း ဇော်ဂျီ ပြောင်းပြီး သိမ်းထားမယ်။ ရှာတော့ ဇော်ဂျီနဲ့ပဲ။ ပြတော့လည်း ဇော်ဂျီနဲ့ပဲ။ ဝင်း ၊ မြန်မာ ၃ အတွက် သိတဲ့ system တစ်ခုကို ရှာကြည့်အုံးမယ်..

အဲ… စဉ်းစားမိတာ တစ်ခုရှိတယ်…

ကိုကိုရေ ဆိုပြီး google မှာ ရှာလိုက်ရင် content ထဲမှာ ကို()ကို()ရေ() ဖြစ်နေတယ်ဆိုရင်ကော။ () က 0widthspace ကို ပြောတာပါ။ google အနေနဲ့ ရှာတွေ့နိုင်မလား…. ???? အဲဒီအချက်ကို သိချင်နေတာ… :D လက်တွေ့ blog လေးတစ်ခုလုပ်ပြီး ရှာကြည့်အုံးမယ်..

စာကြွင်း ။ ။ ကိုစိုးမင်း blog မှာ python မတတ်ပေမယ့် သူ့ theory လေးတွေ တော်တော်ကောင်းတယ်ဗျ။

Zawgyi Nor & SyB

Zawgyi Normalization နဲ့ syllable breaking ကို ဒီနေ့တော့ RC version လေးပြီးသွားတယ်။ အံဩဖွယ်ရာကောင်းတာက ကျွန်တော် အများကြီးရေးထားတဲ့ pattern တွေကို ၁၀ ကြောင်းတည်းနဲ့ ရေးလို့ရသွားတာပဲ။ ကိုယ့်အချိန်တွေတောင် ကိုယ်နှမြောတယ်။ အတွေ့အကြုံဆိုတာက လက်တွေ့ကနေ ရယူရတာပဲ။ အတွေ့အကြုံရှိမှပဲ လုပ်ရ ကိုက်ရတာ မြန်မှာ။ အခု စုစုပေါင်း pattern 51 ခုနဲ့ ပြီးသွားတယ်။ အမှန်တိုင်းဆိုရင်

ပိသာ = ပိဿာ
ပြသနာ = ပြဿနာ
ေ၇=ရေ
၇ာ=ရာ
၇ွ=ရွ

စတာတွေ ထပ်ဖြည့်ထားတာကြောင့်လည်း ပါတယ်။ Continue reading

Syllable Breaking So Easy

အစကတော့ syllable breaking လုပ်ရတာ တော်တော်လေးမူးနောက်နေတာပဲ။ ဟော… အခုတော့ လွယ်လိုက်တာမှ ဖြစ်ခြင်း။ ယုံမလား မသိဘူး။ pattern 10 ခုနဲ့တင် ပြီးသွားတယ်။ အစက အခု ၃၀ လောက်ကနေ အခု ၁၀ ခုနဲ့တင်ပြီးသွားတော့ တော်တော်တောင် အံဩမိတယ်။ အော်.. တော်တော် ညံ့တဲ့ငါပါလားလို့…. အခုတော့ အရင်ထက် မြန်သွားပြီ။ နောက်ပြီး –ဲ|–ံ|–ိ|–ီ|–့|–့ စတာတွေကို duplicat ဖြစ်နေရင် ဖျက်ပေးတယ်။ နောက်ပြီးတော့ –ု|–ူ|–ှ|–ှု စတာတေ ရောနေရင် နောက်ဆုံး ရိုက်ထားတာ ယူလိုက်တယ်။ duplication ဖြစ်နေရင်လည်း ဖျက်ပြီး တစ်ခုပဲ ယူတယ်။ တော်တော်လေးကို ကောင်းမွန်လာပြီ။ ခက်တာက စမ်းရတာ အားမရသေးဘူး။ ထပ်ပြီးတော့ စမ်းအုံးမယ်။ စိတ်ကျေနပ်ပြီဆိုရင် tech ကော source ပါ open ချပေးမှာပါ။ Normalization ပိုင်းကို reduce လုပ်လို့ရသေးတယ်။ အဲဒါလေး reduce လုပ်လိုက်အုံးမယ်။ :)

Normalization & Syllable Break

အ​ကြမ်း​​တော့​​ ပြီး​​သွား​​ပြီ​​။ မ​လို​အပ်​​တာ​​တွေ​ဖြည်​​ လို​အပ်​​တာ​​တွေ​ ပြန်​​ပေါင်း​​ဖို့​​ လို​သေး​တယ်​​။ pattern က​တော့​​ ၈၄ ခု​ရှိ​တယ်​​။ normalization လည်း​​ပြီး​​ syllable break လည်း​​အ​ပြီး​​ပေါ့​​။ ၈၄ ခု​ထက်​​ နည်း​​သွား​​ဖို့​​ အ​လား​​အ​လာ​​တေ​ရွှိ​တယ်​​။ လက်​​ရှိ​က​ ​ နဲ့​​လုပ်​​ထား​​တယ်​​။ 0width space ပြောင်း​​လိုက်​​ရင်​​တော့​​ အ​ဆင်​​ပြေ​ပြီ​​ ထင်​​တာ​​ပဲ​​။ ပြီး​​ရင်​​တော့​​ အ​ရင်​​ဆုံး​​ ကိုယ့်​​ blog ကို​ ကိုယ်​​ စမ်း​​ပြီး​​ သုံး​​ကြ​ည့်​​ရ​မယ်​​။ အဲ​​… local မှာ​​ပဲ​​ စမ်း​​မှာ​​နော်​​။ ပြီး​​ရင်​​တော့​​ plugin လေး​ရေး​ကြ​ည့်​​အုံး​​မှ​ပဲ​​….

http://www.ornagai.com/zgnor/index.php

| တွေ​ကို​ 0 width space နဲ့​​ အ​စား​​ထိုး​​လိုက်​​ပေါ့​​။

အ​ခု​ post မှာ​ 0 width space ကို​ အ​သုံး​ပြု​ထား​တယ်​။ မ​ယုံ​ရင်​ ပြီး​ရင်​ကို​ ရိုး​ရိုး​ရိုက်​ပြီး​ firefox ရှာ​ကြ​ည့်​ပါ​။ တွေ့​မှာ​ မ​ဟုတ်​ပါ​ဘူး​။ ပြီး​0widthspaceရင်​ ဆို​မှ​ တွေ့​မှာ​ပါ​။

Zawgyi syllable breaking

အခုတလော breaking တွေလုပ်ရတာ မူးနောက်နေတာပဲ။ ကိုစိုးမင်းကိုတော့ တော်တော်လေး လေးစားတယ်။ သူလုပ်ထားတာ တော်တော်လေးမြန်တယ်။ နောက်ပြီး မှန်လည်းမှန်တယ်။ ခက်တာက PHP နဲ့တွဲသုံးလို့မရတာပဲ။ နောက်ပြီးတော့ PHP library ကလည်း ကိုယ်ပိုင် server မှ အဆင်ပြေမှာဆိုတော့ ကိုယ့်ဘာသာကိုယ် PHP နဲ့ရေးလိုက်တာ။ normalize က လွယ်တယ်။ syllable breaking က ထင်တာထက် ပိုခက်တယ်။ ဘုန်းကြီးဝတ်နေတုန်းက လက်နဲ့ အကြမ်းချရေးခဲ့ပြီးပေမယ့် လက်တွေ့မှာတော့ ထင်သလိုမရဘူး။ အများကြီးပြန်ပြင်ရတယ်။ ရတဲ့ပုံစံနဲ့ ရေးရတယ်။ အခုတော့ pattern ပေါင်း ၇၅ ခုရှိနေပြီ။ အခုက အကြမ်းအဆင့်ပဲရှိသေးတယ်။ အချောသတ်ရအုံးမယ်။ အဲဒီ breaking လေးရရင် ornagai မှာ မြန်မာစာ search အတွက် တော်တော်အဆင်ပြေပြီ။ ကျွန်တော် အခု စဉ်းစားနေတာ 0 width space သုံးမလို့။ အဲဒါက size တော့ ပိုများသွားမယ်။ ဒါပေမယ့် searching ပိုင်း သိသိသာသာ တိုးလာမယ်။ ပိုလည်း မြန်ပြီး တိကျလာလိမ့်မယ်။ ဥပမာ တံ ဆိုတဲ့ စာလုံးကို ရှာရင် တံ လည်းထွက်မယ်။ တုံ လည်းထွက်မယ်။ တုံး လည်းထွက်လာမှာပဲ။ တနည်းပြောရင် တံ = တုံ = တုံး ဆိုတာက ရလဒ် တစ်ခုတည်းမှာ ထွက်နေပြီ။ Continue reading

Zawgyi DEB For Ubuntu

အခု အသစ်ပြန်ပြင်ထားတယ်။ အရင်က version မှာ install.sh မှာ ရေးထားတာလေးတွေ လွဲနေတာတွေ ပြင်ထားတယ်။ Ctrl + Shift နဲ့ ပြောင်းလို့ရတယ်။ third level ကတော့ Right Ctrl + Key ပဲထားထားတယ်။ keyboard ပြသနာကိုလည်း ပြန်ရှင်းထားတယ်။ သွင်းပုံကလည်း လွယ်ပါတယ်။

download ချ။

ပြီးရင် Zawgyi.tar.gz ကို right click လုပ်ပြီး extract လုပ်။

Application -> Terminal မှာ

$ cd ~/Desktop/Zawgyi
$ ./install.sh

ဒါဆိုရင် ရပါပြီ။ ပြီးရင် Panel မှာ right click နှိပ်။ keyboard indicator ကိုထည့်လိုက်။ ဒါဆိုရင် ctrl + Shift လုပ်လိုက်တာနဲ့ Mmr ပြောင်းသွားမယ်။ ဒါဆိုရင် ဇော်ဂျီပေါ့။ သစ္စာ ဆိုရင် သ + စ + –္စ (Right Ctrl + p ) + ာ ပေါ့ ဗျာ။

Download

Zawgyi IS NOT EQUAL TO MyMyanmar

မနေ့က OC ပွဲမှာ အသိတစ်ယောက်က ဇော်ဂျီက မိုင်မြန်မာကို ရောင်းလိုက်တာ ဟုတ်လားတဲ့… အစကတော့ နည်းနည်းကြောင်သွားတယ်… ပြီးတော့ သူက ဆက်ပြောတယ်… Computer Journal မှာ ပါတယ်လေဆိုတော့… ဟာ..မဟုတ်ပါဘူးဗျာ… ဇော်ဂျီက ရောင်းတာ မှမဟုတ်တာ… လုပ်ပိုင်ခွင့်တွေ ကို ဘယ်သူ့ကိုမှ လည်းမပေးပါဘူးဗျာ.. ဇော်ဂျီက ကျွန်တော် သိသလောက်တော့ မည်သူ မဆို လွှတ်လပ်စွာ သုံးစွဲနိုင်သည်။ မည်သူ မဆို လွှတ်လပ်စွာ မိမိ၏ product များတွင် အသုံးပြုနိုင်သည်။ လုပ်ပိုင်ခွင့်တွေကိုတော့ ရောင်းတာတော့ ဇော်ဂျီဘက်က မကြားမိပါဘူ…. ဒါနဲ့ alpha က ကိုရဲမြတ်သူ နဲ့ ဖုန်းပြောတော့ မေးလိုက်တော့… မရောင်းပါဘူးတဲ့… Continue reading

Web Text Service For WordPress

ဒီနေ့တော့ web text service ကို wordpress အတွက်လုပ်ထားတာလေး တင်လိုက်တယ်။

http://www.mysteryzillion.org/webtext/wordpress_webtext.zip

အဲဒီ zip file ကိုဖြည်လိုက်..

wordpress folder ထဲက addform.php ကို yourdomain.com/ သို့မဟုတ် blog ရဲ့အောက်မှာပေါ့…

ကျွန်တော်ဆို saturngod.net ဖြစ်တဲ့အတွက် saturngod.net/addform.php ဆိုပြီး ခေါ်လို့မှာပေါ့…

နောက်ထပ် အဆင့်အနေနဲ့ကတော့

Admin -> Apparance -> Editor -> comment.php

မှာ

<input id=”submit” class=”button” name=”submit” type=”submit” value=”Submit Comment” tabindex=”5″ />

ကိုရှာ

ပြီးရင် အဲဒီ အောက်မှာ

<input onclick=”window.open(‘http://www.mysteryzillion.org/webtext/webtext.php?url=’ + escape(document.location.href),’WebTextEdtior’,'resizable=yes,width=1200,height=500′)” type=”button” value=”webtext” />

ကိုထည့်လိုက်ပါ။