ျမန္မာစာေတြ ရွာဖို႔အတြက္ Search Theory ေလး စဥ္းစားၾကည့္ရေအာင္.. ကြ်န္ေတာ္လက္ရိွကေတာ့ ေဇာ္ဂ်ီနဲ့ပဲ စဥ္းစားထားတယ္.. ဘာလို႔လည္းဆိုေတာ့ လက္ရိွ website ေတြအားလံုးက ေဇာ္ဂ်ီကို အသံုးျပဳေနလို႔ပါ...
ေဇာ္ဂ်ီမွာ ျပသနာရိွတယ္... အဲဒါကေတာ့ က ိ ု နဲ့ က ု ိ မတူတာပဲ.. သူ႔မွာ rendering မပါဘူး.. ဒါေၾကာင့္ ျပသနာျဖစ္ေနတာ
( Unicode 5.1 မွာေတာ့ ဒီျပႆနာေတြ မရိွဘူး.... ) ဒါေၾကာင့္ ေဇာ္ဂ်ီမွာ က ိ ု နဲ့ က ု ိ ရွာရင္ ရတဲ့ result မတူဘူး... လက္ရိွ google မွာ ရွာရင္ေတာင္ result မတူတာကိုေတြ႕ရမယ္ဗ်.... ဒါက ျပႆနာတစ္ရပ္ေပါ႔..
ေနာက္တစ္ခုက ကို နဲ့ ကိုး ဟာ အဓိပၸာယ္မတူသလို search result ထဲမွာ ေရာမေနသင့္ဘူးထင္တယ္... ကို ကိုရွာရင္ ကိုး | ကို႔ | ကိုယ္ | ကိုက္ စတာေတြပါ ပါလာတယ္။ ဒါဟာမျဖစ္သင့္ဘူးထင္တယ္... ကို ရွာရင္ ကို နဲ့ ဆိုင္တာပဲထြက္သင့္တယ္... ကိုး | ကိုး | ကိုယ္ | ကိုက္ေတြ မပါသင့္ဘူး....
ေနာက္ျပီး spell checking အဆင့္လည္း လိုတယ္... အက်ီးအက်ယ္ | အၾကီးအၾကယ္ | အက်ီးအၾကယ္ | အၾကီးအက်ယ္ မွာ ဘယ္ဟာမွန္သလဲ.... user မွားေနရင္ စာလံုးေပါင္းမွားေနၾကာင္းေဖာ္ျပေပးရမယ္...
ပထမအဆင့္က Normalization နဲ့ ေျဖရွင္းမယ္... ဒုတိယအဆင့္က syllable breaking နဲ့ ရွင္းမယ္.. အဲဒီ ႏွစ္ဆင့္က စဥ္းစားလို႔ရျပီ..
ေနာက္ဆံုး spell checing က စဥ္းစားဆဲပဲ... word breaking အရင္လုပ္ရမယ္.. ျပီးရင္ word dictionary နဲ့ တိုက္စစ္ရမယ္.... ကိုစိုးမင္းေရးထားတာကိုေတြ႕တယ္.. PHP နဲ့ ကိုယ္တိုင္မေရးရေသးဘူး....
အဲဒီ ၃ ဆင့္ျပီးရင္ေတာ့ ပထမဆံုး search လုပ္ဖို႔ query ကို ရျပီ။ ျပီးရင္ crawling အဆင့္ေပါ႔. crawling မွာ ဝင္း | ေဇာ္ဂ်ီ | ျမန္မာ ၃ စတာေတြကို detection သိရမယ္။ ေဇာ္ဂ်ီနဲ့ ရွာေပမယ္႔ အဲဒီစာလံုးေတြကိုပါ ရွာေပးႏိုင္ရမယ္။
ဥပမာ ဝင္း ကို ေဇာ္ဂ်ီေျပာင္းျပီး သိမ္းထားမယ္။ ျမန္မာ ၃ ကိုလည္း ေဇာ္ဂ်ီ ေျပာင္းျပီး သိမ္းထားမယ္။ ရွာေတာ့ ေဇာ္ဂ်ီနဲ့ပဲ။ ျပေတာ့လည္း ေဇာ္ဂ်ီနဲ့ပဲ။ ဝင္း ၊ ျမန္မာ ၃ အတြက္ သိတဲ့ system တစ္ခုကို ရွာၾကည့္အံုးမယ္..
အဲ... စဥ္းစားမိတာ တစ္ခုရိွတယ္...
ကိုကိုေရ ဆိုျပီး google မွာ ရွာလိုက္ရင္ content ထဲမွာ ကို()ကို()ေရ() ျဖစ္ေနတယ္ဆိုရင္ေကာ။ () က 0widthspace ကို ေျပာတာပါ။ google အေနနဲ့ ရွာေတြ႕ႏိုင္မလား.... ???? အဲဒီအခ်က္ကို သိခ်င္ေနတာ...
လက္ေတြ႕ blog ေလးတစ္ခုလုပ္ျပီး ရွာၾကည့္အံုးမယ္..
စာၾကြင္း ။ ။ ကိုစိုးမင္း blog မွာ python မတတ္ေပမယ္႔ သူ႔ theory ေလးေတြ ေတာ္ေတာ္ေကာင္းတယ္ဗ်။