Crawl ဒီေန႕လုပ္လိုက္တာ result ရလာျပီ။ 1,080,000 result ထဲက 560 ကို crawl လုပ္ျပီး duplicate ေတြ စစ္ထုတ္လုိက္တာ 416 site ရိွတယ္။ google ကလည္း result အားလံုးကို မထုတ္ေပးဘူးေလ။ result ေပါင္း 560 က ဂိတ္ဆံုးပဲ။ page rank ျမင့္တဲ့ site ေတြပဲ အရင္ထြက္တာေပါ့။ ကၽြန္ေတာ္ သိတဲ့ အခ်ဳိ႕ site ေတြက 416 ခုထဲမွာ မပါလာတာကို ေတြ႕ရတယ္။ ဥပမာ။ ။ http://www.myatmon.com/ ၊ http://blog.calmhill.info/ ၊ http://mrdba.info/ စတာေတြ result ထဲမွာ မပါလာဘူး။ ဘာလို႕ မပါတာလဲ။ page rank နိမ့္ရတာလဲဆိုတာကို သိခ်င္ရင္ေတာ့ Beyond PageRank and Third Generation IR ကို သာ ဖတ္ၾကည့္ပါ။ ကၽြန္ေတာ့္ blog ပါတယ္။ www.htootayzar.com စတာေတြ ပါပါတယ္။ ေနာက္ျပီး sub path ေတြ မပါဘူး။ duplicate ေတြကို ဖယ္ထုတ္လိုက္ေတာ့ group.ps/aaa စတာေတြ မပါေတာ့ဘူးေပါ့။
ဟုတ္ျပီ။ ဒါဆိုေတာ့ ဒီလိုျပန္တြက္ၾကည့္မယ္...
560 = 416
1080000 = (1080000*416)/560 = 802285.714285714285714
ထပ္ျပီး တြက္ၾကည့္ရေအာင္
560 = 144 duplicate
802285 = 206301.857142857142857 duplicate
appro:
802285-206301= 595984
ဒါဆိုရင္ေတာ့ ျမန္မာစာ က အသံုးျပဳတဲ့ site ၅ သိန္းေက်ာ္ပဲ ရိွတယ္လို႕ ဆိုပါတယ္။ အဲဒီအထဲမွာ duplicate ျဖစ္တယ္လို႕ မွတ္ျပီး ၅ သိန္းေက်ာ္လို႕ ပဲ ယူလိုက္တာပါ။ ဒါကေတာ့ မွန္းေျခပါ။ ေသခ်ာတာကေတာ့ ျမန္မာစာ site ၁၀ သိန္း မရိွေသးဘူး။ content ေတြကသာ ေတာ္ေတာ္ေလး မ်ားေနတယ္လို႕ ဆုိရမယ္။





Site အေနနဲ့ဆိုရင္ ၁၀ သိန္း ဘယ္လိုမွ မျဖစ္နိုင္ဘူးထင္တယ္။ Page အေနနဲ့ဆိုရင္ေတာ့ ျဖစ္နိုင္မယ္။
ဟုတ္... ၁၀ သိန္းမရိွပါ။ page ကေတာ့ ရိွတယ္။ ၁၀ သိန္း လံုးဝမျဖစ္ႏိုင္ဘူး။ အမ်ားဆံုးရိွ ၅ သိန္း ဝန္းက်င္ပဲ။ ဒါက site လုပ္ျပီးေတာ့ ဘာမွ ဆက္မလုပ္ပဲ ထားတဲ့ site ေတြ အပါအဝင္ေပါ့။ ကၽြန္ေတာ္ မသံုးေတာ့တဲ့ site ေတြေတာင္ result ထဲမွာ ပါလာေနတုန္းပဲ...
It's not true that there are 100K Myanmar sites out there. I just now crawled myself and some of the results are chinese sites/chinese googlebooks. Some of the chinese fonts before Unicode used Myanmar code points.
The 100K number is the total keywords stored by Google. I.e: If u use "english" keyword 5000 times in ur site, Google will count all of them but will only show one link/few sub-links of ur site as results.
So appr. active Myanmar sites are around 600 and all Myanmar sites will not exceed 20K.
၁၀ သိန္းဆိုတာ ဆိုက္အေရအတြက္မဟုတ္ဘူး။ က ဆိုတဲ့ keyword စာလံုးစုစုေပါင္း ဘယ္ေလာက္ေတြ႕ထားတယ္ဆိုတာ ျပတာ။ တကယ္ အြန္လိုင္းမွာ active ျဖစ္ေနတဲ့ဆိုက္က ၆၀ဝ ဝန္းက်င္ေလာက္ပဲ ရွိမယ္။
ဆိုက္ ၅ သိန္းေတာ့ မျဖစ္နိုင္ဘူး ထင္တယ္။ စာမ်က္နွာ ၅သိန္းေတာ့ ျဖစ္နိုင္မယ္။ ဒာေပမယ့္ blog ေတြဆို individual post page မွာလဲ ျပတယ္။ home page/search page/lable/tag/category အကုန္ေရတာ။ ေနာက္ www နဲ့ non-www ပာ ေရတာဆိုေတာ့ အေရအတြက္က အဆေပာင္း မ်ားစြာ တက္သြားျပန္ေရာ။ တစ္ကယ္တမ္း ေသခ်ာ ေရးေနတဲ့ ဆိုက္က ေထာင္ဂဏန္း ေလာက္ပဲ ရွိမယ္ထင္တယ္။
yes, it's content. It's around 100 myanmar sites.