用一個(gè)站的統(tǒng)計(jì)數(shù)據(jù)來(lái)談seo及搜索引擎
發(fā)布時(shí)間:2021-12-23 點(diǎn)擊:647
做互聯(lián)網(wǎng)已經(jīng)2年,一直是做技術(shù)的,在網(wǎng)絡(luò)運(yùn)營(yíng)上卻是一片空白,說(shuō)來(lái)真是慚愧的很。前一陣子決定自己做個(gè)站練練手,為將來(lái)從技術(shù)轉(zhuǎn)向運(yùn)營(yíng)鋪一下路。
由于從來(lái)沒有做過(guò)運(yùn)營(yíng)和網(wǎng)站推廣,運(yùn)營(yíng)方面的朋友認(rèn)識(shí)的不是很多,因此做交換鏈接的可能性不大。而自己剛做站,就那么一點(diǎn)點(diǎn)流量做交換也實(shí)在對(duì) 不起人家。思前想后,對(duì)我來(lái)說(shuō)最快的也是最可行的網(wǎng)站運(yùn)營(yíng)方法就是seo了,而且用seo來(lái)做網(wǎng)站運(yùn)營(yíng)和網(wǎng)站推廣跟技術(shù)更近一點(diǎn),上手也比較快。于是看了 很多seo的資料,不管是seo優(yōu)化網(wǎng)站的,還是用seo來(lái)作弊搞流量的,能看的都看了。但是寫這篇文章的目的不是告訴大家如何用seo優(yōu)化更不是教大家 如何用seo作弊,畢竟我也是剛剛學(xué),而且seo的教材和資料已經(jīng)相當(dāng)多了。我寫的肯定也沒有人家寫的好。我只是想用我的大米站的一些數(shù)據(jù)來(lái)對(duì)搜索引擎和 seo建立一些假設(shè),然后推測(cè)一些結(jié)論,最后大家再討論一下,希望可以共同得到進(jìn)步。
好了,廢話不說(shuō)了,先說(shuō)一下我大米站的基本情況。我的站是一個(gè)小說(shuō)導(dǎo)航網(wǎng)站,基本思想就是把各大小說(shuō)網(wǎng)站的小說(shuō)資料都采集下來(lái),然后分類整理放到我的網(wǎng)站上,用戶通過(guò)訪問(wèn)我的網(wǎng)站就可以同時(shí)搜索到幾個(gè)大小說(shuō)網(wǎng)站的所有小說(shuō)資料并點(diǎn)擊觀看,同時(shí)也可以看到各站的排名,推薦,更新等信息。好了,不多說(shuō)了,不然大家該以為我是在ad了。
首先是網(wǎng)站開發(fā),界面仿照hao123,采用最簡(jiǎn)單方便的asp+access,也是因?yàn)槲业?00mb的虛擬空間空間只支持asp和 access,系統(tǒng)一共只有4個(gè)頁(yè)面,分別是index.asp(主頁(yè))、list.asp(列表頁(yè))、search.asp(搜索 頁(yè))\bookreader.asp(詳細(xì)頁(yè)),一天的時(shí)間搞定。其中主頁(yè)還做了一個(gè)模版用來(lái)生成靜態(tài)頁(yè)(由于服務(wù)器空間有限,不能把所有的頁(yè)面都生成靜 態(tài)頁(yè),遺憾啊!把動(dòng)態(tài)頁(yè)生成靜態(tài)頁(yè)這點(diǎn)很重要,搜索引擎更喜歡靜態(tài)頁(yè),這點(diǎn)在所有的搜索引擎官方說(shuō)明中都有說(shuō)明的)。接下來(lái)是數(shù)據(jù)采集,先選定了5個(gè)小說(shuō) 網(wǎng)站,分別是起點(diǎn)中文、小說(shuō)閱讀、紅袖、瀟湘、新浪讀書,然后寫了個(gè)程序,自動(dòng)把數(shù)據(jù)采集下來(lái)并保存到sqlserver數(shù)據(jù)庫(kù)上,用了2天的時(shí)間。大概 采集了190000多條吧,最后把數(shù)據(jù)再手動(dòng)導(dǎo)入到access上(這里也有個(gè)小插曲,由于access數(shù)據(jù)庫(kù)是單文件單用戶的,功能非常有限。不能寫存 儲(chǔ)過(guò)程,所以翻頁(yè)只能用asp的recordset對(duì)象,每次把所有符合條件的結(jié)果都放到內(nèi)存中,然后再分頁(yè),我的19萬(wàn)數(shù)據(jù)每次都放到內(nèi)存中,然后再?gòu)?中拿出20條來(lái),速度和占用內(nèi)存量可想而知。所以這里教大家一個(gè)小技巧,就是把每條要分頁(yè)的數(shù)據(jù)都加一個(gè)字段用來(lái)表示他出現(xiàn)的頁(yè)數(shù),這樣每次只需要尋找這 個(gè)頁(yè)的數(shù)據(jù)就可以了,而且以后數(shù)據(jù)增加或者減少,只需要用畢加樹算法重新改一下頁(yè)字段問(wèn)題就解決了。另一個(gè)頭痛的問(wèn)題是access沒有全文檢索。所以數(shù) 據(jù)搜索基本靠like,我做過(guò)測(cè)試,數(shù)據(jù)量超過(guò)2萬(wàn)就有可能出現(xiàn)內(nèi)存溢出的現(xiàn)象,解決這個(gè)問(wèn)題的辦法沒有別的,只有自己建倒排索引。這是我在用 access做大數(shù)據(jù)量處理時(shí)遇到的兩個(gè)問(wèn)題和解決辦法,算是拋磚引玉吧)
網(wǎng)站做好,數(shù)據(jù)采集完畢,裝上51la免費(fèi)流量統(tǒng)計(jì),做個(gè)搜索引擎跟蹤器,就開始做試驗(yàn)了。上線20多天,沒有做過(guò)什么推廣,只在貼吧中發(fā)過(guò)帖 子(很幸運(yùn)有個(gè)帖子被頂起來(lái)了)。流量中,60%是百度搜索引擎來(lái)的,16%回頭客,16%貼吧(就是那個(gè)被頂起來(lái)的帖子),其它的是其它搜索引擎來(lái)的。 基本統(tǒng)計(jì)信息和收錄記錄如下圖:
(這里有個(gè)問(wèn)題要說(shuō)一下,我的域名和空間是去年9月份前后申請(qǐng)的,但是放了一個(gè)垃圾系統(tǒng)就再也沒有管。所以我在做多迷之前這個(gè)域名已經(jīng)被bd和 gg收錄了,但是只有不到10頁(yè)的收錄量,所以我沒有花太多的時(shí)間讓搜索引擎收錄我,只是重新讓搜索引擎重新檢索我的網(wǎng)站而已)
再給大家看兩個(gè)數(shù)據(jù),是我記錄的bd和gg的搜索機(jī)器人(bot)每天取我網(wǎng)站的次數(shù)。(如圖)
ok!現(xiàn)在開始分析,首先說(shuō)一下網(wǎng)頁(yè)的設(shè)計(jì),沒有frame,沒有沒必要的ajax,所有內(nèi)鏈接都加上了title,沒有隱藏和堆砌關(guān)鍵詞,沒 有同色鏈接,就是說(shuō)沒有進(jìn)行seo作弊。(注:以下假設(shè)和分析只代我目前的一些看法,不一定是正確的,希望大家也可以分析一下,指出我不對(duì)的地方)
現(xiàn)象1
我的title中是這么寫的——duomimi 多迷小說(shuō)之家---青春校園|散文|玄幻小說(shuō)|小說(shuō)連載|靈異恐怖|短篇小說(shuō)|
靈異推理|童話寓言|言情小說(shuō)|網(wǎng)絡(luò)小說(shuō)|歷史武俠|武俠小說(shuō)。搜索結(jié)果顯示我在“青春校園短篇小說(shuō)”這個(gè)長(zhǎng)尾
關(guān)鍵詞中是第一位。
假設(shè):
頁(yè)面關(guān)鍵詞主要根據(jù)title標(biāo)簽中的關(guān)鍵詞定,但是title中的關(guān)鍵詞堆砌沒有用,只會(huì)取第一個(gè)關(guān)鍵詞做為你網(wǎng)頁(yè)的主關(guān)鍵詞并在搜索引擎的索引上建立相關(guān)性排序。
現(xiàn)象2
同樣的時(shí)間bd收錄1170,gg收錄17。相差甚多
假設(shè):
前人說(shuō)的是對(duì)的,bd對(duì)新站感興趣,而gg對(duì)新站有考驗(yàn)期的,考驗(yàn)時(shí)間肯定在20天以上!
現(xiàn)象3
bd機(jī)器人每天搜索的次數(shù)變化很大,而gg每天的搜索的次數(shù)比較穩(wěn)定。但是bd搜索的頁(yè)數(shù)和收錄的頁(yè)數(shù)差不多,而gg搜索的頁(yè)數(shù)和收錄的差很遠(yuǎn)
假設(shè):
bd對(duì)于新站是來(lái)著不懼,有多少收多少。只要是爬下來(lái)的頁(yè),只要沒有作弊,都收錄上去先。而gg爬的頁(yè)不會(huì)馬上放上去。是扔了還是放在什么地方了就不知道了。
現(xiàn)象4
假設(shè)主頁(yè)的深度是0,主頁(yè)上的內(nèi)鏈接是1,深度為1的頁(yè)上的內(nèi)鏈接為2以此類推,深度越潛的頁(yè)面搜索的次數(shù)越多
假設(shè):搜索引擎對(duì)深度潛的頁(yè)面更感興趣,可能使用這種方法來(lái)判斷更新的數(shù)據(jù),當(dāng)確定潛層頁(yè)面的數(shù)據(jù)都沒有
變化了才繼續(xù)往下爬。所以做站一定要時(shí)常更新,而且把更新的東西放得越潛越好,不要藏起來(lái)。
現(xiàn)象5
搜索引擎收錄的頁(yè)面中我的search頁(yè)面比例最大(bookreader頁(yè)是我后來(lái)加上去的以前沒有)。
假設(shè):搜索引擎不喜歡列表頁(yè),更喜歡詳細(xì)頁(yè),作為判定的方法估計(jì)主要是通過(guò)內(nèi)鏈接的數(shù)量來(lái)判斷,我的search頁(yè)的內(nèi)鏈接很少,基本都是外鏈接。所以它把我的search頁(yè)當(dāng)成是詳細(xì)頁(yè)了。
現(xiàn)象6
我在期間加了一個(gè)頁(yè)面bookreader頁(yè),用戶點(diǎn)擊小說(shuō)名稱后不再直接打開小說(shuō)頁(yè)面,而是進(jìn)入我的bookreader頁(yè)面,就是說(shuō)我把以前的外連接變成了內(nèi)鏈接。結(jié)果第二天,幾乎所有的搜索引擎的搜索數(shù)量都變少了。
假設(shè):搜索引擎很討厭對(duì)頁(yè)面內(nèi)鏈接的改變。所以盡量不要隨便改動(dòng)頁(yè)面的內(nèi)鏈接。
現(xiàn)象7
每次搜索一次list頁(yè)會(huì)隔比較長(zhǎng)的時(shí)間再搜索下一個(gè)頁(yè),而bookreader和search頁(yè)則會(huì)相隔的時(shí)間較短。
假設(shè):由于list的內(nèi)鏈接多,而bookreader和search頁(yè)內(nèi)鏈接多,所以可能bd每天收錄的新鏈接數(shù)是有一個(gè)極限的。就是說(shuō),每天就收你這么多個(gè)鏈接,而這個(gè)數(shù)量應(yīng)該對(duì)不同的站不同,我計(jì)算一下,我的站應(yīng)該是在3000~4000左右
現(xiàn)象8
今天bd對(duì)我的搜索次數(shù)忽然有幾十變成1000多
假設(shè):現(xiàn)在還沒有弄清楚怎么回事,要看以后的變化,可以肯定的是我沒有對(duì)站做過(guò)什么改動(dòng),只是每5分鐘更新一次主頁(yè)而已。難道是對(duì)我的站升級(jí)了??
目前為止就想到這8個(gè)現(xiàn)象,以后我會(huì)繼續(xù)跟蹤并回帖分析的。算是拋磚引玉吧,希望大家一起來(lái)討論