蜘蛛爬行:搜索引擎派出“蜘蛛”(網(wǎng)頁抓取程序)進行網(wǎng)頁抓取,爬取網(wǎng)頁時一般采用深度優(yōu)先、寬度優(yōu)先或最佳優(yōu)先策略;抓取建庫:將蜘蛛抓取到的網(wǎng)頁放到原始數(shù)據(jù)庫中,并丟棄掉不符合抓取規(guī)則的網(wǎng)頁;網(wǎng)頁處理:對符合規(guī)則的網(wǎng)頁進行預處理,主要包括網(wǎng)頁結(jié)構(gòu)化、分詞、降噪、建立索引等;檢索服務:根據(jù)用戶提交的關(guān)鍵詞從數(shù)據(jù)庫中將符合匹配規(guī)則的網(wǎng)頁調(diào)取,并根據(jù)權(quán)重排序規(guī)則對其進行排序;結(jié)果展示:將排序好的網(wǎng)頁按不同的方式呈現(xiàn)給用戶。
本文地址:http://m.123beaconmarketing.com//article/27632.html