網(wǎng)頁噪聲包括為了增強(qiáng)用戶交互性而加入的各種腳本標(biāo)記, 加強(qiáng)網(wǎng)頁視覺效果的各種動(dòng)畫, 為了方便用戶瀏覽而添加的導(dǎo)航鏈接、廣告鏈接。這些信息跟文本分類沒有實(shí)質(zhì)性關(guān)系。
Python作為一種網(wǎng)頁文本的爬蟲程序開發(fā)語言, 可以完成很多復(fù)雜的網(wǎng)頁文本提取。使用urlib2模塊下的簡(jiǎn)單代碼就能爬取目標(biāo)網(wǎng)頁的全部源代碼, 獲得整個(gè)網(wǎng)頁的內(nèi)容。使用BeautifulSoup模塊自帶的html.parse庫, 去掉所爬網(wǎng)頁源代碼中的html標(biāo)記, 即可提取網(wǎng)頁標(biāo)簽中的文本內(nèi)容。
本文地址:http://m.123beaconmarketing.com//article/20622.html