分享一個(gè)特殊的網(wǎng)站采集方案和代碼
發(fā)布日期:2023/11/19 16:10:34 瀏覽量:
一般的文章類型網(wǎng)站采集,每個(gè)欄目都有一個(gè)固定名稱的文件夾,列表頁也有明確的分頁標(biāo)簽,這種網(wǎng)站采集很容易實(shí)現(xiàn)
下面這個(gè)科學(xué)網(wǎng)站,就很特別,應(yīng)該采用的動(dòng)態(tài)參數(shù),每個(gè)欄目進(jìn)去參數(shù)不同,但是每個(gè)分頁的頁面地址都一毛一樣~
初步判斷是,每個(gè)分類進(jìn)去帶的動(dòng)態(tài)參數(shù)存進(jìn)了全局變量,每個(gè)分頁都是后臺(tái)進(jìn)行的動(dòng)態(tài)加載+JS實(shí)現(xiàn)的,所以,采集這種網(wǎng)站,采集分頁還必須通過每個(gè)欄目的主頁進(jìn)去,使用瀏覽器的Driver來動(dòng)態(tài)模擬進(jìn)行操作,檢測(cè)到操作結(jié)果完成后,再取HTML代碼進(jìn)行分析采集和使用
參考案例和代碼如下:
Code:
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生