<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        怎樣實現百度指數爬蟲功能

        來源:懂視網 責編:小采 時間:2020-11-27 19:55:43
        文檔

        怎樣實現百度指數爬蟲功能

        怎樣實現百度指數爬蟲功能:這次給大家帶來怎樣實現百度指數爬蟲功能,實現百度指數爬蟲功能的注意事項有哪些,下面就是實戰案例,一起來看一下。 之前看過一篇腦洞大開的文章,介紹了各個大廠的前端反爬蟲技巧,但也正如此文所說,沒有100%的反爬蟲方法,本文介紹一種簡單的方法,來繞
        推薦度:
        導讀怎樣實現百度指數爬蟲功能:這次給大家帶來怎樣實現百度指數爬蟲功能,實現百度指數爬蟲功能的注意事項有哪些,下面就是實戰案例,一起來看一下。 之前看過一篇腦洞大開的文章,介紹了各個大廠的前端反爬蟲技巧,但也正如此文所說,沒有100%的反爬蟲方法,本文介紹一種簡單的方法,來繞

        這次給大家帶來怎樣實現百度指數爬蟲功能,實現百度指數爬蟲功能的注意事項有哪些,下面就是實戰案例,一起來看一下。

        之前看過一篇腦洞大開的文章,介紹了各個大廠的前端反爬蟲技巧,但也正如此文所說,沒有100%的反爬蟲方法,本文介紹一種簡單的方法,來繞過所有這些前端反爬蟲手段。

        下面的代碼以百度指數為例,代碼已經封裝成一個百度指數爬蟲node庫: https://github.com/Coffcer/baidu-index-spider

        note: 請勿濫用爬蟲給他人添麻煩

        百度指數的反爬蟲策略

        觀察百度指數的界面,指數數據是一個趨勢圖,當鼠標懸浮在某一天的時候,會觸發兩個請求,將結果顯示在懸浮框里

        可以發現,百度指數實際上在前端做了一定的反爬蟲策略。當鼠標移動到圖表上時,會觸發兩個請求,一個請求返回一段html,一個請求返回一張生成的圖片。html中并不包含實際數值,而是通過設置width和margin-left,來顯示圖片上的對應字符。并且請求參數上帶有res、res1這種我們不知如何模擬的參數,所以用常規的模擬請求或者html爬取的方式,都很難爬到百度指數的數據。

        爬蟲思路

        怎么突破百度這種反爬蟲方法呢,其實也很簡單,就是完全不去管他是如何反爬蟲的。我們只需模擬用戶操作,將需要的數值截圖下來,做圖像識別就行。步驟大概是:

        1. 模擬登錄

        2. 打開指數頁面

        3. 鼠標移動到指定日期

        4. 等待請求結束,截取數值部分的圖片

        5. 圖像識別得到值

        6. 循環第3~5步,就得到每一個日期對應的值

        這種方法理論上能爬任何網站的內容,接下來我們來一步步實現爬蟲,下面會用到的庫:

        1. puppeteer 模擬瀏覽器操作

        2. node-tesseract tesseract的封裝,用來做圖像識別

        3. jimp 圖片裁剪

        安裝Puppeteer, 模擬用戶操作

        Puppeteer是Google Chrome團隊出品的Chrome自動化工具,用來控制Chrome執行命令。可以模擬用戶操作,做自動化測試、爬蟲等。用法非常簡單,網上有不少入門教程,順著本文看完也大概可以知道如何使用。

        API文檔: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

        安裝:

        npm install --save puppeteer

        Puppeteer在安裝時會自動下載Chromium,以確保可以正常運行。但是國內網絡不一定能成功下載Chromium,如果下載失敗,可以使用cnpm來安裝,或者將下載地址改成淘寶的鏡像,然后再安裝:

        npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
        npm install --save puppeteer

        你也可以在安裝時跳過Chromium下載,通過代碼指定本機Chrome路徑來運行:

        // npm
        npm install --save puppeteer --ignore-scripts
        // node
        puppeteer.launch({ executablePath: '/path/to/Chrome' });

        實現

        為版面整潔,下面只列出了主要部分,代碼涉及到selector的部分都用了...代替,完整代碼參看文章頂部的github倉庫。

        打開百度指數頁面,模擬登錄

        這里做的就是模擬用戶操作,一步步點擊和輸入。沒有處理登錄驗證碼的情況,處理驗證碼又是另一個話題了,如果你在本機登錄過百度,一般不需要驗證碼。

        // 啟動瀏覽器,
        // headless參數如果設置為true,Puppeteer將在后臺操作你Chromium,換言之你將看不到瀏覽器的操作過程
        // 設為false則相反,會在你電腦上打開瀏覽器,顯示瀏覽器每一操作。
        const browser = await puppeteer.launch({headless:false});
        const page = await browser.newPage();
        // 打開百度指數
        await page.goto(BAIDU_INDEX_URL);
        // 模擬登陸
        await page.click('...');
        await page.waitForSelecto('...');
        // 輸入百度賬號密碼然后登錄
        await page.type('...','username');
        await page.type('...','password');
        await page.click('...');
        await page.waitForNavigation();
        console.log(':white_check_mark: 登錄成功');

        模擬移動鼠標,獲取需要的數據

        需要將頁面滾動到趨勢圖的區域,然后移動鼠標到某個日期上,等待請求結束,tooltip顯示數值,再截圖保存圖片。

        // 獲取chart第一天的坐標
        const position = await page.evaluate(() => {
         const $image = document.querySelector('...');
         const $area = document.querySelector('...');
         const areaRect = $area.getBoundingClientRect();
         const imageRect = $image.getBoundingClientRect();
         // 滾動到圖表可視化區域
         window.scrollBy(0, areaRect.top);
         return { x: imageRect.x, y: 200 };
        });
        // 移動鼠標,觸發tooltip
        await page.mouse.move(position.x, position.y);
        await page.waitForSelector('...');
        // 獲取tooltip信息
        const tooltipInfo = await page.evaluate(() => {
         const $tooltip = document.querySelector('...');
         const $title = $tooltip.querySelector('...');
         const $value = $tooltip.querySelector('...');
         const valueRect = $value.getBoundingClientRect();
         const padding = 5;
         return {
         title: $title.textContent.split(' ')[0],
         x: valueRect.x - padding,
         y: valueRect.y,
         width: valueRect.width + padding * 2,
         height: valueRect.height
         }
        });

        截圖

        計算數值的坐標,截圖并用jimp對裁剪圖片。

        await page.screenshot({ path: imgPath });
        // 對圖片進行裁剪,只保留數字部分
        const img = await jimp.read(imgPath);
        await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
        // 將圖片放大一些,識別準確率會有提升
        await img.scale(5);
        await img.write(imgPath);

        圖像識別

        這里我們用Tesseract來做圖像識別,Tesseracts是Google開源的一款OCR工具,用來識別圖片中的文字,并且可以通過訓練提高準確率。github上已經有一個簡單的node封裝: node-tesseract ,需要你先安裝Tesseract并設置到環境變量。

        Tesseract.process(imgPath, (err, val) => {
        if (err || val == null) {
         console.error(':x: 識別失敗:' + imgPath);
         return;
        }
        console.log(val);

        實際上未經訓練的Tesseracts識別起來會有少數幾個錯誤,比如把9開頭的數字識別成`3,這里需要通過訓練去提升Tesseracts的準確率,如果識別過程出現的問題都是一樣的,也可以簡單通過正則去修復這些問題。

        封裝

        實現了以上幾點后,只需組合起來就可以封裝成一個百度指數爬蟲node庫。當然還有許多優化的方法,比如批量爬取,指定天數爬取等,只要在這個基礎上實現都不難了。

        const recognition = require('./src/recognition');
        const Spider = require('./src/spider');
        module.exports = {
         async run (word, options, puppeteerOptions = { headless: true }) {
         const spider = new Spider({ 
         imgDir, 
         ...options 
         }, puppeteerOptions);
         // 抓取數據
         await spider.run(word);
         // 讀取抓取到的截圖,做圖像識別
         const wordDir = path.resolve(imgDir, word);
         const imgNames = fs.readdirSync(wordDir);
         const result = [];
         imgNames = imgNames.filter(item => path.extname(item) === '.png');
         for (let i = 0; i < imgNames.length; i++) {
         const imgPath = path.resolve(wordDir, imgNames[i]);
         const val = await recognition.run(imgPath);
         result.push(val);
         }
         return result;
         }
        }

        反爬蟲

        最后,如何抵擋這種爬蟲呢,個人認為通過判斷鼠標移動軌跡可能是一種方法。當然前端沒有100%的反爬蟲手段,我們能做的只是給爬蟲增加一點難度。

        相信看了本文案例你已經掌握了方法,更多精彩請關注Gxl網其它相關文章!

        推薦閱讀:

        easyui日期時間框在IE中的兼容性如何處理

        vue判斷input輸入內容有否有空格

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        怎樣實現百度指數爬蟲功能

        怎樣實現百度指數爬蟲功能:這次給大家帶來怎樣實現百度指數爬蟲功能,實現百度指數爬蟲功能的注意事項有哪些,下面就是實戰案例,一起來看一下。 之前看過一篇腦洞大開的文章,介紹了各個大廠的前端反爬蟲技巧,但也正如此文所說,沒有100%的反爬蟲方法,本文介紹一種簡單的方法,來繞
        推薦度:
        標簽: 如何 百度 指數
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 亚洲第一男人天堂| 亚洲AV永久无码精品成人| 亚洲欧洲综合在线| 99久久国产精品免费一区二区| 国产在线不卡免费播放| 狠狠色香婷婷久久亚洲精品| 一个人免费日韩不卡视频| 亚洲乱码国产乱码精品精| 国产免费一级高清淫曰本片| 久久精品亚洲福利| 国产精品免费αv视频| 亚洲国产综合久久天堂| 国产精品高清免费网站 | **真实毛片免费观看| 五月天网站亚洲小说| 精品国产污污免费网站| 亚洲∧v久久久无码精品| 小草在线看片免费人成视久网| 久久久亚洲欧洲日产国码农村| a在线观看免费视频| 97久久精品亚洲中文字幕无码 | 在线日韩日本国产亚洲| 4hu四虎免费影院www| 国产亚洲3p无码一区二区| 玖玖在线免费视频| 亚洲日本在线免费观看| 日韩不卡免费视频| 色偷偷尼玛图亚洲综合| 亚洲国产中文字幕在线观看| 国产麻豆成人传媒免费观看| 麻豆亚洲AV永久无码精品久久| 4虎1515hh永久免费| 国产午夜亚洲精品| 亚洲最大av无码网址| 日本亚洲欧洲免费天堂午夜看片女人员 | 久久亚洲免费视频| 欧美大尺寸SUV免费| 污网站在线免费观看| 亚洲国产精品福利片在线观看| 91精品免费在线观看| 无码天堂va亚洲va在线va|