Node.js + puppeteer爬取推特ChineseVirus評論(1)

說到網絡爬蟲,大家第一時間想到的可能是python,但其實Node.js也十分適合用來爬蟲。爬蟲通常涉及大量請求,像推特這種由js/ajax动态生成的網頁更是必須等待數據加載完成才能進行爬取。Node.js的單線,非阻塞I/O機制使它在等待請求與渲染時不會被阻塞,大大提高速度。

Puppeteer

Puppeteer 是 Node.js 的函式庫，它提供各種 API 來控制 Chrome 或 Chromium 瀏覽器，而此瀏覽器也是目前主流的瀏覽器，用來做為測試、爬蟲都相當合適，並且所提供的 API 語法淺顯易懂。這次我就用到爬蟲相關幾個方法,其他使用方法可以到puppeteer查看。

準備

在初始化Node.js後先安裝相關的包

npm install Puppeteer

創建twitter.js,我們會在裡面封裝好方法,然後在index.js調用

創建index.js并引入

const puppeteer = require('puppeteer');
const fs = require('fs');
const twitter = require('./twitter');//自己封裝的方法

用puppeteer打開一個瀏覽器

 initialize : async () => {browser = await puppeteer.launch({//如果為true則只在後台運行headless : false, defaultViewport: {width: 1440,height: 1080}});},

觀察URL

在加上advanced search後URL會變化,可以很明顯地分辨到q=chinesevirus就是router控制關鍵詞內容部分,我們要搜索不同內容只需要在這傳入不同的關鍵詞。

進行搜索與抓取

對於有次序要求的操作都要加上await。await必須在async函數中使用,它的作用是等待一個Promise 物件,它會暫停代碼在該行上，直到 promise 完成，然後返回結果值。在暫停的同時，其他正在等待執行的代碼就有機會執行了。
await後面可以接任何要等待的值,比如let tweetsArray = await page.$$(‘element’);會等待所有element被選中後并返回後才執行後面的代碼。

sreachTweet:async(keyword,count)=>{let url = `https://twitter.com/search?q=${keyword}%20min_faves%3A200%20lang%3Aen%20until%3A2020-03-24%20since%3A2020-03-17&src=typed_query&f=live`let index = 0;await page.goto(url);//等待目標元素await page.waitFor('div[data-testid="tweet"]');let tweets = [];while(tweets.length < count){//當前條數少於count則繼續//滾到頁底,觸發lazyloadingawait page.evaluate('window.scrollTo(0,document.body.scrollHeight)');await page.waitFor(3000);let tweetsArray = await page.$$('div[data-testid="tweet"]>div.r-1mi0q7o');for (let tweetElement of tweetsArray){index++let userName = await tweetElement.$eval('span>span',element => element.innerText);let userID = await tweetElement.$eval('div+div>div>span',element => element.innerText);let Time = await tweetElement.$eval('a[title]',element => element.getAttribute('title'));let Content = await tweetElement.$$eval('div+div>div>div>span',element => element.map(data => data.innerText));tweets.push({index,userName,userID,Time,Content});}//以追加模式寫入tweets.json文件}fs.writeFileSync('./tweets.json',JSON.stringify(tweets),{flag:'a'},'utf-8');return tweets;},

調用

最後在index.js調用我們寫好的函數就可以了

(async () => {await twitter.initialize();await twitter.sreachTweet('chinesevirus',10);
})();

結果

最後小試牛刀爬了8488條推,分析就留下次吧!!