测试爬取一加社区

import  requests
from lxml import etree
import  pymongo
import proxyIP
import timedef get_UrlInfos(url,proxyIp):header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36'}response = requests.get(url,proxies = proxyIp,headers = header).texthtml = etree.HTML(response)items = html.xpath('//tbody')for item in items:info = {'type':item.xpath('tr/th/div[2]/span/em/a')[0].text.strip() if len(item.xpath('tr/th/div[2]/span/em/a'))>0 else '','title':item.xpath('tr/th/div[2]/a/text()')[0],'author':item.xpath('tr/th/div[2]/div/em[2]/a/text()')[0].strip(),'time': item.xpath('tr/th/div[2]/div/em[3]/span/text()')[0].strip() if len(item.xpath('tr/th/div[2]/div/em[3]/span/text()'))>0 else item.xpath('tr/th/div[2]/div/em[3]/span/span/@title')[0],'view' :int(item.xpath('tr/th/div[2]/div/em[1]/text()')[0].split(':')[1]),'reply':int(item.xpath('tr/th/div[2]/div/em[1]/a/text()')[0].strip())}yijia.insert_one(info)if __name__ == '__main__':start = time.time()mongoclient = pymongo.MongoClient('127.0.0.1',27017)mydb = mongoclient['mydb']yijia = mydb['yijia']proxyIp = proxyIP.getIp()urls = ['http://www.oneplusbbs.com/forum-116-{}.html'.format(i) for  i in range(2,1000)]for url in  urls:get_UrlInfos(url,proxyIp)end = time.time()print("单线程完成耗时：%d"%(end-start))

多线程可以自己用multiprocessing玩一下

新手入门爬虫lxml+Requests+MongoDB相关推荐

怎么用python扒网页？新手入门爬虫第一篇！
python爬虫网页的基本流程: 首先选取一部分精心挑选的种子URL. 将这些URL放入待抓取URL队列. 从待抓取URL队列中读取待抓取队列的URL,解析DNS,并且得到主机的IP,并将URL对应的 ...
python pip-什么是pip？Python新手入门指南
什么是 pip ?pip 是 Python 中的标准库管理器.它允许你安装和管理不属于 Python标准库的其它软件包.本教程就是为 Python 新手介绍 pip. 通过本教程,你将学到: 1. ...
Python爬虫新手入门教学（十）：爬取彼岸4K超清壁纸
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十八）：爬取yy全站小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十七）：爬取yy全站小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十六）：爬取好看视频小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十三）：爬取高质量超清壁纸
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（九）：多线程爬虫案例讲解
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十五）：爬取网站音乐素材
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

新手入门爬虫lxml+Requests+MongoDB

新手入门爬虫lxml+Requests+MongoDB

测试爬取一加社区

新手入门爬虫lxml+Requests+MongoDB相关推荐

最新文章

热门文章