数据抓取的艺术（二）

原文地址：http://blog.chinaunix.net/uid-22414998-id-3695673.html

续前文：《数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置》。

程序优化：第一步
开始：

for i in range(startx,total):
for j in range(starty,total):
BASE_URL = createTheUrl([item[i],item[j]])
driver.get(BASE_URL)
driver = webdriver.PhantomJS()
html = driver.page_source
output = filterOutcome(html)
driver.quit()
print 'i='+str(i)+'tj='+str(j)+'tresult='+str(output)
j += 1

每个耗时约27秒。

修改后：

driver = webdriver.PhantomJS()
for i in range(startx,total):
for j in range(starty,total):
BASE_URL = createTheUrl([item[i],item[j]])
driver.get(BASE_URL)
html = driver.page_source
output = filterOutcome(html)
print 'i='+str(i)+'tj='+str(j)+'tresult='+str(output)
if output == -1:
driver.quit()
exit(0)
j += 1
driver.quit()

这回只分析了3个，共52秒，每个耗时约17秒，只是因为避免了重复PhantomJS的开启、运行和关闭这一过程。

程序优化：第二步
减少对角线重复请求次数：

driver = webdriver.PhantomJS()
for i in range(startx,total):
if starty != -1:
k = i
else:
k = starty
for j in range(k,total):
BASE_URL = createTheUrl([item[i],item[j]])
driver.get(BASE_URL)
html = driver.page_source
output = filterOutcome(html)
print 'i='+str(i)+'tj='+str(j)+'tresult='+str(output)
if output == -1:
driver.quit()
exit(0)
#toexcel("C:catchoutput.xlsx","Sheet1",output,i,j)
j += 1
driver.quit()

和上面的待分析的个数一样，花费21秒，每个耗时约7秒。如果开启excel存储，则共花费25秒，每个耗时约8秒。

程序优化：第三步
减少写入Excel的次数，提高硬盘性能。当然，数据量越大，次数越多，效果越明显。这次把Excel一直打开，每隔20个保存一次。

#打开Excel插件
xlsApp = win32com.client.Dispatch("Excel.Application")
xlsBook = xlsApp.Workbooks.Open('C:catchoutput.xlsx')
xlsSheet = xlsBook.Sheets('Sheet1')
#开启webdirver的PhantomJS对象
driver = webdriver.PhantomJS()
#main()
for i in range(startx,total):
if starty != -1:
k = i
else:
k = starty
for j in range(k,total):
BASE_URL = createTheUrl([item[i],item[j]])
driver.get(BASE_URL)
html = driver.page_source
output = filterOutcome(html)
print 'i='+str(i)+'tj='+str(j)+'tresult='+str(output)
mycounter += 1
if output == -1:
driver.quit()
xlsBook.Save()
xlsBook.Close()
xlsApp.Quit()
exit(0)
xlsSheet.Cells(j+1,i+1).Value = xlsSheet.Cells(i+1,j+1).Value = output
#每隔20个保存一次，并重新清零
if mycounter%20 == 0:
print "~~~~~~ SAVED HERE ~~~~~~"
xlsBook.Save()
mycounter = 0
j += 1
#程序结束前的清扫工作
driver.quit()
xlsBook.Save()
xlsBook.Close()
xlsApp.Quit()

结果如下：

>>>
请输入起始XaaS的序号X：0
请输入起始XaaS的序号Y：0
待处理数据记录总数：8 条
待处理握手总数：36 次
读取info.txt文件成功
计时开始!
----------------
i=0 j=0 result=14000000
i=0 j=1 result=2
i=0 j=2 result=8
i=0 j=3 result=1
i=0 j=4 result=80400
i=0 j=5 result=2
i=0 j=6 result=3
i=0 j=7 result=8470
i=1 j=1 result=394000
i=1 j=2 result=3140
i=1 j=3 result=9
i=1 j=4 result=57
i=1 j=5 result=7
i=1 j=6 result=3790
i=1 j=7 result=718
i=2 j=2 result=7110000
i=2 j=3 result=7
i=2 j=4 result=4
i=2 j=5 result=232000
i=2 j=6 result=382000
i=2 j=7 result=7970
i=3 j=3 result=981000
i=3 j=4 result=7
i=3 j=5 result=1
i=3 j=6 result=2
i=3 j=7 result=10
i=4 j=4 result=398000
i=4 j=5 result=4
i=4 j=6 result=3850
i=4 j=7 result=1390
i=5 j=5 result=275000
i=5 j=6 result=32100
i=5 j=7 result=8
i=6 j=6 result=8050000
i=6 j=7 result=67800
i=7 j=7 result=738000
----------------
执行成功！
程序耗时：72 秒

相当于每次握手，花费2秒。但这还存在一个致命伤，那就是在随着数据量的激增，以后经常要保存上万个值，每次都保存，那么次数越多写入量就会越大。只是希望微软的Excel已经能够知道：哪些是未改动数据就不必再次写入，哪些数据改动过需要写入。

程序优化：第四步
使用多线程+使用数据库。如果不用数据库，就靠读写一个单机版的Excel，效率太低，因此我考虑用Mysql或Sqlite。最后再将结果转出来。

数据抓取的艺术（二）相关推荐

【RPA入门教程】UiBot数据抓取功能使用教学（二）
数据抓取功能使用说明点击 UiBot 编辑器工具栏的[数据抓取]按钮,打开数据抓取工具数据抓取工具需要先选取一个目标,点击选择目标按钮即可. 这个目标就是要采集的数据字段,如果要采集商品名,则先选 ...
网络爬虫——中国大学排名数据抓取
网络爬虫--中国大学排名数据抓取目标网址中国大学排名网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 全球有很多份大学排名,这里以上 ...
[Python爬虫] 三、数据抓取之Requests HTTP 库
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式一.urllib 模块所谓网页抓取,就是把URL ...
李沐【实用机器学习】1.3网页数据抓取
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.数据抓取工具二.实例解析总结前言网页数据抓取目标:在一个网站里面感兴趣的数据抓取出来数据特点:噪点较多, ...
免费网站数据抓取插件，可视化页面数据抓取插件
网站页面数据抓取插件,允许我们将数据从网站直接抓取到我们的本地或者页面.网站网页数据抓取(也称为ScreenScraping.WebDataExtraction.WebHarvesting等)是一种用 ...
20221119day12作业：顶点小说全栈抓取、京东3页数据抓取、震坤行3页数据抓取
文章目录一.顶点小说全站抓取(代码运行下去理论上能抓就行) 二.京东商城三页数据抓取三.震坤行三页数据抓取一.顶点小说全站抓取(代码运行下去理论上能抓就行) 先获取所有分类链接import re ...
基于Python爬虫的股票成交量数据抓取分析系统
目录数据获取 2 1.1. 实验环境搭建 2 1.2. 抓取数据 2 1.2.1. 新浪财经 3 1.2.2. 网易财经 6 1.2.3. 东方财富 12 1.2.4. TuShare (挖地兔) ...
数据抓取工具有哪些-数据抓取工具免费推荐的有哪些
随着社会的进步,科技的发展.不管是企业还是个人都清楚地明白了数据的重要性.不仅可以让我们掌握一手资源,同时还能通过数据更清楚竞争对手.同时也告别了手动复制粘贴的痛苦. 企业人员通过爬取动态网页数据分 ...
查询数据抓取网站数据_有了数据，我就学会了如何在几个小时内抓取网站，您也可以...
查询数据抓取网站数据 I had a shameful secret. It is one that affects a surprising number of people in the da ...
[Python爬虫] 四、数据抓取之HTTP/HTTPS抓包工具Fiddler
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 [Python爬虫] 三.数据抓取之Request ...

数据抓取的艺术（二）

数据抓取的艺术（二）相关推荐

最新文章

热门文章