数据抓取的艺术(一)
原文地址:http://blog.chinaunix.net/uid-22414998-id-3692113.html?page=3
数据抓取是一门艺术,和其他软件不同,世界上不存在完美的、一致的、通用的抓取工具。为了不同的目的,需要定制不同的代码。不过,我们不必Start from Scratch,已经有许多的基本工具、基本方法和基础框架可供使用。不同的工具、不同的方法、不同的框架的特点也不同。了解这些工具、方法和框架是首要任务,接下来就需要明白它们的差异都在哪里、什么情境该用什么东东,最后才是析出规则、编写代码、运行程序来抓取数据。所以说,其实数据抓取的学习路线,不但很长而且很杂。
为了一个特定的目的,我需要爬取Google的搜索数,和其他情况不同:人家是特定关键词,一页一页地爬结果;我的是N多关键词,一次一个地搜索,只需要返回的搜索条数。事实上,一共有153个关键词,但每个关键词都需要和所有关键词握手组配成一对待检词组。于是,大家可以试想一下,一个153行、153列的大表格,每一个空白都等着填,这就将是153*153=23409次,也就是约23409/2=11704次,经测试每爬取一个共词页面的结果并存入Excel,需要花费4秒的时间。这意味着,以单人单线程的方式需要11704*4/3600=13个小时,才能跑完。
这些内容我还会在后续博文中详述,现在先介绍上述目的情境下我使用的技术框架及其安装配置过程。
一、技术架构
[Python2.7 + Pip + Selenium + Phantomjs]
Selenium+Phantomjs,最初这对兄弟不是一家的,后来发现二者志趣相投、互有好感,于是结拜为兄弟,住进了Selenium家里。(这种说法有待商榷)
看看介绍:
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。
Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。
二、环境搭建
(1)安装Python从略,我用的版本是2.7.4(WinXP和Win7的32位平台)。
(2)由于发现Pip比easy_install优秀,我便使用我已经安装的easy_install来安装pip。
- easy_install pip
如图所示:
(3)安装Phantomjs。
到Phantomjs的官方网站http://phantomjs.org/download.html,下载“Download phantomjs-1.9.0-windows.zip (7.1 MB) ”。随后打开这个压缩包,将phantomjs.exe这一个文件解压到系统路径所能找到的地方,由于之前我已经将“C:\Python27\Scripts”目录添加入PATH之中,所以我就直接解压到这个目录。如图所示:
至此,就已经在Win的环境下配置好了环境。
三、测试
随意新建一个文件,并加入如下代码:
- from selenium import webdriver
- driver = webdriver.PhantomJS()
- driver.get('www.baidu.com')
- data = driver.find_element_by_id('cp').text
- print data
Check Out,看看是不是这个结果:
其实,我一直不喜欢弹出来的DOS黑框,觉得这东东太影响视觉而且可能更耗时,但是在我看了官方DOC后:
我发现,是不能直接藏匿DOS弹框的。So,只好这般啦。
OK,it's time to "Enjoy yourself"......
数据抓取的艺术(一)相关推荐
- 关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...
- 干货!链家二手房数据抓取及内容解析要点
"本文对链家官网网页进行内容分析,可以作为一般HTTP类应用协议进行协议分析的参考,同时,对链家官网的结构了解后,可以对二手房相关信息进行爬取,并且获取被隐藏的近期成交信息." 另 ...
- vba抓取网页数据到excel_R语言网页数据抓取XML数据包
有些网络上的数据无法复制粘贴,一个一个录入有点费时费力,此时用这种数据抓取方法,短短几句,简单实用.XML是一种可扩展标记语言,它被设计用来传输和存储数据.XML是各种应用程序之间进行数据传输的最常用 ...
- python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
- python table数据抓取_Python爬虫:数据抓取工具及类库详解
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: ncepu_Chen PS:如有需要Python学习资料的小伙伴可以 ...
- python教程怎么抓起数据_介绍python 数据抓取三种方法
三种数据抓取的方法正则表达式(re库) BeautifulSoup(bs4) lxml *利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.co ...
- Uipath 学习栏目基础教学:10、数据抓取
提示:专栏解锁后,可以查看该专栏所有文章. 文章目录 一.数据抓取 1.1表格数据抓取 1.2 搜索结果爬取 提示:以下是本篇文章正文内容,下面案例可供参考 一.数据抓取 UiPath Studio ...
- 10-穿墙代理的设置 | 01.数据抓取 | Python
10-穿墙代理的设置 郑昀 201005 隶属于<01.数据抓取>小节 我们访问 Twitter 等被封掉的网站时,需要设置 Proxy . 1.使用HTTP Proxy 下面是普通HTT ...
- 怎么获取web开发怎么获取手机的唯一标识_PYTHON实现北京住宅小区数据抓取-(Web服务API-地点检索服务)
最近工作需要整理了一些百度地图接口查询北京住宅小区的相关信息.该篇文章主要从如下3个方面的说明:Web服务API -地点检索服务.需求分析 和 PYTHON实现 . Web服务API -地点检索服务: ...
最新文章
- Glide使用OkHttp加载图片
- 杂项题的基本解题思路——2、图片隐写术
- Codeforces 1209D Cow and Snacks
- /etc/profile、/etc/bashrc、~/.bash_profile、~/.bashrc(转载)
- Windows Service下的Timer计时器的使用
- 什么叫诚实_他爱不爱你,身体最诚实
- 利用RSM和RSFC配置VLAN间路由
- Linux 命令(131)—— usermod 命令
- PHP中include和require的区别详解
- DingTalk机器人C#代码
- 初学者怎样快速学会 SQL
- simulink 汽车低压电网简单仿真
- Python的seek函数
- 计算机专业ib选课,IB 课程里,总算发现一个貌似容易的学科了!
- DFS求岛屿最大面积
- Cadence Orcad Capture全局修改元件属性方法及技巧图文及视频演示
- SQL语法创建及管理数据表结构
- VC中窗口在屏幕中央显示
- 几何光学学习笔记(22)- 5.5 光学系统的景深
- 鸿蒙HarmonyOS版抖音(含源码)
热门文章
- vue路由传多个参数_vue路由传参(两种方法总结)
- php中is_writable函数
- [Swift]LeetCode452. 用最少数量的箭引爆气球 | Minimum Number of Arrows to Burst Balloons
- 【转】SIP 中的Dialog,call,session 和 transaction
- 如何打开chrome中flash debug player
- .NET 指南:资源的名称
- 微信小程序——诉讼费计算
- .Net将Base64字符串转换为Image对象或保存为图片到本地
- Python 目录及文件操作(os.模块)
- MySQL的Binlog与Redolog