Selenimu做爬虫 - oscarxie

Selenimu做爬虫 - oscarxie - 博客园

Selenimu做爬虫

前面有介绍过Selenium作为开源的自动化测试框架，其实Selenium还可以作为爬虫工具。

举个例子，我想爬取中国概念股的一些信息，例如这样的：http://app.finance.ifeng.com/list/usstock_cn.php

先建个SeleniumUtil.py的文件

代码

#!/usr/bin/python2.5.2
#-*- coding: utf8 -*-

from selenium import selenium

class SeleniumUtil:
  seleniums = {}

  def StartSeleniumForUrl(self, url):
    sel = selenium("localhost", 4444,"*chrome", url)
    sel.start()
    sel.set_timeout("90000")
    return sel

def GetSelenium(self, websiteName, url):
    #if websiteName in self.seleniums:
     # return self.seleniums[websiteName]
    self.seleniums[websiteName] = self.StartSeleniumForUrl(url)
    return self.seleniums[websiteName]

  def StopSelenium(self, websiteName):
    if websiteName in self.seleniums:
      self.seleniums[websiteName].stop()

复制代码

接着写个IfengFinanceSite.py文件来爬取需要的信息，例子如下，

代码

#!/usr/bin/python2.4
# -*- coding: utf8 -*-

#Ifeng Site
#

import codecs,time
from SeleniumUtil import SeleniumUtil

ExchangeUrlMap = {
  "CCS": "http://app.finance.ifeng.com/list/usstock_cn.php",
  #"SHA_B": "http://stock.finance.sina.com.cn/stock/quote/shb%s.html",
}
ExchangeXPath = "//html/body/div[4]/div/div[2]/div/table/tbody/tr[%s]/td[1]"

class IfengFinanceSite:

# result file for diff exchanges
  def GetAllTickers(self, exchange, resultFiles):
    sln = SeleniumUtil().GetSelenium("Ifeng", "http://app.finance.ifeng.com/")
    myfile=codecs.open(resultFiles % exchange, 'w', 'utf-8')

count = 0

sln.open(ExchangeUrlMap[exchange])
    time.sleep(5)

    for j in range(2, 200):
        if sln.is_element_present(ExchangeXPath % j):
          context = sln.get_text(ExchangeXPath % j).strip()
          print >> myfile, context, '\r'
          count = count + 1
        else: break
    print "%s companies for exchange %s recorded." % (count, exchange)
    sln.stop()

exchangelist=["CCS"] #"SHA_A","SHA_B","SHE_A","SHE_B","SHA_Q","SHA_CEF","SHE_CEF","SHA_Bond","SHE_Bond"
for exchange in exchangelist:
    print exchange
    resultFiles="Ifeng_company_list_%s.txt"
    IfengFinanceSite().GetAllTickers(exchange, resultFiles)

复制代码

之后启动Selenium服务，调动浏览器就能获取所有中国概念股股票代码，如果还需要其他的信息如名称、价格，只需要取得Xpath就行了。

再扩展开就是可以用Selenium做diff工具了，前后版本的对比，自有产品与竞争对手信息的对比。

当然，Selenium RC因为要调出浏览器，所以效率还是很一般，可以考虑用Selenium其他产品。

Selenimu做爬虫 - oscarxie - 博客园相关推荐

java 模拟登陆exe_Java简单模拟登陆和爬虫实例---博客园老牛大讲堂
鉴于有人说讲的不清楚,我这里再详细补充一下:更新日期:2017-11-23 本片文章适合初学者,只简单说了一下爬虫怎么用,和一个简单的小实例.不适合你的就可以不看了.----博客园老牛大讲堂 1.什么 ...
[2017-08-31]如何使用ruby同步markdown博文到博客园
这两天折腾了一下用ruby通过MetaWeblog接口把本博客同步到博客园,特此记录. MetaWeblog MetaWeblog是一个专门关于博客的协议标准,通过xmlrpc,很简单的定义了新增.编 ...
【完全开源】博客园客户端UWP版（上篇）
目录说明 PC截图手机截图关于源码说明这段时间一直在研究UWP开发,前段时间MS-UAP发布了淘宝UWP版,支持win10手机,看起来很叼.之后为了练手做了这个博客园客户端.目前只完成了一部 ...
YY博客园UML用例图-活动图-状态图之博客模块
UML建模YY系列: YY博客园UML类图之博客模块 YY博客园UML时序图之博客模块 YY博客园UML用例图-活动图-状态图之博客模块前面YY了博客园UML类图之博客模块和博客园UML时序图之博客 ...
Python爬虫入门教程 54-100 博客园等博客网站自动评论器
爬虫背景爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成"博客园" 博客的自动评论,其实原理是非常简单 ...
java 使用webmagic 爬虫框架爬取博客园数据
java 使用webmagic 爬虫框架爬取博客园数据存入数据库学习记录 webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...
【Python爬虫】爬了七天七夜，终于爬出了博客园粉丝数排行榜！
文章发出不到30分钟就被首页下架了,默哀-- 起因为了督促自己更加积极地写博客,我希望有一个排名系统能让我看到自己的进步.但是博客园对用户的排名体系相对是比较少的,主要是推荐博客排行和积分排行:但它 ...
『Python开发实战菜鸟教程』实战篇：爬虫快速入门——统计分析CSDN与博客园博客阅读数据
文章目录 0x01:引子首先介绍一下网络爬虫是什么,可以用来做什么? 这里简单探讨一下网络爬虫的合法性正式进入爬虫实战前,需要我们了解下网页结构 HTML CSS JScript 写一个简单的 H ...
nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...

Selenimu做爬虫 - oscarxie - 博客园

Selenimu做爬虫 - oscarxie - 博客园相关推荐

最新文章

热门文章