安装 pip install selenium

web

phantomjs下载 :http://phantomjs.org/download.html

浏览器驱动下载:http://www.seleniumhq.com/download

chrome: http://chromedriver.storage.googleapis.com/index.html?path=2.22/

#!/usr/bin/env python
# encoding: utf-8
from selenium import webdriverdriver = webdriver.Chrome()
url = 'http://www.toutiao.com/news_fashion/'driver.get(url)print driver.title

爬取今日头条实例,使用刷新方法,来改变文章内容,暂时还不会控制鼠标滑动来实现

#!/usr/bin/env python
# encoding: utf-8
import time
from selenium import webdriver
import itertoolsdriver = webdriver.Chrome()
url = 'http://www.toutiao.com/news_fashion/'
driver.get(url)
print driver.get(url)for x in range(2):driver.refresh()titles = driver.find_elements_by_class_name("title-box")contents = driver.find_elements_by_class_name("abstract")imgs = driver.find_element_by_css_selector(".feedimg")for title, content, img in zip(titles, contents, itertools.repeat(imgs)):data = {'title': title.text,'content': content.text,'img': img.get_attribute('src')}print datatime.sleep(10)driver.close()

自动登陆的例子:

# coding:utf-8import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import time
#有验证码
driver = webdriver.Chrome()
url = 'http://mp.sohu.com/'
driver.get(url)driver.find_element_by_id("userid").clear()
driver.find_element_by_id('userid').send_keys("username")
driver.find_element_by_id("pwd").clear()
driver.find_element_by_id("pwd").send_keys('password')
driver.find_element_by_id("loginbutton").click()time.sleep(2)
driver.close()

 scrapy+selenium+phantomjs

class judge(Spider):name = "judge"start_urls = ["http://wenshu.court.gov.cn/List/List?sorttype=1&conditions=searchWord+2+AJLX++%E6%A1%88%E4%BB%B6%E7%B1%BB%E5%9E%8B:%E6%B0%91%E4%BA%8B%E6%A1%88%E4%BB%B6"]def init_driver(self):driver = webdriver.Chrome()return driver def parse(self,response):driver = self.init_driver()driver.get(self.start_urls[0])sel = Selector(text=driver.page_source)self.logger.info(u'---------------Parsing----------------')print sel.xpath("//div[@class='dataItem'][1]/table/tbody/tr[1]/td/div[@class='wstitle']/a/text()").extract()self.logger.info(u'---------------success----------------')

  

 

  

 

转载于:https://www.cnblogs.com/whoami101/p/5671426.html

selenium2使用记录相关推荐

  1. selenium-2:问题记录,密码安全控件的定位和输入

    在登录页面登录时遇到了安全控件,导致密码框无法直接用元素属性来定位及输入,代码如下: 解决办法: 1.先定位,密码框无法定位,但用户名能定位,所以通过用户名和TAB来定位密码框: 2.密码框定位后se ...

  2. python自动化测试开发_基于python的selenium2自动化测试从基础到实战(Python3、selenium2、自动化测试、web测试)...

    Selenium2是目前比较流行的一款针对web页面测试的自动化测试工具,他的前身是Selenium .Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mozi ...

  3. 《selenium2自动化测试实战-基于python语言》第二遍

    1.selenium1与selenium2的区别 Selenium1(selenium remote control,简称Selenium RC)具体流程: Selenium2: https://ww ...

  4. mysql建立联合索引,mysql建立唯一键,mysql如何解决重复记录联合索引

    在项目中,常常要用到联合唯一   在一些配置表中,一些列的组合成为一条记录.   比如,在游戏中,游戏的分区和用户id会形成一条记录.(比如,一个qq用户可以在艾欧尼亚.德玛西亚创建两个账号) 添加联 ...

  5. 实现 连续15签到记录_MySQL和Redis实现用户签到,你喜欢怎么实现?

    现在的网站和app开发中,签到是一个很常见的功能 如微博签到送积分,签到排行榜 微博签到 如移动app ,签到送流量等活动, 移动app签到 用户签到是提高用户粘性的有效手段,用的好能事半功倍! 下面 ...

  6. 记录一次http请求失败的问题分析

    问题背景 当前我有一个基于Flask编写的Restful服务,由于业务的需求,我需要将该服务打包成docker 镜像进行离线部署,原始服务的端口是在6661端口进行开启,为了区分,在docker中启动 ...

  7. Pytorch学习记录-torchtext和Pytorch的实例( 使用神经网络训练Seq2Seq代码)

    Pytorch学习记录-torchtext和Pytorch的实例1 0. PyTorch Seq2Seq项目介绍 1. 使用神经网络训练Seq2Seq 1.1 简介,对论文中公式的解读 1.2 数据预 ...

  8. LeetCode简单题之学生出勤记录 I

    题目 给你一个字符串 s 表示一个学生的出勤记录,其中的每个字符用来标记当天的出勤情况(缺勤.迟到.到场).记录中只含下面三种字符: 'A':Absent,缺勤 'L':Late,迟到 'P':Pre ...

  9. 关于TVM的点滴记录

    关于TVM的点滴记录

最新文章

  1. hdu 2028 Lowest Common Multiple Plus
  2. Techshack Weekly 第 0002 期
  3. python commands模块_python commands模块在python3.x被subprocess取代
  4. mysql创建表对经常要查询的列添加索引或者组合索引
  5. php 格式化html,HTML代码如何格式化
  6. 【docker redis】Could not connect to Redis No route to host
  7. 安卓JNI使用OpenCV
  8. 5动态显示图片_单片机入门 数码管的静态显示和动态显示 壁纸
  9. 成功要素:富兰克林的13条必要美德! 与 狗熊掰棒子
  10. Django菜鸟入门
  11. php获取openid 40163报错,微信支付授权获取 openId {\errcode\:40163,\errmsg\:\code been used, hints: [ req_id:...
  12. linux文件系统ram,Linux常用文件系统概述-RAM篇
  13. 新浪微博僵粉(机器粉)识别方法
  14. 12个最佳的免费学习编程的游戏网站
  15. F5系统配置备份及恢复
  16. linux虚拟机防火墙关不了怎么办,虚拟机centOS7 关闭防火墙后ping通 telnet不通 解决办法:disable seLinux...
  17. 保姆级教程:群晖nas内网穿透之ipv6/ipv4 ddns+frp双管齐下!
  18. R笔记:全子集回归 | 最优子集筛选变量挑选
  19. python 异常及处理
  20. 程序员如何留住健康?

热门文章

  1. centos sqldeveloper 连接mysql,Oracle SQL Developer 连接 Mysql 等数据库
  2. bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤
  3. 靠WiFi信号就能检测呼吸跌倒!北大这项硬科技研究越来越藏不住了
  4. Uber无人车撞死人,安全员被控过失杀人,算法免于追责
  5. 斩获23项冠军,日均调用破万亿!百度交出年度AI成绩单:语音语言领衔技术突破,国产自研成大趋势...
  6. 谷歌砸出10亿美元,要为湾区困难群众,建2万套经适房
  7. 500元辛苦费,求一C#算法,自由定义表达式
  8. mynginx.conf
  9. 微软宣布在Azure API管理中预览OpenAPI规范V3
  10. Python2 文件I/O