环境

python3.5
pip install selenium
phantomjs-2.1.1
pip install pyquery

代码

# -*- coding:utf-8 -*-# 防止print中文出错
import time
import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')from pyquery import PyQuery as pq
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities# 给phantomjs设置请求头
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36"
)
driver = webdriver.PhantomJS(desired_capabilities=dcap, executable_path=r"C:\Users\DELL\Desktop\Scrapy\phantomjs-2.1.1-windows\bin\phantomjs.exe")
driver.set_window_size(400, 100)# 模拟登陆
def login(login_url, username, password):print("begin login...")try:driver.get(login_url)driver.find_element_by_css_selector(".input_item.clearfix[data-propertyname='username'] input").send_keys(username)driver.find_element_by_css_selector(".input_item.clearfix[data-propertyname='password'] input").send_keys(password)driver.find_element_by_css_selector(".input_item.btn_group.clearfix[data-propertyname='submit'] input").click()except:print("login wrong...")# 模拟搜索
def search_position(position_name):print("search position {}".format(position_name))try:search_input = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "search_input")))search_input.send_keys(position_name)search_btn = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "search_button")))search_btn.click()except:print("search wrong...")# 递归,逐页解析页面
def parse_html():print("begin parse html...")try:next_page_label = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ".item_con_pager .pager_container span:last-child")))html = pq(driver.page_source)items = html("#s_position_list .item_con_list li.con_list_item.default_list").items()for item in items:print(item.attr("data-company"))print(item.attr("data-positionname"))print(item.attr("data-salary"))print(item("a.position_link").attr("href"))print("\n")next_page_label.click()time.sleep(3)parse_html()except Exception as e:print(str(e))if __name__ == "__main__":login_url = "https://passport.lagou.com/login/login.html?ts=1508055021059&serviceId=lagou&service=https%253A%252F%252Fwww.lagou.com%252F&action=login&signature=101A9F09764AD83E3E2A035A1506AF7A"username = "用户名"password = "用户密码"login(login_url, username, password)search_position("python")parse_html()

效果

【Python】模拟登陆并抓取拉勾网信息（selenium+phantomjs）相关推荐

python爬虫代码房-Python爬虫一步步抓取房产信息
原标题:Python爬虫一步步抓取房产信息前言嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就 ...
Scrapy模拟登陆豆瓣抓取数据
由于豆瓣网站是反爬虫的,因此要破解反爬虫和模拟登录,还有需要破解验证码. 1创建项目 (在pycharm中创建scrapy爬虫工程即可) scrapy startproject douban 其中d ...
Python网络爬虫之抓取订餐信息
本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的. 1.抓取大众点评网中关村附近的餐馆有哪些 import urllib.request import redef fetch ...
c# 模拟登陆 webbrowser 抓取_《VR+电力——更换绝缘子培训》已登陆Pico Neo 2
原标题:<VR+电力--更换绝缘子培训>已登陆Pico Neo 2
python登录新浪微博抓取微博内容_python机器登陆新浪微博抓取数据
使用python机器登陆新浪微博抓取数据 1.[代码][Python]代码 # import 这边需要注意的是只有一个rsa这个模块是需要install的,其他的都是内置 import re , ur ...
pythonurllib新浪微博_python模拟登录新浪微博抓取数据(cookielib和urllib2).doc
HYPERLINK "/article/python/22972.html" /article/python/22972.html python模拟登录新浪微博抓取数据(cooki ...
python模拟登陆遇到重定向_python - scrapy模拟登陆知乎出现重定向无法登陆问题
当我使用scrapy想进行模拟登陆, 然后抓取首页的问题和答案时, 一直显示重定向问题 pythonfrom scrapy.contrib.spiders import CrawlSpider, Ru ...
python爬取拉勾网_(转)python爬取拉勾网信息
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
Python搭建代理池爬取拉勾网招聘信息
先来看一张图了解下爬虫实现功能多线程爬取拉勾网招聘信息维护代理 ip 池搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...

【Python】模拟登陆并抓取拉勾网信息（selenium+phantomjs）

环境

代码

效果

【Python】模拟登陆并抓取拉勾网信息（selenium+phantomjs）相关推荐

最新文章

热门文章