python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证,我太冇财了
从企查查爬取企业信息,如果没有登录直接检索,邮箱、电话都被隐藏了
点击详情,部分信息同样会被隐藏
毕竟只是打工的,没钱不能任性!
想要查看更完整的企业信息,只有登录了。
但登录需要滑块验证,有时可能还会有图片验证码
但我干不过他们,老大不提供资金支持,那就只能另辟蹊径了。
突然看到右下角有三小只,不禁有点想法了
是不是可以通过授权的形式进行登录呢,那就开始吧
那就拿三小只试试:
首先通过微博登录,将该绑定的绑定,该授权的授权,避免登录后让验证
(微博授权 + 手机号绑定 + 竟然还让关注了公众号)
账号准备完毕,上代码
from selenium import webdriver
import time
import xlwt
import sys
import imp
imp.reload(sys)
# 伪装成浏览器,防止被识破
option = webdriver.ChromeOptions()
option.add_argument(
'--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"')
driver = webdriver.Chrome(chrome_options=option)
# 打开登录页面
driver.get('https://www.qichacha.com/user_login')
# 单击用户名密码登录的标签
tag = driver.find_element_by_xpath('//*[@id="normalLogin"]')
tag.click()
tag = driver.find_element_by_xpath('//*[@class="btn-weibo m-l-xs"]')
tag.click()
# 将用户名、密码注入
driver.find_element_by_id('userId').send_keys('微博账号')
driver.find_element_by_id('passwd').send_keys('微博密码')
time.sleep(3) # 休眠,人工完成验证步骤,等待程序单击“登录”
# 单击登录按钮
btn = driver.find_element_by_xpath('//*[@id="outer"]/div/div[2]/form/div/div[2]/div/p/a[1]')
btn.click()
time.sleep(10)
# inc_list = ['阿里巴巴', '腾讯', '今日头条', '滴滴', '美团']
# inc_len = len(inc_list)
driver.find_element_by_id('searchkey').send_keys("腾讯")
# 单击搜索按钮
srh_btn = driver.find_element_by_xpath('//*[@id="indexSearchForm"]/div/span/input')
srh_btn.click()
# 获取首个企业文本
inc_full = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').text
print(inc_full)
money = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[1]').text
print(money)
date = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[2]').text
print(date)
mail_phone = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[2]').text
print(mail_phone)
addr = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[3]').text
print(addr)
try:
stock_or_others = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[4]').text
print(stock_or_others)
except:
pass
# 获取网页地址,进入
inner = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').get_attribute("href")
driver.get(inner)
# 单击进入后 官网 通过href属性获得:
inc_web = driver.find_element_by_xpath(
'//*[@id="company-top"]/div[2]/div[2]/div[3]/div[1]/span[3]/a').get_attribute("href")
print("官网:" + inc_web)
print(' ')
driver.close()
信息获取完整,ok
python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证,我太冇财了相关推荐
- python 使用socks 爬虫_python爬虫基础之urllib的使用
这篇文章主要介绍了python爬虫基础之urllib的使用,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下 一.urllib 和 urllib2的关系 在python2中,主要使用url ...
- hadoop 爬虫_python爬虫知识点梳理:带你全面入门python爬虫
今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...
- python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
- python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
- origin和python有什么不同_python爬虫之git的使用(origin说明)
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
- python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
- python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- 51自学网python爬虫_Python爬虫基本流程
爬虫定义 爬虫是请求网站并提取自己所需要数据的过程.通过我们的程序,可以代替我们向服务器发送请求,然后进行批量的数据下载. 爬虫基本流程 发起请求 通过url向服务器发送requests请求,请求可以 ...
- 登录页面怎么弄_python爬虫另辟蹊径绕过企查查的登录验证,我太冇财了
从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了 点击详情,部分信息同样会被隐藏 毕竟只是打工的,没钱不能任性! 想要查看更完整的企业信息,只有登录了. 但登录需要滑块验证,有时可能还 ...
最新文章
- 介绍下计算机的一些常识?
- 首届世界CSS设计大赛结果揭晓
- 武汉大学计算机学院学生寝,多彩青春一路同行——记武大计算机学院计科2班...
- matlab 第i行到j行,matlab简明教程
- 新兴IT企业特斯拉(五)——中国救命
- python arp 网关_python使用arp欺骗伪造网关的方法
- matlab求多元极大似然估计,matlab求极大似然估计
- C语言的酒店客房管理系统
- 微雪树莓派PICO笔记——8-PIO(可编程输入输出接口)
- 爬取淘宝网站的商品数据
- C# GDI winfrom 图像转换椭圆形
- HTML让文字在图片上显示
- JVM3-类文件结构
- IOS 开发技能图谱——ios 开发工程师必知必会要点
- ABB 120 六轴机械手臂编程调试(一)
- python 用tushare每日获得每天股票数据
- 关于协方差,协方差矩阵的个人理解
- MAX40026 280ps高速比较器开发资料原理图源代码
- clt框架_中心极限定理clt数据科学
- 五年后计算机专业还会吃香吗,未来5年的紧缺职业 五年后最吃香的专业有哪些?...
热门文章
- Centos6.5安装后,网络连接显示红叉
- JS将对象转为字符串
- CAD梦想画图中的“绘图工具——圆”
- 2020美国纽约大学计算机科学排名,2020年美国纽约大学专业排名
- 飞机专家调查发现坐飞机 机首、机翼和机尾最安全
- STM32F429实现USB通过IAP在线升级
- 练习-Java类和对象之对象组合之求圆锥体表面积
- Python标准库之正则表达式(re库)
- 某些厂商防火墙存在硬编码漏洞复现
- git pull时提示错误:warning: ignoring broken ref refs/remotes/origin/HEAD的解决办法