python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了

从企查查爬取企业信息，如果没有登录直接检索，邮箱、电话都被隐藏了

点击详情，部分信息同样会被隐藏

毕竟只是打工的，没钱不能任性！

想要查看更完整的企业信息，只有登录了。

但登录需要滑块验证，有时可能还会有图片验证码

但我干不过他们，老大不提供资金支持，那就只能另辟蹊径了。

突然看到右下角有三小只，不禁有点想法了

是不是可以通过授权的形式进行登录呢，那就开始吧

那就拿三小只试试：

首先通过微博登录，将该绑定的绑定，该授权的授权，避免登录后让验证

(微博授权 + 手机号绑定 + 竟然还让关注了公众号)

账号准备完毕，上代码

from selenium import webdriver

import time

import xlwt

import sys

import imp

imp.reload(sys)

# 伪装成浏览器，防止被识破

option = webdriver.ChromeOptions()

option.add_argument(

'--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"')

driver = webdriver.Chrome(chrome_options=option)

# 打开登录页面

driver.get('https://www.qichacha.com/user_login')

# 单击用户名密码登录的标签

tag = driver.find_element_by_xpath('//*[@id="normalLogin"]')

tag.click()

tag = driver.find_element_by_xpath('//*[@class="btn-weibo m-l-xs"]')

tag.click()

# 将用户名、密码注入

driver.find_element_by_id('userId').send_keys('微博账号')

driver.find_element_by_id('passwd').send_keys('微博密码')

time.sleep(3) # 休眠，人工完成验证步骤，等待程序单击“登录”

# 单击登录按钮

btn = driver.find_element_by_xpath('//*[@id="outer"]/div/div[2]/form/div/div[2]/div/p/a[1]')

btn.click()

time.sleep(10)

# inc_list = ['阿里巴巴', '腾讯', '今日头条', '滴滴', '美团']

# inc_len = len(inc_list)

driver.find_element_by_id('searchkey').send_keys("腾讯")

# 单击搜索按钮

srh_btn = driver.find_element_by_xpath('//*[@id="indexSearchForm"]/div/span/input')

srh_btn.click()

# 获取首个企业文本

inc_full = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').text

print(inc_full)

money = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[1]').text

print(money)

date = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[2]').text

print(date)

mail_phone = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[2]').text

print(mail_phone)

addr = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[3]').text

print(addr)

try:

stock_or_others = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[4]').text

print(stock_or_others)

except:

pass

# 获取网页地址，进入

inner = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').get_attribute("href")

driver.get(inner)

# 单击进入后官网通过href属性获得：

inc_web = driver.find_element_by_xpath(

'//*[@id="company-top"]/div[2]/div[2]/div[3]/div[1]/span[3]/a').get_attribute("href")

print("官网：" + inc_web)

print(' ')

driver.close()

信息获取完整，ok

python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了相关推荐

python 使用socks 爬虫_python爬虫基础之urllib的使用
这篇文章主要介绍了python爬虫基础之urllib的使用,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下一.urllib 和 urllib2的关系在python2中,主要使用url ...
hadoop 爬虫_python爬虫知识点梳理：带你全面入门python爬虫
今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...
python从入门到爬虫_python爬虫从入门到放弃（一）之初识爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
origin和python有什么不同_python爬虫之git的使用（origin说明）
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
51自学网python爬虫_Python爬虫基本流程
爬虫定义爬虫是请求网站并提取自己所需要数据的过程.通过我们的程序,可以代替我们向服务器发送请求,然后进行批量的数据下载. 爬虫基本流程发起请求通过url向服务器发送requests请求,请求可以 ...
登录页面怎么弄_python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了
从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了点击详情,部分信息同样会被隐藏毕竟只是打工的,没钱不能任性! 想要查看更完整的企业信息,只有登录了. 但登录需要滑块验证,有时可能还 ...

python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了

python 企查查爬虫_python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了相关推荐

最新文章

热门文章