python爬取启信宝_requests,lxml爬启信宝
首先,
添加requests模块:
然后,
添加lxml模块:
启信宝登录抓包:
QiXinBao.py:
import requests
from lxml import etree
loginUrl = "https://www.qixin.com/api/user/login"
# 启信宝登录接口
homePage = "https://www.qixin.com"
# 启信宝首页
headers = {"Accept": "application/json, text/plain, */*",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Content-Length": "66",
"Content-Type": "application/json;charset=utf-8",
"Host": "www.qixin.com",
"Referer": "https://www.qixin.com/auth/login?return_url=%2Fnew-vip",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:52.0) Gecko/20100101 Firefox/52.0",
"X-Requested-With": "XMLHttpRequest",
"dc49417fe4f34f86b0fe": "44282ce68be84e73f8eb4d2a4d4b32c02e8e84970160b2d6829c6b8a5380483e50ec708bc38040dd715d283dfac3123cf422ecff2fe4977c8624e457c5046959"
}
# 请求头(伪装成浏览器)
parameter = {"acc": "13688888888", "pass": "000000", "captcha": {"isTrusted": True}}
# 请求体
session = requests.Session()
# 保持会话
response_1 = session.post(loginUrl, headers=headers, json=parameter, timeout=5)
# 登录
print(response_1.status_code)
# 打印响应码
response_2 = session.get(homePage).content
# 打开启信宝首页
page_2 = etree.HTML(response_2)
link = page_2.xpath("//html/body/div[1]/div[4]/div/div[2]/div/div[1]/div[1]/a//@href")
companyUrl = homePage+link[0]
# 获取第一家公司的URL
response_3 = session.get(companyUrl).content
# 打开第一家公司
page_3 = etree.HTML(response_3)
companyName = page_3.xpath("//html/body/div[6]/div/div[2]/div/div/h4//text()")
# 获取公司名称
code_1 = page_3.xpath("//*[@id='icinfo']/table/tbody/tr[1]/td[2]//text()")
# 获取统一社会信用代码
code_2 = page_3.xpath("//*[@id='icinfo']/table/tbody/tr[2]/td[2]//text()")
# 获取注册号
print(companyName[0]+"\n"+code_1[0]+"\n"+code_2[0])
python爬取启信宝_requests,lxml爬启信宝相关推荐
- python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
前言 上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...
- 爬取虎牙主播,免费爬些想看的东西,咳咳(为什么要学python?)
废话不多说,咱直接上代码: """ 导入相关的包(功能模块) """import requests #用来在代码里代替浏览器发送网络请求 f ...
- python输入数据爬取_python根据用户需求输入想爬取的内容及页数爬取图片方法详解...
本次小编向大家介绍的是根据用户的需求输入想爬取的内容及页数. 主要步骤: 1.提示用户输入爬取的内容及页码. 2.根据用户输入,获取网址列表. 3.模拟浏览器向服务器发送请求,获取响应. 4.利用xp ...
- python可以爬取的内容有什么_Python爬取视频(其实是一篇福利)过程解析 Python爬虫可以爬取什么...
如何用python爬取视频网站的数据 如何用python爬取js渲染加载的视频文件不是每个人都有资格说喜欢,也不是每个人都能选择伴你一生! 有哪位大神指导下,有些视频网站上的视频文件是通过 js 加载 ...
- 用python爬取有道翻译遇到反爬,3分钟反反爬绕过其反爬
利用有道翻译的接口,自制一个翻译程序 查看其翻译接口,发现post请求需要传很多参数,而且经过测验,satl,sigh属于动态生成的,遇到这种问题怎么办?当然有时间的情况下,可以去研究这些参数在哪个响 ...
- Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...
- python爬取新闻并归数据库_Python爬取数据并写入MySQL数据库操作示例
Python爬取数据并写入MySQL数据库的实例 首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元 ...
- python爬取天天基金_python多线程+代理池爬取天天基金网、股票数据过程解析
简介 提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金 ...
- python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析
标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...
- python如何爬取豆瓣_Python实战之如何爬取豆瓣电影?本文教你
爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...
最新文章
- MongoDB 安全 checklist 及最优配置模板
- 数据产品设计专题(5)- 分布式数据仓库技术架构
- Delphi V7.0企业汉化版及注册码
- 4服务器内存和普通内存_关于服务器内存的选择
- “互联网+”谋定文物市场-国情讲坛·宗佩山:构建共享平台
- apollo数据库安装与常见错误说明
- Exception 'ReflectionException' with message 'Class require does not exist'
- DoWhile(Java)
- python项目开发实例-有趣的十个Python实战项目,让你瞬间爱上Python!
- 大数据分析常见的犯错问题
- python编辑快速上手_Python编程如何快速上手,答案在这里
- EasyUI,TopJUI的datagrid显示图片并点击放大浏览
- 机器学习与深度学习视频讲解
- scylladb源码安装过程
- error C2678
- 【云图】如何制作东莞酒店地图?
- Apache虚拟主机配置详解
- css 铺满父元素的最好用的一种方式
- HarmonyOS学习路之HarmonyOS 概述
- CropImageView android上的一个图片裁剪控件
热门文章
- 为什么C++可以重载函数
- 什么是代理IP池,如何构建?
- folder.htt
- 测试工作挺枯燥的,怎么能够解决这个问题?
- 浅析高层建筑消防安全难点 提出防控措施意见
- OCR图片预处理之去除印章(一)
- 什么是ChatGPT?
- google翻译网页不错
- 计算机毕业设计Java新冠疫苗接种预约系统登录(源码+系统+mysql数据库+Lw文档)
- 1转自 饮水思源 bbs.sjtu.edu.cn·[FROM: 202.120.25.97]