import requests as rqs
import bs4
import re
import webbrowser# 失信url的合成
root_url = "https://shixin.tianyancha.com/"
search_target = "gs_" + "供应链"
divide_sign = "/"
operator = "search"
number_pane = 98
start_pane = 1
url = root_url + operator + divide_sign + search_target + divide_sign + "p" + "{:d}"# 守信url的合成
# root_url = "https://www.tianyancha.com/"
# search_target = "key=" + "供应链"
# params = "&base=" + "gs"
# divide_sign = "/"
# operator = "search"
# number_pane = 98    # 爬多少页
# start_pane = 1       # 起始页
# url = root_url + operator + divide_sign +"p"+ "{:d}?"+ search_target + params   #合成url
#print(url)#爬取的数据保存在什么文件里面
save_file_name = "甘肃.txt"# 请求头的设立
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}# 由于天眼查需要登录,所以我们可以先登录,从浏览器获得cookie值,保存在本地的一个文件,需要的时候再提取出来
cookie = "C:\\Users\\Administrator\\Desktop\\cookie.txt"
with open(cookie, "r",encoding="utf-8") as f:  # 打开文件data = f.read()  # 读取文件\print(data)headers['Cookie'] = datasession = rqs.Session()
print("爬取的网页为:", url)# 该函数从指定的url中获得html代码,调用bs4库来解析
def getHtmlFromUrl(index_url):# 发送请求,并获得responseresponse = session.get(index_url, headers=headers)soup = bs4.BeautifulSoup(response.text, "lxml")result = soup.find_all("a", class_="name")print("url: "+index_url)if len(result) == 0:# 这里需要注意的是,如果在爬取的过程中发现返回的长度为0的话,说明网站在怀疑你是不是爬虫print("被识别为机器人")# 打开网页,输入验证码webbrowser.open(index_url)return Noneprint(len(result))return resultsave_file = "C:\\Users\\Administrator\\Desktop\\"+save_file_name
with open(save_file,'a',encoding="utf-8") as save_file:for i in range(start_pane,number_pane+1):result_list = getHtmlFromUrl(url.format(i))if result_list == None:# 输入验证码后,需要重新设置参数,继续爬取,参数在靠头raise Exception("请将start_pane参数修改为"+str(i))for k in result_list:# 写入文件save_file.write(k.text)save_file.write("\n")# time.sleep(500)
print("爬取完成")

注意需要先登录获取cookie 才能爬取奥,详细请看代码,如果有问题的话欢迎评论区交流。

Thanks♪(・ω・)ノ,谢谢阅读

python爬虫爬天眼查失信守信企业的名称数据。相关推荐

  1. python爬虫爬取实习僧岗位信息并存入excel数据表中

    欢迎访问我的个人网站http://liubofeng.com 网页分析 博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...

  2. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  3. python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中

    今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...

  4. python爬虫 爬取淘宝搜索页面商品信息数据

    主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 以下是源代码: #!coding=utf- ...

  5. python爬虫爬取大学排名并存入数据库进行数据可视化

    这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...

  6. python爬虫 爬取 豆瓣网 搜索结果 同城活动 数据

    主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 bs4:网页代码解析 以下是源代码: #! ...

  7. Python爬虫---爬取数据(上)

    又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...

  8. Python爬虫爬取王者荣耀英雄人物高清图片

    Python爬虫爬取王者荣耀英雄人物高清图片 实现效果: 网页分析 从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的 在每个英雄的具体 ...

  9. Python爬虫爬取酒店评价(携程)

    Python爬虫爬取携程酒店评价 审查携程酒店评价页面 最经有个需求是爬携程上某酒店的用户评价,在审查评论界面后发现了以下请求,贴一下: https://hotels.ctrip.com/Domest ...

  10. python爬虫爬取网页新闻标题-看完保证你会

    python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

最新文章

  1. 用简单的C语言实现多任务轮流切换(模拟操作系统线程机制)【转】
  2. NLP领域近期有哪些值得读的开源论文?(附下载)
  3. php中sql where,sql?where
  4. 阿里研究员:警惕软件复杂度困局
  5. 解锁redis锁的正确姿势
  6. 重磅公开!36个高考数学破题大招
  7. 为什么TCP是三次握手
  8. HTMLCSSJavaScript个人入门自学笔记
  9. 携Science封面、NIPS最佳论文,CMU大神博士毕业论文公开
  10. 【车间调度】基于matlab模拟退火算法求解车间调度(jobshop-3)问题【含Matlab源码 1082期】
  11. 稳压二极管(齐纳Zener二极管)的接法和应用详解
  12. 在Linux中编译jrtplib
  13. Edge浏览器快捷键
  14. 从零开始设计RISC-V处理器——指令系统
  15. 性能优化: 资源合并与压缩 -- 压缩(前端开发过程中 JavaScript、HTML、CSS 文件的压缩)
  16. 业务需求、用户需求、功能需求、非功能需求
  17. 【Python】经典问题创建一个矩形类,定义方法 属性 初始化
  18. zblog asp php,ZBlog你选择PHP还是ASP?
  19. itop和mysql_LAMP环境搭建+iTop安装(实测使用centos7更方便)
  20. Python——from collections import namedtuple

热门文章

  1. 找茬小游戏微信小程序源码自带流量主功能+前端+后端+教程
  2. 实验一 数据库、表的创建与维护
  3. MySQL 视图(详解)
  4. 游戏外挂开发原理初探——植物大战僵尸内存挂为例
  5. 田忌赛马博弈矩阵分析
  6. treemap倒叙_lua 模拟Treemap 排序
  7. bs4爬取笔趣阁小说
  8. 2021年山东省职业院校技能大赛中职组”网络安全“正式赛题
  9. 第十四届教育技术与计算机国际会议新增SSCI, ESCI期刊
  10. 苹果库乐队怎么玩_iPhone技巧丨苹果手机制作炫酷铃声,就是不一样!