python爬虫爬天眼查失信守信企业的名称数据。

import requests as rqs
import bs4
import re
import webbrowser# 失信url的合成
root_url = "https://shixin.tianyancha.com/"
search_target = "gs_" + "供应链"
divide_sign = "/"
operator = "search"
number_pane = 98
start_pane = 1
url = root_url + operator + divide_sign + search_target + divide_sign + "p" + "{:d}"# 守信url的合成
# root_url = "https://www.tianyancha.com/"
# search_target = "key=" + "供应链"
# params = "&base=" + "gs"
# divide_sign = "/"
# operator = "search"
# number_pane = 98    # 爬多少页
# start_pane = 1       # 起始页
# url = root_url + operator + divide_sign +"p"+ "{:d}?"+ search_target + params   #合成url
#print(url)#爬取的数据保存在什么文件里面
save_file_name = "甘肃.txt"# 请求头的设立
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}# 由于天眼查需要登录，所以我们可以先登录，从浏览器获得cookie值，保存在本地的一个文件，需要的时候再提取出来
cookie = "C:\\Users\\Administrator\\Desktop\\cookie.txt"
with open(cookie, "r",encoding="utf-8") as f:  # 打开文件data = f.read()  # 读取文件\print(data)headers['Cookie'] = datasession = rqs.Session()
print("爬取的网页为：", url)# 该函数从指定的url中获得html代码，调用bs4库来解析
def getHtmlFromUrl(index_url):# 发送请求，并获得responseresponse = session.get(index_url, headers=headers)soup = bs4.BeautifulSoup(response.text, "lxml")result = soup.find_all("a", class_="name")print("url: "+index_url)if len(result) == 0:# 这里需要注意的是，如果在爬取的过程中发现返回的长度为0的话，说明网站在怀疑你是不是爬虫print("被识别为机器人")# 打开网页，输入验证码webbrowser.open(index_url)return Noneprint(len(result))return resultsave_file = "C:\\Users\\Administrator\\Desktop\\"+save_file_name
with open(save_file,'a',encoding="utf-8") as save_file:for i in range(start_pane,number_pane+1):result_list = getHtmlFromUrl(url.format(i))if result_list == None:# 输入验证码后，需要重新设置参数，继续爬取，参数在靠头raise Exception("请将start_pane参数修改为"+str(i))for k in result_list:# 写入文件save_file.write(k.text)save_file.write("\n")# time.sleep(500)
print("爬取完成")

注意需要先登录获取cookie 才能爬取奥，详细请看代码，如果有问题的话欢迎评论区交流。

Thanks♪(･ω･)ﾉ，谢谢阅读

python爬虫爬天眼查失信守信企业的名称数据。相关推荐

python爬虫爬取实习僧岗位信息并存入excel数据表中
欢迎访问我的个人网站http://liubofeng.com 网页分析博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...
上手快！！福利局！新手如何使用python爬虫爬取网页图片（使用正则进行数据解析）当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
python爬虫爬取虎扑湖人论坛专区帖子数据，并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
python爬虫爬取淘宝搜索页面商品信息数据
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据以下是源代码: #!coding=utf- ...
python爬虫爬取大学排名并存入数据库进行数据可视化
这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...
python爬虫爬取豆瓣网搜索结果同城活动数据
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 bs4:网页代码解析以下是源代码: #! ...
Python爬虫---爬取数据(上)
又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...
Python爬虫爬取王者荣耀英雄人物高清图片
Python爬虫爬取王者荣耀英雄人物高清图片实现效果: 网页分析从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的在每个英雄的具体 ...
Python爬虫爬取酒店评价（携程）
Python爬虫爬取携程酒店评价审查携程酒店评价页面最经有个需求是爬携程上某酒店的用户评价,在审查评论界面后发现了以下请求,贴一下: https://hotels.ctrip.com/Domest ...
python爬虫爬取网页新闻标题-看完保证你会
python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

python爬虫爬天眼查失信守信企业的名称数据。

注意需要先登录获取cookie 才能爬取奥，详细请看代码，如果有问题的话欢迎评论区交流。

python爬虫爬天眼查失信守信企业的名称数据。相关推荐

最新文章

热门文章