企查查网站信息爬取1.0版

1.0版本中，并未对验证码进行处理，在遇到验证码问题时，提示等待并手工解决

import requests
from lxml import etree
import pandas as pd
import time# 第一步:定义基本信息,url,headers,cookies
# url = 'https://www.tianyancha.com/company/2358517846'
company_list = [
'河南正商河洛置业有限公司',
'河南融创晟元置业有限公司',
'河南俱成汽车零部件有限公司',
'郑州永洁环保科技有限公司',
'郑州清华耐火材料有限公司',
'郑州航空港区航程正商置业有限公司',
'郑州航空港市民中心发展有限公司',
'河南正商商都置业有限公司',
'巩义市盛飞机械设备有限公司',
'郑州瑞健生物科技有限公司',
'郑州深澜动力科技有限公司',
'中铁工程装备集团有限公司',
'河南鼎峰置业有限公司',
'河南民信置业有限公司',
'河南雅奇明胶有限公司',
'河南省恒宇置业有限公司',
'荥阳新农置业有限公司',
'郑州德府瑞居置业有限公司',
'华电分布式能源（郑州）有限公司',
'登封市豫资建设发展有限公司',
'河南绿地港区置业有限公司']
headers = {'ccept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Host': 'm.tianyancha.com','Referer': 'https://m.tianyancha.com/search?key=%E9%83%91%E5%B7%9E%E9%87%91%E7%A3%8A%E6%A0%91%E8%84%82%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&checkFrom=searchBox','User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36','X-Requested-With': 'XMLHttpRequest'
}
timestrap = int(time.time())
cookies = {'TYCID': 'c5ed9bd0960011e891962b12a1f9a1f1', 'undefined': 'c5ed9bd0960011e891962b12a1f9a1f1', 'ssuid': '7456483413', '_ga': 'GA1.2.64663727.1537443593', '_gid': 'GA1.2.1799316349.1537443593', 'RTYCID': '0c517c4c030d4eb482a941a5383b8107', 'CT_TYCID': 'c716946a3f384978a185529cecd59277', 'tyc-user-info': '%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522monitorUnreadCount%2522%253A%25221%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252215713710944%2522%257D', 'auth_token': 'eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ', 'Hm_lvt_e92c8d65d92d534b0fc290df538b4758': '1537443593,1537493356','Hm_lpvt_e92c8d65d92d534b0fc290df538b4758': '1537510340', 'aliyungf_tc': 'AQAAAOh4sTFdjxwUAtymFt9gzyUSvNWrC', 'csrfToken': 'iXGG1ldNy8JcVC4KCJXn0z9D', 'Hm_lvt_d5ceb643638c8ee5fbf79d207b00f07e': '1537513104','_gat_gtag_UA_123487620_1': '1','Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':str(timestrap)}for conli in company_list:url = "https://m.tianyancha.com/search?key={}&checkFrom=searchBox".format(str(conli))print(url)# /html/body/div[3]/div[3]/div[1]/div[1]/div[1]/a# time_cookie = {'Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':timestrap}# cookies = dict(cookies,**time_cookie)# print(cookies)# 第二步:根据获得的信息来得到其response# 通过response.content来获取其中的信息,再将content的内容进行decode解码来观察其中的内容response = requests.get(url=url,headers=headers,cookies=cookies)con = response.contentcon = con.decode("utf-8")con_html = etree.HTML(con)new_url = con_html.xpath("/html/body/div[3]/div[3]/div[1]/div[1]/div[1]/a/@href")new_url =new_url[0]response_con = requests.get(url=new_url,headers=headers,cookies=cookies)content = response_con.contentcontent = content.decode("utf-8")html = etree.HTML(content)# 公司名称company = html.xpath('//*[@id="wap_header_top"]/div[1]/div[1]/div[1]/text()')# 法定代表人people = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[1]/span[2]/a/text()')# 经营状态status = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[2]/span[2]/text()')# 工商号gs_num = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[7]/span[2]/text()')# 注册资本money = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[4]/span[2]/text/text()')# 纳税人识别号people_num = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[10]/span[2]/text()')# print(content)# print("公司名称:"+company[0]+'\n'+"纳税人识别号:"+people_num[0])print(company[0]+" 法定代表人:"+people[0]+" 工商号:"+gs_num[0]+" 注册资本:"+money[0]+" 经营状态:"+status[0]+" 纳税人识别号:"+people_num[0])

企查查网站信息爬取1.0版相关推荐

python爬虫京东，苏宁，小米众筹网站信息爬取
可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...
Python3--爬取数据之911网站信息爬取
上代码: #*************************************************** #这份代码用于从911网站上爬取信息 #其中的IP.txt文件为我本地存IP的文件 ...
【python实现网络爬虫（4）】实习僧网站信息爬取（字体反爬虫破解）
实习僧网站实习僧网址,地址为北京,在搜索框输入"python",如下实战解析步骤一.建立for循环爬取前20页的内容首先.查看翻页URL的信息,找规律第一页:https: ...
基于scrapy+mongodb的智联招聘网站信息爬取
本篇内容主要记录博主本人爬取智联招聘网站信息的过程!! 环境:python 3.6.5 pycharm JetBrains PyCharm Community Edition 2018.1 x64 M ...
Scrapy项目 - 数据简析 - 实现斗鱼直播网站信息爬取的爬虫设计
一.数据分析截图(weka数据分析截图 2-3个图,作业文字描述) 本次将所爬取的数据信息,如:房间数,直播类别和人气,导入Weka 3.7工具进行数据分析.有关本次的数据分析详情详见下图所示: ...
Python爬虫实战(十一) B站热门信息爬取（窗口版）| Tkinter实现GUI交互式界面
目录一.主页面设计 1.1 Tkinter基本介绍 1.2 设计布局二.查询功能实现 2.1 分区字典构建 2.2 输入日期处理 2.3 书写爬虫函数三.全部代码更多信息查询(2021-2-1 ...
Python爬虫：输入公司名称，爬取企查查网站中的公司信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰根据输入的公司名称来爬取企查查网 ...
Python3爬取企查查网站的企业年表并存入MySQL
Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...
西山小菜鸟之Scrapy学习笔记---爬取企查查网站公司基本信息
前言本文主要采取cookie登录的方式爬取企查查网站的公司的基本信息,后期会继续发布关于爬取企查查网站上的公司的裁判文书信息.链接为:企查查本文中若存在不详细的地方欢迎各位大神网友提问,若有错误 ...
请访问豆瓣电影网站，爬取4~10部电影信息（电影名、导演、演员、海报url链接，预报片视频链接)，并结合GUI界面展现电影信息，并可以根据选择的电影名，下载指定预告片视频到本地并显示预告片。GUI
请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...

企查查网站信息爬取1.0版

企查查网站信息爬取1.0版相关推荐

最新文章

热门文章