1.0版本中,并未对验证码进行处理,在遇到验证码问题时,提示等待并手工解决

import requests
from lxml import etree
import pandas as pd
import time# 第一步:定义基本信息,url,headers,cookies
# url = 'https://www.tianyancha.com/company/2358517846'
company_list = [
'河南正商河洛置业有限公司',
'河南融创晟元置业有限公司',
'河南俱成汽车零部件有限公司',
'郑州永洁环保科技有限公司',
'郑州清华耐火材料有限公司',
'郑州航空港区航程正商置业有限公司',
'郑州航空港市民中心发展有限公司',
'河南正商商都置业有限公司',
'巩义市盛飞机械设备有限公司',
'郑州瑞健生物科技有限公司',
'郑州深澜动力科技有限公司',
'中铁工程装备集团有限公司',
'河南鼎峰置业有限公司',
'河南民信置业有限公司',
'河南雅奇明胶有限公司',
'河南省恒宇置业有限公司',
'荥阳新农置业有限公司',
'郑州德府瑞居置业有限公司',
'华电分布式能源(郑州)有限公司',
'登封市豫资建设发展有限公司',
'河南绿地港区置业有限公司']
headers = {'ccept': 'application/json, text/javascript, */*; q=0.01','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Host': 'm.tianyancha.com','Referer': 'https://m.tianyancha.com/search?key=%E9%83%91%E5%B7%9E%E9%87%91%E7%A3%8A%E6%A0%91%E8%84%82%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&checkFrom=searchBox','User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36','X-Requested-With': 'XMLHttpRequest'
}
timestrap = int(time.time())
cookies = {'TYCID': 'c5ed9bd0960011e891962b12a1f9a1f1', 'undefined': 'c5ed9bd0960011e891962b12a1f9a1f1', 'ssuid': '7456483413', '_ga': 'GA1.2.64663727.1537443593', '_gid': 'GA1.2.1799316349.1537443593', 'RTYCID': '0c517c4c030d4eb482a941a5383b8107', 'CT_TYCID': 'c716946a3f384978a185529cecd59277', 'tyc-user-info': '%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522monitorUnreadCount%2522%253A%25221%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252215713710944%2522%257D', 'auth_token': 'eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ', 'Hm_lvt_e92c8d65d92d534b0fc290df538b4758': '1537443593,1537493356','Hm_lpvt_e92c8d65d92d534b0fc290df538b4758': '1537510340', 'aliyungf_tc': 'AQAAAOh4sTFdjxwUAtymFt9gzyUSvNWrC', 'csrfToken': 'iXGG1ldNy8JcVC4KCJXn0z9D', 'Hm_lvt_d5ceb643638c8ee5fbf79d207b00f07e': '1537513104','_gat_gtag_UA_123487620_1': '1','Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':str(timestrap)}for conli in company_list:url = "https://m.tianyancha.com/search?key={}&checkFrom=searchBox".format(str(conli))print(url)# /html/body/div[3]/div[3]/div[1]/div[1]/div[1]/a# time_cookie = {'Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':timestrap}# cookies = dict(cookies,**time_cookie)# print(cookies)# 第二步:根据获得的信息来得到其response# 通过response.content来获取其中的信息,再将content的内容进行decode解码来观察其中的内容response = requests.get(url=url,headers=headers,cookies=cookies)con = response.contentcon = con.decode("utf-8")con_html = etree.HTML(con)new_url = con_html.xpath("/html/body/div[3]/div[3]/div[1]/div[1]/div[1]/a/@href")new_url =new_url[0]response_con = requests.get(url=new_url,headers=headers,cookies=cookies)content = response_con.contentcontent = content.decode("utf-8")html = etree.HTML(content)# 公司名称company = html.xpath('//*[@id="wap_header_top"]/div[1]/div[1]/div[1]/text()')# 法定代表人people = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[1]/span[2]/a/text()')# 经营状态status = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[2]/span[2]/text()')# 工商号gs_num = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[7]/span[2]/text()')# 注册资本money = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[4]/span[2]/text/text()')# 纳税人识别号people_num = html.xpath('/html/body/div[3]/div[1]/div[6]/div/div[10]/span[2]/text()')# print(content)# print("公司名称:"+company[0]+'\n'+"纳税人识别号:"+people_num[0])print(company[0]+" 法定代表人:"+people[0]+" 工商号:"+gs_num[0]+" 注册资本:"+money[0]+" 经营状态:"+status[0]+" 纳税人识别号:"+people_num[0])

企查查网站信息爬取1.0版相关推荐

  1. python爬虫 京东,苏宁,小米众筹网站信息爬取

    可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...

  2. Python3--爬取数据之911网站信息爬取

    上代码: #*************************************************** #这份代码用于从911网站上爬取信息 #其中的IP.txt文件为我本地存IP的文件 ...

  3. 【python实现网络爬虫(4)】实习僧网站信息爬取(字体反爬虫破解)

    实习僧网站 实习僧网址,地址为北京,在搜索框输入"python",如下 实战解析 步骤一.建立for循环爬取前20页的内容 首先.查看翻页URL的信息,找规律 第一页:https: ...

  4. 基于scrapy+mongodb的智联招聘网站信息爬取

    本篇内容主要记录博主本人爬取智联招聘网站信息的过程!! 环境:python 3.6.5 pycharm JetBrains PyCharm Community Edition 2018.1 x64 M ...

  5. Scrapy项目 - 数据简析 - 实现斗鱼直播网站信息爬取的爬虫设计

    一.数据分析截图(weka数据分析截图 2-3个图,作业文字描述) 本次将所爬取的数据信息,如:房间数,直播类别和人气,导入Weka 3.7工具进行数据分析.有关本次的数据分析详情详见下图所示:   ...

  6. Python爬虫实战(十一) B站热门信息爬取(窗口版)| Tkinter实现GUI交互式界面

    目录 一.主页面设计 1.1 Tkinter基本介绍 1.2 设计布局 二.查询功能实现 2.1 分区字典构建 2.2 输入日期处理 2.3 书写爬虫函数 三.全部代码 更多信息查询(2021-2-1 ...

  7. Python爬虫:输入公司名称,爬取企查查网站中的公司信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...

  8. Python3爬取企查查网站的企业年表并存入MySQL

    Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...

  9. 西山小菜鸟之Scrapy学习笔记---爬取企查查网站公司基本信息

    前言 本文主要采取cookie登录的方式爬取企查查网站的公司的基本信息,后期会继续发布关于爬取企查查网站上的公司的裁判文书信息.链接为:企查查  本文中若存在不详细的地方欢迎各位大神网友提问,若有错误 ...

  10. 请访问豆瓣电影网站,爬取4~10部电影信息(电影名、导 演、演员、海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片。GUI

    请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导 演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...

最新文章

  1. 为了效率,扎克伯格的26张PPT
  2. 网络工程师考试部分技术要点
  3. Scala中使用两种方式对单词进行次数统计(wordCount)
  4. docker安装kafka,超级简单的
  5. oracle rac实例切换,RAC+单实例DG的切换
  6. 北大教授郑也夫斗胆谈了7个天大的问题,每个都非常狠,也很现实
  7. java builder pattern_Java Builder Pattern建造者模式详解及实例
  8. 反欺诈的这几个重点内容值得您关注
  9. component_春天@Component
  10. Android:制作Update.zip升级包 【转】
  11. Cocos Creator大厅+子游戏模式
  12. [超详细] 在Edge/Chrome浏览器上为B站开启HEVC硬解和AV1硬解(支持4K120Hz、8K、HDR真彩,杜比视界、杜比全景声)
  13. vue echarts饼状图百分比展示
  14. 张朝阳5G寻路与搜狐奇兵
  15. flutter pdf 插件使用
  16. HIT2020春软件构造lab1
  17. 基于蝴蝶结结构的硅偏振分离器和旋转器的演示
  18. 前端和后台BUG区分方法
  19. html页边距为负值,css中的padding属性可以为负值吗?css中padding属性的详解
  20. 对设计模式的总结之工厂方法模式和抽象工厂模式

热门文章

  1. 微生物组-扩增子16S分析和可视化(线上/线下,本周开课,2021.10)
  2. 移动端网站设计需要注意的四要点
  3. 移动硬盘插服务器上坏了,移动硬盘接口坏了怎么办解决教程
  4. Android端FMODSoundTouch音频变声解决方案
  5. Viddy上视频营销最成功的6家公司
  6. wx.getUserProfile踩坑填坑大全,is not a function?fail can only be invoked by user TAP gesture?
  7. 企业为什么需要BI报表工具?
  8. 考研数学常用基础知识默写版
  9. 什么是开源网络情报?有什么特点?
  10. Java小程序--多彩时钟表盘的制作