#爬取企查查公司的网址和名字

Cookie为你登录企查查官网后的,
程序运行后输入需要搜索的字段即可湖区相关企业信息
eg:游戏,餐饮等字眼
import time
import urllib
from urllib import request
from lxml import etreefor PageNum in range(1,2):search = input("请输入需要搜索的字段:")search1 = urllib.parse.quote(search)url = r"https://www.qichacha.com/search?key="+ search1+"#p:"+str(PageNum)+"&"headers = {'Host': 'www.qichacha.com','Connection': 'keep-alive','Accept': r'text/html, */*; q=0.01','X-Requested-With': 'XMLHttpRequest','User-Agent': r'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1','Referer': url,'Accept-Language': 'zh-CN,zh;q=0.9','Cookie': "UM_distinctid=16c4ffec9184b4-06bf1ab467097d-c343162-100200-16c4ffec919402; zg_did=%7B%22did%22%3A%20%2216c4ffecad927b-02c0fc68d3cecc-c343162-100200-16c4ffecada522%22%7D; _uab_collina=156471019499611887695946; acw_tc=7cc1e21615680865761297886e663a64c8dd44f26a2658e07f2c53ffbb; QCCSESSID=rl94fffour31is6mqkpvsvrg96; hasShow=1; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1568698791,1568699293,1568700240,1568700608; CNZZDATA1254842228=926297394-1564705055-https%253A%252F%252Fwww.baidu.com%252F%7C1568701992; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1568704483; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201568703637962%2C%22updated%22%3A%201568704483941%2C%22info%22%3A%201568698790826%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22www.qichacha.com%22%2C%22cuid%22%3A%20%22f289610a9540a6c5a306d7ed743b5dd3%22%2C%22zs%22%3A%200%2C%22sc%22%3A%200%7D",}r = request.Request(url,headers=headers)#请求网址r1 = request.urlopen(r).read()#获取请求网址的HTMLr1 = r1.decode("utf8")#解码html = etree.HTML(r1)#生成DOM树result = html.xpath("//tbody//tr//td/a//@href")#解析for ie in result:time.sleep(3)reurl = r"https://www.qichacha.com" + str(ie)#企业详细页面print(reurl)headers = {'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',}rs = request.Request(reurl, headers=headers)  # 请求网址r2 = request.urlopen(rs).read()  # 获取请求网址的HTMLr2 = r2.decode("utf8")  # 解码html2 = etree.HTML(r2)  # 生成DOM树Web = html2.xpath("//div[@class='dcontent']/div[1]/span[3]/a/text()")  # 官网Name = html2.xpath("//div[@class='content']/div[1]/h1/text()") #公司名字# Adress = html2.xpath("//tbody/tr[11]/td[2]/text()")#公司地址with open("qcc.txt","a+")as f:if not Web:print(Web)print(Name[0].strip())f.write("暂无")f.write("="*3)f.write(Name[0].strip())f.write("\n")else:print(Web[0].strip())print(Name[0].strip())f.write(Web[0].strip())f.write("="*3)f.write(Name[0].strip())f.write("\n")f.close()

Python爬虫企查查相关推荐

  1. python采集企查查企业信息,手工绕开企查查的登录验证

    想要从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例 ...

  2. 利用python提取企查查企业的工商基本信息

    搞证券的小伙伴有时需要获取企业的工商基本信息,弄得企业少一点还好,但如果需要获取几百个的时候,可能会很麻烦,因此本次博客就记录一下,自动获取工商信息的一些方法 文章目录 获取列表信息 获取基本的信息 ...

  3. python 调用企查查接口平台

    一.需求: 通过内部系统导出企业信息数据后,筛选状态为"正常"的企业数据.然后拿筛选后的企业去查询该企业的工商数据. 开始是在国家企业信息公示系统中查询,由于查询数据量过大,后改用 ...

  4. 肝了N小时,整理了100+Python爬虫项目

    提到爬虫,相信绝大部分人的第一反应就是 Python,尽管其他编程语言一样能写爬虫,但在人们的印象中,爬虫似乎与 Python 绑定了一样,由此可见爬虫在 Python 中的份量. 最近小二做了个免费 ...

  5. 肝了N小时,整理了100+Python爬虫项目(附源码)

    提到爬虫,相信绝大部分人的第一反应就是 Python,尽管其他编程语言一样能写爬虫,但在人们的印象中,爬虫似乎与 Python 绑定了一样,由此可见爬虫在 Python 中的份量. 最近我做了个免费的 ...

  6. Python爬虫:输入公司名称,爬取企查查网站中的公司信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...

  7. Python爬虫获取企查查公开的企业信息

    1.参考博文 https://blog.csdn.net/qq_39295735/article/details/84504848?utm_medium=distribute.pc_relevant. ...

  8. 【mysql数据库】通过python 3.7 爬虫获取企查查公开的企业信息,并记录到数据库

    1.爬虫的思路参考这篇博文 https://mp.csdn.net/postedit/83628587 2.数据库保存截图如下 3.python代码如下 #!/usr/bin/python3 #-*- ...

  9. python爬虫从企查查获取企业信息-手工绕开企查查的登录验证

    想要从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了: 上面的图片是之前截的图,今天再次检索,好像又可见了: 不过单击查看详情时,还是会被隐藏: 不管怎么说,只要企查查想限制登录,总会 ...

最新文章

  1. 线程中的yield()
  2. 中医科学院临基所携手第四范式助力抗疫工作
  3. Android输出签名的 SHA1 值
  4. 模电这么学,谁还会说不懂晶体管?
  5. python opencv库下载_PythonopenCV 2.4.3 cv2.SolvePnP
  6. 论文笔记_S2D.31_2015-CVPR_对单张图像进行统一的深度和语义预测
  7. Ruby module ---模块,组件
  8. 性能优化:缓存使用的秘密
  9. H盘提示拒绝访问资料怎么寻回
  10. 漫步微积分三十七——力和功
  11. 昆石VOS2009/VOS3000 2.1.6.00 新功能介绍目录
  12. zip命令加密和解密
  13. Monte Carlo Approximations
  14. 计算机之父ppt,24计算机之父童年的故事.ppt
  15. python实现生日悖论分析
  16. 什么是竞争情报(CI)?
  17. 【已解决】Tortoise Git在Windows文件资源管理器中图标显示异常问题
  18. 各linux桌面性能比较,七大顶级桌面比较!Linux平台自由选择
  19. 《JavaScript高级程序设计》学习笔记(一)
  20. pycharm安装QTdesigner

热门文章

  1. matlab实现手绘风格(简笔画风格、漫画风格)的曲线绘图
  2. 【转载】SpringBoot 接口数据加解密技巧,so easy!
  3. Leetcode刷题面试题 16.14. 最佳直线
  4. MBR30200FCT低压降肖特基二极管ASEMI原装
  5. 最新 抖音 X-Gorgon 0408 和8408 算法定位查找过程笔记 最新抖音xg算法13.3版本
  6. Restful风格的springMVC配搭ajax请求的小例子
  7. 手游服务器技术的选择
  8. 排列组合中关于捆绑法、插空法、插隔板法
  9. 【大数据千人会微信群20140827期交流纪要】傅志华-大数据如何在企业落地
  10. 综述:用于可靠的fMRI测量的策略