Python爬虫企查查
#爬取企查查公司的网址和名字
Cookie为你登录企查查官网后的,
程序运行后输入需要搜索的字段即可湖区相关企业信息
eg:游戏,餐饮等字眼
import time
import urllib
from urllib import request
from lxml import etreefor PageNum in range(1,2):search = input("请输入需要搜索的字段:")search1 = urllib.parse.quote(search)url = r"https://www.qichacha.com/search?key="+ search1+"#p:"+str(PageNum)+"&"headers = {'Host': 'www.qichacha.com','Connection': 'keep-alive','Accept': r'text/html, */*; q=0.01','X-Requested-With': 'XMLHttpRequest','User-Agent': r'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1','Referer': url,'Accept-Language': 'zh-CN,zh;q=0.9','Cookie': "UM_distinctid=16c4ffec9184b4-06bf1ab467097d-c343162-100200-16c4ffec919402; zg_did=%7B%22did%22%3A%20%2216c4ffecad927b-02c0fc68d3cecc-c343162-100200-16c4ffecada522%22%7D; _uab_collina=156471019499611887695946; acw_tc=7cc1e21615680865761297886e663a64c8dd44f26a2658e07f2c53ffbb; QCCSESSID=rl94fffour31is6mqkpvsvrg96; hasShow=1; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1568698791,1568699293,1568700240,1568700608; CNZZDATA1254842228=926297394-1564705055-https%253A%252F%252Fwww.baidu.com%252F%7C1568701992; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1568704483; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201568703637962%2C%22updated%22%3A%201568704483941%2C%22info%22%3A%201568698790826%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22www.qichacha.com%22%2C%22cuid%22%3A%20%22f289610a9540a6c5a306d7ed743b5dd3%22%2C%22zs%22%3A%200%2C%22sc%22%3A%200%7D",}r = request.Request(url,headers=headers)#请求网址r1 = request.urlopen(r).read()#获取请求网址的HTMLr1 = r1.decode("utf8")#解码html = etree.HTML(r1)#生成DOM树result = html.xpath("//tbody//tr//td/a//@href")#解析for ie in result:time.sleep(3)reurl = r"https://www.qichacha.com" + str(ie)#企业详细页面print(reurl)headers = {'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',}rs = request.Request(reurl, headers=headers) # 请求网址r2 = request.urlopen(rs).read() # 获取请求网址的HTMLr2 = r2.decode("utf8") # 解码html2 = etree.HTML(r2) # 生成DOM树Web = html2.xpath("//div[@class='dcontent']/div[1]/span[3]/a/text()") # 官网Name = html2.xpath("//div[@class='content']/div[1]/h1/text()") #公司名字# Adress = html2.xpath("//tbody/tr[11]/td[2]/text()")#公司地址with open("qcc.txt","a+")as f:if not Web:print(Web)print(Name[0].strip())f.write("暂无")f.write("="*3)f.write(Name[0].strip())f.write("\n")else:print(Web[0].strip())print(Name[0].strip())f.write(Web[0].strip())f.write("="*3)f.write(Name[0].strip())f.write("\n")f.close()
Python爬虫企查查相关推荐
- python采集企查查企业信息,手工绕开企查查的登录验证
想要从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例 ...
- 利用python提取企查查企业的工商基本信息
搞证券的小伙伴有时需要获取企业的工商基本信息,弄得企业少一点还好,但如果需要获取几百个的时候,可能会很麻烦,因此本次博客就记录一下,自动获取工商信息的一些方法 文章目录 获取列表信息 获取基本的信息 ...
- python 调用企查查接口平台
一.需求: 通过内部系统导出企业信息数据后,筛选状态为"正常"的企业数据.然后拿筛选后的企业去查询该企业的工商数据. 开始是在国家企业信息公示系统中查询,由于查询数据量过大,后改用 ...
- 肝了N小时,整理了100+Python爬虫项目
提到爬虫,相信绝大部分人的第一反应就是 Python,尽管其他编程语言一样能写爬虫,但在人们的印象中,爬虫似乎与 Python 绑定了一样,由此可见爬虫在 Python 中的份量. 最近小二做了个免费 ...
- 肝了N小时,整理了100+Python爬虫项目(附源码)
提到爬虫,相信绝大部分人的第一反应就是 Python,尽管其他编程语言一样能写爬虫,但在人们的印象中,爬虫似乎与 Python 绑定了一样,由此可见爬虫在 Python 中的份量. 最近我做了个免费的 ...
- Python爬虫:输入公司名称,爬取企查查网站中的公司信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...
- Python爬虫获取企查查公开的企业信息
1.参考博文 https://blog.csdn.net/qq_39295735/article/details/84504848?utm_medium=distribute.pc_relevant. ...
- 【mysql数据库】通过python 3.7 爬虫获取企查查公开的企业信息,并记录到数据库
1.爬虫的思路参考这篇博文 https://mp.csdn.net/postedit/83628587 2.数据库保存截图如下 3.python代码如下 #!/usr/bin/python3 #-*- ...
- python爬虫从企查查获取企业信息-手工绕开企查查的登录验证
想要从企查查爬取企业信息,如果没有登录直接检索,邮箱.电话都被隐藏了: 上面的图片是之前截的图,今天再次检索,好像又可见了: 不过单击查看详情时,还是会被隐藏: 不管怎么说,只要企查查想限制登录,总会 ...
最新文章
- 线程中的yield()
- 中医科学院临基所携手第四范式助力抗疫工作
- Android输出签名的 SHA1 值
- 模电这么学,谁还会说不懂晶体管?
- python opencv库下载_PythonopenCV 2.4.3 cv2.SolvePnP
- 论文笔记_S2D.31_2015-CVPR_对单张图像进行统一的深度和语义预测
- Ruby module ---模块,组件
- 性能优化:缓存使用的秘密
- H盘提示拒绝访问资料怎么寻回
- 漫步微积分三十七——力和功
- 昆石VOS2009/VOS3000 2.1.6.00 新功能介绍目录
- zip命令加密和解密
- Monte Carlo Approximations
- 计算机之父ppt,24计算机之父童年的故事.ppt
- python实现生日悖论分析
- 什么是竞争情报(CI)?
- 【已解决】Tortoise Git在Windows文件资源管理器中图标显示异常问题
- 各linux桌面性能比较,七大顶级桌面比较!Linux平台自由选择
- 《JavaScript高级程序设计》学习笔记(一)
- pycharm安装QTdesigner
热门文章
- matlab实现手绘风格(简笔画风格、漫画风格)的曲线绘图
- 【转载】SpringBoot 接口数据加解密技巧,so easy!
- Leetcode刷题面试题 16.14. 最佳直线
- MBR30200FCT低压降肖特基二极管ASEMI原装
- 最新 抖音 X-Gorgon 0408 和8408 算法定位查找过程笔记 最新抖音xg算法13.3版本
- Restful风格的springMVC配搭ajax请求的小例子
- 手游服务器技术的选择
- 排列组合中关于捆绑法、插空法、插隔板法
- 【大数据千人会微信群20140827期交流纪要】傅志华-大数据如何在企业落地
- 综述:用于可靠的fMRI测量的策略