构建了企查查的查找公司的框架。
具体的excel导入文件名和导出文件名自己修改就行。

import requests
import bs4
import re
from bs4 import BeautifulSoup
import xlrd
import xlwt# gethtml 获取url信息
# univlist 填充univlistdef xlrdwork():data = xlrd.open_workbook(r"C:\Users\Administrator\Documents\WeChat Files\wxid_d43t9db03h5a22\FileStorage\File\2021-01\孙子公司.xlsx")table = data.sheets()[0]values = table.col_values(1)return values[11:31]def gethtml1(url, finder):try:finders = {"key": finder}kv = {"user-agent": "Mozilla/5.0","cookie": "UM_distinctid=17678c338840-0610ca39-3b664008-15f900-17678c33885181; _uab_collina=160834383394501645964384; zg_did=%7B%22did%22%3A%20%2217678c397115cb-0ab716ddd-3b664008-15f900-17678c39712699%22%7D; __guid=84250399.1452049485570150700.1608626811028.8042; QCCSESSID=d44oscpou0uvut9j7g3ffis613; hasShow=1; CNZZDATA1254842228=96767716-1608340486-%7C1612011941; acw_tc=670f631f16120122477607044e718ed0e65b28be001ba712b6707422c7; monitor_count=169; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201612006741999%2C%22updated%22%3A%201612013834189%2C%22info%22%3A%201611660053455%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22%22%2C%22cuid%22%3A%20%2257a098d34b31dbda888d6ee2156acff1%22%2C%22zs%22%3A%200%2C%22sc%22%3A%200%7D"}r = requests.get(url, params=finders, headers=kv)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("false")def skip(html, href_list):soup = BeautifulSoup(html, "html.parser")t1 = soup.find_all("a", "title")for t2 in t1:t3 = t2.get('href')href_list.append(t3)return href_list[0]def gethtml2(url):try:kv = {"user-agent": "Mozilla/5.0","cookie": "UM_distinctid=17678c338840-0610ca39-3b664008-15f900-17678c33885181; _uab_collina=160834383394501645964384; zg_did=%7B%22did%22%3A%20%2217678c397115cb-0ab716ddd-3b664008-15f900-17678c39712699%22%7D; __guid=84250399.1452049485570150700.1608626811028.8042; QCCSESSID=d44oscpou0uvut9j7g3ffis613; hasShow=1; CNZZDATA1254842228=96767716-1608340486-%7C1612011941; acw_tc=670f631f16120122477607044e718ed0e65b28be001ba712b6707422c7; monitor_count=169; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201612006741999%2C%22updated%22%3A%201612013834189%2C%22info%22%3A%201611660053455%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22%22%2C%22cuid%22%3A%20%2257a098d34b31dbda888d6ee2156acff1%22%2C%22zs%22%3A%200%2C%22sc%22%3A%200%7D"}r = requests.get(url, headers=kv)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("false")def univlist1(ulist1, html,table):soup = BeautifulSoup(html, "html.parser")for tr in soup.find("table", "ntable").children:if isinstance(tr, bs4.element.Tag):for td1 in tr("td", "tb"):ulist1.append(td1.string.replace("\n", "").replace(" ", "").replace("\r", ""))for i in range(0, len(ulist1)):table.write(0, i+1, ulist1[i])def univlist2(ulist2, html):soup = BeautifulSoup(html, "html.parser")num = 0for tr in soup.find("table", "ntable").children:if isinstance(tr, bs4.element.Tag):for td2 in tr("td", {"class": ""}):if num == 0:num += 1try:td2_1 = td2.find("a", "bname").find("h2")tds2 = (td2_1.string).replace("\n", "").replace(" ", "").replace("\r", "")ulist2.append(tds2)except:ulist2.append("无法定代表人")continueelse:try:tds2 = (td2.string).replace("\n", "").replace(" ", "").replace("\r", "")ulist2.append(tds2)except:ulist2.append("无")continuedef finishlist(ulist1, ulist2):print("{:^30}\t{:^300}\t".format("公司", "信息"), chr(12288))for i in range(len(ulist1)):try:print("{:^30}\t{:^300}\t".format(ulist1[i], ulist2[i]), chr(12288))except:print("无")continuedef main():url = "https://www.qcc.com/web/search"finders_list = xlrdwork()file = xlwt.Workbook(encoding="utf-8")table = file.add_sheet("收入客户明细")i2 = 0for finder in finders_list:ulist1 = []ulist2 = []href_list = []html1 = gethtml1(url, finder)url2 = skip(html1, href_list)html2 = gethtml2(url2)if i2 == 0:univlist1(ulist1, html2,table)univlist2(ulist2, html2)print(ulist2)table.write(i2 + 1, 0, finders_list[i2])for i3 in range(0, len(ulist2)):table.write(i2 + 1, i3 + 1, ulist2[i3])i2 += 1file.save(r"C:\Users\Administrator\Desktop\企查查结果.xls")main()

企查查的批量公司查找相关推荐

  1. 企查查爬虫获取公司链接

    import openpyxl import requests # 模拟请求 import pandas as pd # 清洗数据 from bs4 import BeautifulSoup#打开目标 ...

  2. Python爬虫:输入公司名称,爬取企查查网站中的公司信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...

  3. 西山小菜鸟之Scrapy学习笔记---爬取企查查网站公司基本信息

    前言 本文主要采取cookie登录的方式爬取企查查网站的公司的基本信息,后期会继续发布关于爬取企查查网站上的公司的裁判文书信息.链接为:企查查  本文中若存在不详细的地方欢迎各位大神网友提问,若有错误 ...

  4. 爬取企查查和boss直聘数据

    因工作需要,要在boss直聘上指定条件搜索公司名称,然后在企查查上面搜索公司全称.地址和电话信息. 1.boss直聘的cookie过期很快,每次只能爬取3-4页(可以用selenium爬虫,但是需要的 ...

  5. 调用企查查上的接口,实现通过公司名称查询公司列表

    引入架包 <dependency><groupId>org.apache.httpcomponents</groupId><artifactId>htt ...

  6. 西山小菜鸟之Scrapy学习笔记---爬取企查查网公司的裁判文书信息

    前言 本文接着上文,爬取企查查的公司裁判文书信息.企查查  本文中若存在不详细的地方欢迎各位大神网友提问,若有错误的地方,希望大家指正.谢谢!! ? ? 粗略分析 点击进入要查询的公司可以进入该公司的 ...

  7. 【Python网络爬虫】企查查高级搜索及批量查询接口爬虫

    写在前面: 本文所介绍的企查查爬虫代码需要用到cookie,且cookie所对应的账号需要为vip或以上等级具有高级搜索和批量查询的功能,无此功能的账号暂不支持: 本文所介绍的是在其他人分析了前端he ...

  8. 读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储

    2019独角兽企业重金招聘Python工程师标准>>> 今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的 ...

  9. 企查查之seleium自动化操作

    企查查之seleium自动化操作:该脚本可按照Excel已有企业名称数据在企查查上自动搜索企业地址,法人等信息. 例如:需要查找重庆上市企业信息,已有企业名称,遂编写该脚本实现自动化操作. 代码连接 ...

最新文章

  1. java 端口8161_ActiveMQ_Windows和Linux版本的安装部署
  2. 为什么美国程序员工作比中国程序员工作轻松、加班少?
  3. Numpy-查看数组的属性
  4. 1130:找第一个只出现一次的字符
  5. 第一章 软件工程概论
  6. 【java】Thread.start 它是怎么让线程启动的呢
  7. 【计算机组成原理】第1章 计算机系统概论
  8. Kubernetes的Service外部访问方式:NodePort和LoadBalancer
  9. 计算机二级公共知识总结,计算机二级公共基础知识考点总结
  10. 【转载】教你使用 Reflexil 反编译.NET
  11. 3DMAX 的重要知识和插件介绍
  12. FPGA学习笔记06——数电基础知识
  13. 开源项目CRMEB 任意文件下载漏洞分析
  14. python-pyecharts雷达图
  15. USB-PPI数据电缆驱动
  16. 图像处理中常用的相似度评估指标
  17. URAL 2037 Richness of binary words (回文子串,找规律)
  18. Java音乐播放器设计
  19. tcpdump arping nsenter
  20. ue4材质节点怎么用_自学ue4材质,一大堆材质节点该如何学?

热门文章

  1. c++string 加引号_Shell 引号嵌套
  2. 驱动开发:Win10枚举完整SSDT地址表
  3. 强智教务系统验证码识别 java
  4. matlab:已知传递函数,求单位阶跃响应
  5. java 列表伸缩,微服务实例自动弹性伸缩实践
  6. [数独进阶技巧]区块摒除法
  7. Mac使用技巧:怎样破解iPhone 锁屏密码
  8. Postgresql多行合并一行
  9. 弱监督目标检测算法论文阅读(三)Improving Object Detection with Inverted Attention
  10. Inverted file index