信用中国(重庆)

一、平台介绍

网址:http://www.creditsc.gov.cn

该网站主要收集了重庆市企业名录库,当前总计151万 条结果,2020年重庆市公布的市场主体已经有280万市场主体。该重庆新用户中的150万条,主要是公司类型:有限公司,个人独资公司,集团公司……其中不包含个体工商。

二、全量数据抓取分析:

重庆信用平台相对其他平台抓取简单地多,我们可以访问搜索界面,

网站: http://www.xycq.gov.cn/html/query/credit/list.html

通过该页面,我们可以看到反话的总数,企业名称和信用代码,这里可以通过页面不断的变化就能抓取了所以企业信息。这里页面显示虽然只有10页,但是可以通过其方式来遍历所以数据,我这里就不相信讲解。

三、新增企业抓取:

网站存储企业id直接是id自增长 例如URL :http://www.xycq.gov.cn/html/query/credit/detail.html?ids=962445 中的ids就企业id,我们可以通过id添加的方式来实现抓取最新企业。只要我们不断的记录最大的id,这样就能实现企业新增抓取,通用用这个方式也可以抓取全量数据。

企业详情抓取详情页面:http://www.xycq.gov.cn/html/query/credit/detail.html?ids=1354468&contentType=1

信用中国(重庆),给的工商注册数据相对比较少主要是

名称、 统一社会信用代码、地址、工商注册号、法人信息、成立日期、企业类型、注册机关;

行政许可、行政处罚、守信红名单、黑名单;这些基本信息,同时也缺少,注册资本,经营范围等等重要的工商注册信息。

但对于要求不高这些信息住够满足基本需求。

4、信息补充

重庆信用中国公布的工商信息相对比较少,我们可以通过抓取的名称到国家工商局和第三方企业平台(企查查、天眼查)  去查询相关的详细信息(我这里就不解释如果通过其他平台取得更大信息  。由于信用中国(重庆)只提供了公司,对需要个体数据也是一个相对的难点,我在这里推荐一个专门的重庆工商数据接口平台(https://www.tngou.net/doc/show/2  ),其中就提供了企业和个体接口列表:

1、企业列表接口:https://www.tngou.net/openapi/v1/comp/complist?api_id=1&ProvinceCode=50&Type=1&sign=236cd91fe607bb380cd0238ace653dc5&ssl=on

2、个体工商接口:https://www.tngou.net/openapi/v1/comp/complist?api_id=1&ProvinceCode=50&Type=0&sign=d0c0d1e84a1fca515b2bd020c2a6e2ba&ssl=on

通过这两个接口就能取到重庆市全量的企业和个体。

重庆市企业数据名录爬取采集-信用中国(重庆)相关推荐

  1. python爬虫企业数据_python爬取企业名录并入库

    #!/usr/bin/env python2#-*-coding:utf-8-*- '''@version: python2.7 @author: 'zyjsuper' @license: Apach ...

  2. 大数据信息资料采集:影视网站资源数据信息采集爬取

    大数据信息资料采集:影视网站资源数据信息采集爬取 发展 影视作为电影艺术和电视艺术的统称,是现代科学技术与艺术相结合的产物.通过画面.声音.蒙太奇.故事情节等语言 来传达与表现. 例如经典影视作品:由 ...

  3. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  4. 如何爬一个网站的数据-免费爬取网站的任意数据软件

    如何爬一个网站的数据?爬取网络数据大家称之为网络爬行 收集页面以创建索引或集合.另一方面,网络抓取下载页面以提取一组特定的数据用于分析目的,例如,产品详细信息.定价信息.SEO 数据或任何其他数据集. ...

  5. 爬取并处理中国新冠肺炎疫情数据

    项目名称: 爬取并处理中国新冠肺炎疫情数据 目的: 通过Python爬取中国新冠肺炎疫情数据,存入Excel,对此数据分析并进行可视化,制作查询中国疫情情况的GUI界面. 具体内容: 通过Python ...

  6. 生成osm文件_超酷城市肌理!地理数据信息爬取方法大全(B篇)DEM+POI+OSM

    WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...

  7. python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法

    爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...

  8. Python实现对主要城市及其周边地区天气数据的爬取

    python爬虫学习爬虫(爬取指定网站数据) Python实现对主要城市及其周边地区天气数据的爬取,关键步骤已经做了注释此版本仅是初学者的学习版,不喜勿喷 #coding: utf-8 import ...

  9. python 北上资金_python爬虫技术:北向资金数据自动爬取!

    好久不见!今天我们继续python的话题啦.python现在势头凶得很,没事刷抖音.刷朋友圈.看公众号,弹出的广告总少不了python."python带你发家致富,财富自由!"广告 ...

  10. scrapy框架之全站数据的爬取

    全站数据的爬取有俩种方式: 1.基于spider的全站数据爬取:需要自己进行分页操作,并进行手动发送请求 2.基于CrawlSpider ,今天主要讲解基于CrawlSpider 的爬取方式 Craw ...

最新文章

  1. 学习编译原理对下面这段java跳不出死循环大概能有较好的解释吧
  2. ICinsights:中国芯片难达成既定的2025目标
  3. 如何删除 AWS 资源以及关闭账户(来自亚马逊官方提供文档,记录一下方便查看)
  4. 【STM32】 keil软件工具--Configuration详解(上)
  5. lua-resty-iputils, 在Openresty中,用于处理IP地址的实用程序函数
  6. macOS 使用手册
  7. Web前端性能优化,应该怎么做?
  8. ArcGIS的BLOB字段与Access数据库BLOB字段的交换
  9. tx2 刷机, cudnn安装失败,手动安装
  10. idea下载源码出现:Cannot download sources Sources not found for: org.apache.kafka:kafka-clients:2.3.0
  11. [Windows]win10时间同步错误的解决方法
  12. PDCA 原则与Smart原则
  13. 一文讲解AGV机器人的12种导航导引方式,收藏备用
  14. TOPcoder准备
  15. 全国大学生英语竞赛C类
  16. LOL-无双剑姬我的最爱
  17. 通过命令行操作iOS模拟器
  18. 随机梯度下降法步长的选择
  19. 软件测试工程师职业发展漫谈
  20. 阿萨德阿斯顿的的点点滴滴

热门文章

  1. 读书——我本将心向明月,奈何明月照沟渠。知我者谓我心忧,不知我者谓我何求。...
  2. 地图学:专题地图制作详细步骤
  3. 触动精灵 alilib
  4. 二、es的可视化工具:Kibana及练习
  5. iOS 面向切面编程与typhoon框架
  6. unbuntu 安装docker
  7. i7台式电脑配置推荐_高配游戏电脑 intel酷睿i7-8700配RTX2070六核台式电脑配置清单表...
  8. 浅谈使用postman的CryptoJS.MD5加密带有中文(已进行unicode编码)以及url的字符串与md5在线加密工具加密不一致的原因,附加解决方法。
  9. 正版rust30005_预算大概在3000以内可以买猫吗?
  10. 《心灵捕手》经典台词