天眼查数据采集与分析
1、天眼查是什么
天眼查是由商业查询平台,在基于独有核心技术图数据库的基础上, 构建了完备的集数据采集、数据清洗、数据聚合、数据建模、数据产品化为一体的大数据解决方案。 秉持“让每个人公平地看清这个世界”的使命,坚持采用公开等数据,天眼查系列产品不仅可以可视化呈现复杂的商业关系, 还可以深度挖掘和分析相关数据,预警风险等。 作为“商业安全工具”,天眼查收录了2.8亿家社会实体信息(含企业、事业单位、基金会、学校、律所等), 300多种维度信息批量实时更新,实现了从洞察风险到预警风险的全方位把控,针对个人、企业、政府都有相应的解决方案。
2、天眼查数据如何采集
方法一: 用python的request方法

   用python的request方法,直接原生态代码,python感觉是为了爬虫和大数据而生的,我平时做的网络分布式爬虫、图像识别、AI模型都是用python,因为python有很多现存的库直接可以调用,比如您需要做个简单爬虫,比如我想采集天眼查 几行代码就可以搞定了,核心代码如下:

import requests #引用reques库

response=request.get(‘https://www.tianyancha.com’)#用get模拟请求

print(response.text) #已经采集出来了,也许您会觉好神奇!

方法二、用selenium模拟浏览器

selenium是一个专门采集反爬很厉害的网站经常使用的工具,它主要是可以模拟浏览器去打开访问您需要采集的目标网站了,比如您需要采集天眼查或者企查查或者是淘宝、58、京东等各种商业的网站,那么这种网站服务端做了反爬技术了,如果您还是用python的request.get方法就容易被识别,被封IP。这个时候如果您对数据采集速度要求不太高,比如您一天只是采集几万条数据而已,那么这个工具是非常适合的。我当时在处理商标网时候也是用selenum,后面改用JS逆向了,如果您需要采集几百万几千万怎么办呢?下面的方法就可以用上了。

方法三、用scrapy进行分布式高速采集

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy 特点是异步高效分布式爬虫架构,可以开多进程 多线程池进行批量分布式采集。 比如您想采集1000万的数据,您就可以多设置几个结点和线程。Scrapy也有缺点的,它基于 twisted 框架,运行中的 exception 是不会干掉 reactor(反应器),并且异步框架出错后 是不会停掉其他任务的,数据出错后难以察觉。

方法四:用Crawley

Crawley也是python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。它是基于Eventlet构建的高速网络爬虫框架、可以将爬取的数据导入为Json、XML格式。支持非关系数据跨、支持使用Cookie登录或访问那些只有登录才可以访问的网页。

方法五:用PySpider

相对于Scrapy框架而言,PySpider框架是一支新秀。它采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。 PPySpider的特点是ython脚本控制,可以用任何你喜欢的html解析包,Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。用它做个两个外贸网站采集的项目,感觉还不错。
3、天眼查数据统计分析
截止2021-10月
数据表 备注 条数
td_gov_company 统一社会信用代码 162606702
td_gov_company_abnormal 经营异常 21886417
td_gov_company_announcementcourt 开庭公告 3241318
td_gov_company_basic 工商注册 150653722
td_gov_company_branch 分支机构 2336817
td_gov_company_certificate 资质证书 4291055
td_gov_company_changerecord 变更记录 130089393
td_gov_company_clients 客户 1246123
td_gov_company_commontaxpayer 一般纳税人 2367969
td_gov_company_copyright 软件著作权 5244735
td_gov_company_directors 主要人员 150279522
td_gov_company_discredit 失信被执行人 884913
td_gov_company_email 邮箱 24083161
td_gov_company_extend 扩展信息 4371708
td_gov_company_firmproduct 企业业务 203395
td_gov_company_icpinfo 网站备案 842407
td_gov_company_importandexport 进出口信用 598564
td_gov_company_invest 对外投资 3423743
td_gov_company_jingpin 竞品信息 1508922
td_gov_company_license 行政许可 26809405
td_gov_company_mark 商标信息 35525766
td_gov_company_microblog 微博 379236
td_gov_company_mobilephone 手机号 52698050
td_gov_company_nianbao 年报 15005094
td_gov_company_patent 专利信息 3584832
td_gov_company_punishment 行政处罚 2093647
td_gov_company_rongzi 融资历程 52027
td_gov_company_shares 股东信息 86800164
td_gov_company_stockfreeze 股权冻结 655378
td_gov_company_supplies 供应商 626045
td_gov_company_taxcredit 税务评级 2593554
td_gov_company_telephone 固定电话 13179293
td_gov_company_wechatoa 公众号 271767
td_gov_company_workright 作品著作权 6152970
样图:
链接:https://pan.baidu.com/s/1fluTfgFlNZZatXXMpIRu5Q
提取码:7777
4、用途
 a、天眼查是一款 “都能用的商业调查工具”,实现了企业信息、企业发展、司法风险、经营风险、经营状况、知识产权等40种数据维度查询(企业工商信息、法律诉讼、法院公告、商标专利、向外投资、分支机构、变更信息、债券、网站备案、著作权、招投标、失信、经营异常、企业年报、招聘及新闻动态等),深度商业"关系梳理",专业信用报告呈现等功能。适合金融、投资、律师、咨询、记者、商务等人士。
  b、应用简介
  天眼查是一款手机应用软件。天眼查是以公开数据为切入点、以关系为核心的产品,在帮助传统企业或个人降低成本、防范化解金融风险方面提供了产品化的解决方案。例如,金融担保机构可通过天眼查所提供的信息查询及关系挖掘服务,高效率获取更多更全面可靠的借贷企业的经营状况信息,以确保借贷资金的安全性,同时也为媒体在新闻报道中提供高效、可靠的线索查询渠道,优化信息求证方式。
  c、主要功能
  主要提供专业的企业信息查询、企业关系挖掘服务。天眼查为用户提供搜索查询功能,主要信息包括:工商信息、涉诉信息、商标专利、失信信息、企业变更与企业年报、以及企业关联关系查询等。天眼查实现了全量工商数据、商标数据、公开诉讼数据的融合,以及对企业关系的深度挖掘。

天眼查数据采集、分析、深度挖掘相关推荐

  1. 天眼查app协议逆向分析

    准备工具 脱壳工具:Fdex2 查壳工具:apk messager 抓包工具:Fiddler 分析工具:jadx hook框架:Frida 手机:root 的真机Android 7.0(模拟器一堆问题 ...

  2. C端企业信息查询网站对比分析:企查查vs天眼查vs启信宝

    近年来随着商业环境向好,伴随着国家暖企稳企利好政策的实施,新增企业数量逐年增加,中小微企业的增速尤其明显.但新增企业相关信息查找难度大,越来越多的个人用户和企业对于获取和查询企业信息的需求日益增长,因 ...

  3. “二查”再开打:企查查控诉天眼查窃取数据

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 近日,企查查官方微博发布<关于天眼查窃取数据的控诉>声明,并表示:"我们谢绝一切偷盗行为!目前我们已将相关数据信息取证,并同 ...

  4. 深度挖掘论文:《Semantic Soft Segmentation》(语义软分割)

    最近花了一段时间研究英语论文Semantic Soft Segmentation,把自己收集的知识点分享下. ###内容目录 ###论文摘要 深度挖掘论文:<Semantic Soft Segm ...

  5. 智慧城市的背后是大数据的深度挖掘和利用

    原文链接 摘要: 智慧城市主要以信息技术为支撑,发展智慧城市的目的是为了科学化地决策,提高管理效率,同时也为了资源配置的高效和集约.可见智慧城市的背后,实质是大数据的深度挖掘和利用.由国家政策层面传递 ...

  6. 基于TCGA及SEER等癌症公共数据库的深度挖掘和科研设计会议

    基于TCGA及SEER等癌症公共数据库的深度挖掘和科研设计 培训通知 各事业单位: 身处大数据时代,对于从事肿瘤研究的临床医生或基础科研人员,有没有一种可以既不做实验又不查病史,直接调用公共数据撰写发 ...

  7. 2018信用服务业市场:天眼查、企查查、启信宝、企查猫处第一梯队

    信用服务业概况及特征 信用服务本质上是帮助市场交易主体解决信息不对称的一种信息咨询活动.在国外,信用服务业可细分为十个分支行业,即企业资信调查(企业征信).消费者征信(个人征信).财产征信.资信征信. ...

  8. 天眼查sign 算法破解

    天眼查sign 算法破解 最近真的在sign算法破解上一去不复返 前几天看过了企查查的sign破解 今天再看看天眼查的sign算法破解,说的好(zhuang)点(bi)就是破解,不好的就是这是很简单的 ...

  9. 深度挖掘 Laravel 生命周期

    本文首发于个人博客 深度挖掘 Laravel 生命周期,转载请注明出处. 这篇文章我们来聊聊 「Laravel 生命周期」 这个主题.虽然网络上已经有很多关于这个主题的探讨,但这个主题依然值得我们去研 ...

  10. 使用python实现的天眼查小工具

    此文章已同步更新至我的个人博客https://simonting.gitee.io 前言 帮老同学写的一个python脚本,具体需求主要是绘制一个面板,连接数据库,输入公司名称关键字,查询满足要求的数 ...

最新文章

  1. swift -charts框架雷达图
  2. 《征服C指针》作者语录
  3. 棋盘覆盖问题原理及演示程序
  4. LeetCode LFU Cache
  5. linux下使用idl生成h文件,LINIUX下IDL的安装
  6. 深入理解Struts2
  7. C语言 记录程序运行时间(以秒为单位)
  8. 网易笔试题:最大的奇约数
  9. Apollo进阶课程㉘丨Apollo控制技术详解——基于模型的控制方法
  10. Java内部类 Inner Class
  11. spark学习-29-源代码解析从start-all.sh脚本开始
  12. 自学前端两三个月,很迷茫,有大佬可以指导吗?
  13. Win10 配置 Python 环境变量
  14. v8声卡怎么录制唱歌_直播声卡怎么连接V8 V8声卡连接方法教程
  15. java visual foxpro_从Java访问Visual FoxPro数据库
  16. 云原生 Kuma 简单部署与使用
  17. 5.2为每种类型的模块内聚举一个例子
  18. 软件工程经济学期末复习
  19. 在centos7上编译EDK2
  20. 瑞吉外卖项目学习笔记01

热门文章

  1. 微信每天加多少人不会封号?(行业经验)
  2. 浅谈搜索引擎优化方法
  3. 掌握搜索引擎优化方法使关键词快速排名
  4. 什么是配置文件,以及如何编辑它们?
  5. ipa在线安装搭建_iOS 可以永久安装IPA软件了,前提是……
  6. 有哪些公共管理或行政管理学习帮助较大的外文期刊?
  7. C语言 数组排序 – 冒泡排序
  8. mysql里一个中文多少个字节_mysql里中文占多少个字节?
  9. 基于属性词补全的武器装备属性抽取研究
  10. 最小-最大搜索和Alpha-beta剪枝搜索