python分支机构_基于Python爬取天眼查网站的企业信息!Python无所不能!
注:这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序,是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 。
python版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬虫思路如下:
1.先获取需要采集信息的公司
2.从数据库中获取
3.获取字段:etid,etname
4.将获取的数据存储的状态表中
5.从状态表中获取数据,并更新状态表
6.拼接初始URL:
7.将etname和初始url进行拼接,获得初始网址
8.将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
9.请求解析初始一级页面
10.验证查询的公司是否正确
11.获取二级页面url
12.将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
13.请求解析二级页面:
14.获取的信息待定
15.将公司的信息存储到数据库中:
16.建表
17.存储信息
所建的表:
企业主要信息: et_host_info
工商信息: et_busi_info
分支机构信息: et_branch_office
软件著作权信息: et_container_copyright_info
网站备案信息: et_conrainer_icp_info
对外投资信息: et_foreign_investment_info
融资信息: et_rongzi_info
股东信息: et_stareholder_info
商标信息: et_trademark_info
python分支机构_基于Python爬取天眼查网站的企业信息!Python无所不能!相关推荐
- python应用:selenium之爬取天眼查信息
inform_table.py 1 # -*-coding:utf8-*- 2 3 from selenium import webdriver 4 from selenium.webdriver.c ...
- Python3爬取企查查网站的企业年表并存入MySQL
Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...
- python爬取天眼查存入excel表格_爬虫案例1——爬取新乡一中官网2018届高考录取名单...
有一种非常常见并且相对简单的网络爬虫,工作流程大概是这样的: 访问目标网页 提取目标网页内表格信息 写入excel文件并保存 初次实践,我决定尝试写一个这样的爬虫.经过一番构思,我准备把爬取新乡一中官 ...
- Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...
- Python爬虫案例3:爬取房天下房价等各种信息
爬取房天下网站,爬取的内容: 区域.小区名.总价.房型.面积.单价.朝向.楼层位置.装修情况.建筑时间.是否有电梯.产权类型.住宅类型.发布日期 信息保存:保存在csv中 数据结果: 1.先建立爬虫项 ...
- 利用node.js写爬虫 爬取某相亲网站全部交友信息
点击查看爬取世纪佳缘相亲交友信息 利用node.js,写了一个爬虫js.1个小时左右的时间,便爬取了2000多条交友信息,包括网名,年龄,图片,学历,工资等.当然,爬取的速度和网速有很大的关系,也和你 ...
- Python自动化爬取天眼查数据
首先要注册一个账号密码,通过账号密码登录,并且滑块验证,自动输入搜索关键词,进行跳转翻页爬取数据,并保存到Excel文件中. 代码运行时,滑块验证经常不通过,被吃掉,但是发现打包成exe运行没有这个问 ...
- python爬取贴吧所有标题的评论_用BS4爬取贴吧文章的作者信息时,如何兼顾爬取高亮的作者信息?...
百度贴吧上的文章信息中,一般的作者信息代码,如下所示: 别让依靠成 而有部分作者信息是橙色的.如下所示: 冰缘瑞雪... # -*-coding:utf-8-*- """ ...
- 爬取天眼查 的python 代码
''' @Description: 天眼查关键词爬取风险信息 @Author: bessie_lina @Date: 2019-08-14 17:39:30 @LastEditTime: 2019-0 ...
最新文章
- python通信测试_Python接口测试实战1(上)- 接口测试理论
- c语言 指针 a= amp b,c语言初学-引用和指针的异同点
- pom.xml中添加阿里云Maven中央仓库配置
- 经典的观点挖掘算法(文本挖掘系列)
- 空间三维直线拟合matlab代码
- Django中的swagger文档
- 责任链模式的高级用法
- 关于净推荐值(NPS)的理解
- 泰坦尼克号比赛大神级分析
- SDL农场游戏开发 1.环境搭建
- 基于GoLang的MMO游戏服务器(四)
- 我使用的安卓软件名单_我是亲民_新浪博客
- 抖音滑块以及轨迹分析
- 算法刷题路线总结与相关资料分享
- matlab中poly2sym什么意思,[转载]sym2poly poly2sym
- threejs辉光通道01(UnrealBloomPass layers)
- 菜单动画_如何在Windows中加速菜单动画
- 美国在线黄页服务提供商YP控股拟竞购雅虎网络资产
- python爬虫案例教程~淘女郎、百度百科文本、规范化爬虫
- oracle大于字符串时间,Oracle