注:这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序,是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 。

python版本:python2.7

编码工具:pycharm

数据存储:mysql

爬虫结构:广度爬虫

爬虫思路如下:

1.先获取需要采集信息的公司

2.从数据库中获取

3.获取字段:etid,etname

4.将获取的数据存储的状态表中

5.从状态表中获取数据,并更新状态表

6.拼接初始URL:

7.将etname和初始url进行拼接,获得初始网址

8.将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

9.请求解析初始一级页面

10.验证查询的公司是否正确

11.获取二级页面url

12.将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

13.请求解析二级页面:

14.获取的信息待定

15.将公司的信息存储到数据库中:

16.建表

17.存储信息

所建的表:

企业主要信息: et_host_info

工商信息: et_busi_info

分支机构信息: et_branch_office

软件著作权信息: et_container_copyright_info

网站备案信息: et_conrainer_icp_info

对外投资信息: et_foreign_investment_info

融资信息: et_rongzi_info

股东信息: et_stareholder_info

商标信息: et_trademark_info

python分支机构_基于Python爬取天眼查网站的企业信息!Python无所不能!相关推荐

  1. python应用:selenium之爬取天眼查信息

    inform_table.py 1 # -*-coding:utf8-*- 2 3 from selenium import webdriver 4 from selenium.webdriver.c ...

  2. Python3爬取企查查网站的企业年表并存入MySQL

    Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...

  3. python爬取天眼查存入excel表格_爬虫案例1——爬取新乡一中官网2018届高考录取名单...

    有一种非常常见并且相对简单的网络爬虫,工作流程大概是这样的: 访问目标网页 提取目标网页内表格信息 写入excel文件并保存 初次实践,我决定尝试写一个这样的爬虫.经过一番构思,我准备把爬取新乡一中官 ...

  4. Python爬虫之利用xpath爬取ip代理网站的代理ip

    爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...

  5. Python爬虫案例3:爬取房天下房价等各种信息

    爬取房天下网站,爬取的内容: 区域.小区名.总价.房型.面积.单价.朝向.楼层位置.装修情况.建筑时间.是否有电梯.产权类型.住宅类型.发布日期 信息保存:保存在csv中 数据结果: 1.先建立爬虫项 ...

  6. 利用node.js写爬虫 爬取某相亲网站全部交友信息

    点击查看爬取世纪佳缘相亲交友信息 利用node.js,写了一个爬虫js.1个小时左右的时间,便爬取了2000多条交友信息,包括网名,年龄,图片,学历,工资等.当然,爬取的速度和网速有很大的关系,也和你 ...

  7. Python自动化爬取天眼查数据

    首先要注册一个账号密码,通过账号密码登录,并且滑块验证,自动输入搜索关键词,进行跳转翻页爬取数据,并保存到Excel文件中. 代码运行时,滑块验证经常不通过,被吃掉,但是发现打包成exe运行没有这个问 ...

  8. python爬取贴吧所有标题的评论_用BS4爬取贴吧文章的作者信息时,如何兼顾爬取高亮的作者信息?...

    百度贴吧上的文章信息中,一般的作者信息代码,如下所示: 别让依靠成 而有部分作者信息是橙色的.如下所示: 冰缘瑞雪... # -*-coding:utf-8-*- """ ...

  9. 爬取天眼查 的python 代码

    ''' @Description: 天眼查关键词爬取风险信息 @Author: bessie_lina @Date: 2019-08-14 17:39:30 @LastEditTime: 2019-0 ...

最新文章

  1. python通信测试_Python接口测试实战1(上)- 接口测试理论
  2. c语言 指针 a= amp b,c语言初学-引用和指针的异同点
  3. pom.xml中添加阿里云Maven中央仓库配置
  4. 经典的观点挖掘算法(文本挖掘系列)
  5. 空间三维直线拟合matlab代码
  6. Django中的swagger文档
  7. 责任链模式的高级用法
  8. 关于净推荐值(NPS)的理解
  9. 泰坦尼克号比赛大神级分析
  10. SDL农场游戏开发 1.环境搭建
  11. 基于GoLang的MMO游戏服务器(四)
  12. 我使用的安卓软件名单_我是亲民_新浪博客
  13. 抖音滑块以及轨迹分析
  14. 算法刷题路线总结与相关资料分享
  15. matlab中poly2sym什么意思,[转载]sym2poly   poly2sym
  16. threejs辉光通道01(UnrealBloomPass layers)
  17. 菜单动画_如何在Windows中加速菜单动画
  18. 美国在线黄页服务提供商YP控股拟竞购雅虎网络资产
  19. python爬虫案例教程~淘女郎、百度百科文本、规范化爬虫
  20. oracle大于字符串时间,Oracle

热门文章

  1. css实现背景动态效果图
  2. 打印1000~2000年之间的闰年
  3. 夏日汽车保养 雨季汽车保养
  4. win7c盘空间越来越小_你Windows10的C盘究竟多大才合适
  5. 服务器系统怎么关机,服务器怎么关机了
  6. EDK II Module Writers Guide上
  7. 微信发朋友圈测试用例
  8. 数据合并中pd.merge()和pd.concat()区别
  9. 电源设计那些事儿-ppt01
  10. 2019 ICPC 上海站网络赛 K.Peekaboo (圆上整点)