任务要求:

爬取实习僧网站的招聘公司信息和职位信息,并存储到数据库中,对应的数据库表和需要爬取的字段见下面表一和表二(注意:爬取存在的字段)

代码以上传带github上:使用requests爬取实习僧网站数据

看一下爬下来的结果图:

公司信息:

职业信息:

1. 检查是否有api

        

2. 选择需要连接的数据库

mysql

3. 数据流分析

  • 确定爬取的范围
    部分页
  • 切入源头
    https://www.shixiseng.com/interns?k=&t=zj&p=1
  • 多层网络结构间跳转流程
    更改参数p进行爬取
  • 范围细分

4. 数据采集

  • 请求模块
    requests
  • 解析工具
    xpath
  • 数据存储
    mysql
  • 爬虫效率提升问题
    使用多协程

5. 反反爬虫

        会有请求失败的问题:通过添加请求头解决


遇到的问题:

        1. 在爬取的字符串数据中值需要一部分:使用split将字符串进行切割
2. 判断爬取的数据是否是你需要的:使用if判断a字符串是否在b中
3. 爬取停止:sys.exit('tingzhi')4.crontab定时任务:- 先vim /var/spool/cron/root  (打开这个文件)- 添加任务:每天的第一个小时的第一个分钟执行1 1*** python /root/lezhi/爬取实习僧/spider_shixiseng.py- esc 之后 :wq保存退出**部署问题:**screen -x 20156  (打开后台状态为 Attached 且名称为 django 的 screen shell)vim 编译器:  (冒号进入编译模式)q 退出w 保存i 编辑screen -X -S 4588 quit  (杀死一个已经detached的screen会话  )

使用requests爬取实习僧网站数据相关推荐

  1. 利用python爬取实习僧网站上的数据

    最近在找实习,就顺便想到用python爬取一些职位信息看看,有哪些岗位比较缺人. #_*_coding:utf-8_*_import requests from bs4 import Beautifu ...

  2. 爬虫实战:链家租房数据爬取,实习僧网站数据爬取

    前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战 链家网站爬取 实习僧网站爬 ...

  3. 将爬取的实习僧网站数据传入HDFS

     一.引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的.实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划. 那么,一份好的实习应该考量哪些因素呢? ...

  4. Python爬虫新手入门教学(十四):爬取有声小说网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. selenium + bs4 +requests 爬取全国电动汽车充电站数据

    0.说明 本文章仅用于python爬虫的学习,爬取到的数据仅用于学习.竞赛等非营利活动,如有侵权请及时联系. 1.简单介绍 我们在爬虫时,往往都是静态界面,或者没有嵌套的的界面,直接使用request ...

  6. python爬虫爬取实习僧岗位信息并存入excel数据表中

    欢迎访问我的个人网站http://liubofeng.com 网页分析 博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...

  7. python爬取实习僧招聘信息字体反爬

    参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...

  8. 爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

  9. python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

最新文章

  1. Invocation of init method failed; nested exception is org.hibernate.InvalidMappingException: Could n
  2. 3D游戏引擎设计 实时计算机图形学的应用方法 第2版 pdf 带索引书签目录
  3. Java、Android—零碎难记笔试考点(持续更新)
  4. angular jwt_Angular5 JWT身份验证(Spring Boot安全性)
  5. 华为云鲲鹏云服务器RC6正式公测,多元算力加速企业创新升级
  6. NetSpeedMonitor for mac
  7. verilog赋多位值_verilog语句两个always块对同一个变量赋值问题!【恢复】
  8. 《Unity Shader入门精要》冯乐乐著 书中彩图
  9. SQL练习:查询各科成绩前三名的记录
  10. Docker详细学习文档
  11. 金山WPS c++ 二面面经
  12. ARVR | AR技术发展简史(下)
  13. Mac小教程:Mac电脑怎么安装新字体
  14. 入冬的寒冷让人更精神
  15. 拉勾网主页面HTML+CSS布局代码,commen.css+reset.css代码部分
  16. (九五至尊)九大管理体系,五大过程组:软考高级信息系统项目管理师
  17. Threejs—BIM管道流向动态效果
  18. 电子招标采购系统源码—互联网+招标采购
  19. Helm部署服务前自定义Chart包默认的配置参数(四)
  20. js调用windows.Print打印去掉页眉页脚

热门文章

  1. matlab怎么取消科学计数法_在MATLAB中更改数据科学计数法
  2. win11 任务栏显示所有图标 不需要任何插件 (win11 22h2 版本已失效)
  3. 删除Linux虚拟机中的/dev/sdb磁盘步骤
  4. Weakly-supervised Online Hashing
  5. 7-1 打印九九口诀表 (15分)
  6. 电脑连接电视的方法---HDMI篇
  7. Eclipse 创建 Android 模拟器
  8. 在企业中应用的区块链应能够扩容以满足业务条线的需求
  9. Android 自定义相机 切换相机 参考线(辅助线) 闪光灯 缩放 自动聚焦 Demo
  10. canvas画一个圆锥