• 静态数据的采集
    第一个项目我们来抓取拉勾网的招聘信息,话不多说直接开始吧!

1.首先我们导入相关库:

import requests
from lxml import etree
import pandas as pd
from time import sleep
import random

2.查看我们的cookie:

3.设置headers:

cookie = 'user_trace_token=20190329130619-9fcf5ee7-dcc5-4a9b-b82e-53a0eba6862c...LGRID=20190403124044-a4a8c961-55ca-11e9-bd16-5254005c3644'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400','Cookie':'cookie'
}

4.查看网页结构循环页数进行采集:

for i in range(2, 8):sleep(random.randint(3,10))url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)print('正在抓取第{}页...'.format(i), url)
# 请求网页解析con = etree.HTML(requests.get(url=url, headers=headers).text)

5.使用xpath表达式抽取各目标字段:

# 使用xpath表达式抽取各目标字段job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]job_address = [i for i in con.xpath("//span[@class='add']/em/text()")]job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]job_salary = [i for i in con.xpath("//span[@class='money']/text()")]job_links = [i for i in con.xpath("//a[@class='position_link']/@href")]# 获取详情页连接后采集详情页岗位描述信息job_des = []for link in job_links:sleep(random.randint(3,10))con2 = etree.HTML(requests.get(url=link, headers=headers).text)des = [[i.xpath('string(.)') for i in con2.xpath("//div[@class='job-detail']/p")]]job_des += desbreak

6.对数据进行字典封装:

dataset = {'岗位名称':job_name,'工作地址':job_address,'公司名称':job_company,'工资':job_salary,'任职要求':job_des}#转化为数据框并保存为csv
data = pd.DataFrame(dataset)
data.to_csv('machine_learning_LG_job.csv')

7.抓取的结果:

系列传送门:
Python爬虫入门学习笔记
Python爬虫入门学习实战项目(二)

Python爬虫入门学习实战项目(一)相关推荐

  1. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  2. Python爬虫入门学习例子之煎蛋网(福利哦)

    初学Python爬虫,学习资料是这篇博客:Python爬虫入门教程 经过前边两个例子(糗事百科爬虫和百度贴吧爬虫)的学习,我自己写了一个练习的例子:爬煎蛋网的妹子图,福利哦(*^__^*) #煎蛋网爬 ...

  3. Python爬虫入门到实战

    带伙伴们学习python爬虫,准备了几个简单的入门实例,分享给大家. 涉及主要知识点: 1.web是如何交互的 2.requests库的get.post函数的应用 3.response对象的相关函数, ...

  4. 爬虫系列一:十天python爬虫基础学习实战第二天——python基础语法

    第一天已经学会了基本的开发环境的安装,今天,可以开始学习如何写代码了,朋友们! 回顾: 1.爬虫能干什么? 2.python环境安装 3.pycharm安装(IDE) 4.简单打印输出hello wo ...

  5. Python爬虫入门学习(一)

    1.requets 爬虫的一般步骤: 指定url 发起请求 获取响应 持久储存 爬取搜狗首页 import requests# 爬取搜狗的首页 if __name__ == '__main__':ur ...

  6. python爬虫入门学习

    1.什么是爬虫? 爬虫是一种自动化程序,可以批量对指定网页发送请求并得到数据. 2.爬虫流程 1)对网页发送请求并获得网页响应 ①使用urllib.request中的urlopen方法得到http.c ...

  7. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  8. python爬虫入门教程(非常详细),超级简单的Python爬虫教程

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  9. 史上最权威Python爬虫入门教程,15天就能轻松搞定,自嗨玩到爆

    Python是一种简单易学,功能强大的编程语言,它有高效率的高层数据结构,简单而有效地实现面向对象编程.Python简洁的语法和对动态输入的支持,再加上解释性语言的本质,使得它在大多数编程语言的使用场 ...

最新文章

  1. Error-State Kalman filter (ESKF)
  2. 训练 AI 学会通过复制来构建 AI 系统
  3. ArrayList的泛型可以不写吗
  4. Android:Activity(页面)的生存周期
  5. 神经网络基础:七种网络单元,四种层连接方式
  6. 春天重新审视战略模式
  7. Java 9中的进程处理
  8. linux操作系统之全局异步IO及可重入/不可重入函数
  9. 算法工程师的冰与火之歌
  10. html5-5 HTML5表单元素和内嵌框架
  11. java画图中运用缓冲解决屏幕闪烁方案二
  12. virtuozo空三加密_VirtuoZoAAT空三加密中的应用技巧
  13. html求相关系数,皮尔森相关系数怎么看 相关系数多少算具有相关性?
  14. 你必须了解的支撑研究蛋白质组学的3大技术
  15. IAP程序升级(全网最全)
  16. 中国新中产家庭“清洁观”:能躺着不站着,能靠科技不靠手
  17. 【MATLAB】MATLAB 仿真模拟调制系统 — DSB 系统
  18. L1-086 斯德哥尔摩火车上的题
  19. java lambda 反射_反射调用与Lambda表达式调用
  20. 飞鸟如何去爱,才能爱上水里的鱼?

热门文章

  1. U盘识别不出来怎么办?
  2. 我用了10年,从深圳流水线工厂妹到纽约Google程序媛
  3. 使用 cobar 需要分布式 mysql 吗_用cobar搭建分布式数据库
  4. PyQt5制作简易桌面
  5. 世界各国新娘幸福瞬间
  6. LVM---Linux
  7. ios的Safari浏览器下视频播放问题
  8. 基于八叉树的空间划分及搜索操作-阿里云开发者社区
  9. “鸡”不可失,驱动人生助力开启“绝地求生”
  10. 有限责任公司章程(中英文版)