Python爬虫入门学习实战项目（一）

静态数据的采集
第一个项目我们来抓取拉勾网的招聘信息，话不多说直接开始吧！

1.首先我们导入相关库：

import requests
from lxml import etree
import pandas as pd
from time import sleep
import random

2.查看我们的cookie：

3.设置headers：

cookie = 'user_trace_token=20190329130619-9fcf5ee7-dcc5-4a9b-b82e-53a0eba6862c...LGRID=20190403124044-a4a8c961-55ca-11e9-bd16-5254005c3644'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400','Cookie':'cookie'
}

4.查看网页结构循环页数进行采集:

for i in range(2, 8):sleep(random.randint(3,10))url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)print('正在抓取第{}页...'.format(i), url)
# 请求网页解析con = etree.HTML(requests.get(url=url, headers=headers).text)

5.使用xpath表达式抽取各目标字段:

# 使用xpath表达式抽取各目标字段job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]job_address = [i for i in con.xpath("//span[@class='add']/em/text()")]job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]job_salary = [i for i in con.xpath("//span[@class='money']/text()")]job_links = [i for i in con.xpath("//a[@class='position_link']/@href")]# 获取详情页连接后采集详情页岗位描述信息job_des = []for link in job_links:sleep(random.randint(3,10))con2 = etree.HTML(requests.get(url=link, headers=headers).text)des = [[i.xpath('string(.)') for i in con2.xpath("//div[@class='job-detail']/p")]]job_des += desbreak

6.对数据进行字典封装:

dataset = {'岗位名称':job_name,'工作地址':job_address,'公司名称':job_company,'工资':job_salary,'任职要求':job_des}#转化为数据框并保存为csv
data = pd.DataFrame(dataset)
data.to_csv('machine_learning_LG_job.csv')

7.抓取的结果：

系列传送门：
Python爬虫入门学习笔记
Python爬虫入门学习实战项目（二）

Python爬虫入门学习实战项目（一）相关推荐

慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述
原标题:零基础Python爬虫入门学习一之综述大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...
Python爬虫入门学习例子之煎蛋网（福利哦）
初学Python爬虫,学习资料是这篇博客:Python爬虫入门教程经过前边两个例子(糗事百科爬虫和百度贴吧爬虫)的学习,我自己写了一个练习的例子:爬煎蛋网的妹子图,福利哦(*^__^*) #煎蛋网爬 ...
Python爬虫入门到实战
带伙伴们学习python爬虫,准备了几个简单的入门实例,分享给大家. 涉及主要知识点: 1.web是如何交互的 2.requests库的get.post函数的应用 3.response对象的相关函数, ...
爬虫系列一：十天python爬虫基础学习实战第二天——python基础语法
第一天已经学会了基本的开发环境的安装,今天,可以开始学习如何写代码了,朋友们! 回顾: 1.爬虫能干什么? 2.python环境安装 3.pycharm安装(IDE) 4.简单打印输出hello wo ...
Python爬虫入门学习（一）
1.requets 爬虫的一般步骤: 指定url 发起请求获取响应持久储存爬取搜狗首页 import requests# 爬取搜狗的首页 if __name__ == '__main__':ur ...
python爬虫入门学习
1.什么是爬虫? 爬虫是一种自动化程序,可以批量对指定网页发送请求并得到数据. 2.爬虫流程 1)对网页发送请求并获得网页响应 ①使用urllib.request中的urlopen方法得到http.c ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
python爬虫入门教程(非常详细),超级简单的Python爬虫教程
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
史上最权威Python爬虫入门教程，15天就能轻松搞定，自嗨玩到爆
Python是一种简单易学,功能强大的编程语言,它有高效率的高层数据结构,简单而有效地实现面向对象编程.Python简洁的语法和对动态输入的支持,再加上解释性语言的本质,使得它在大多数编程语言的使用场 ...

Python爬虫入门学习实战项目（一）

Python爬虫入门学习实战项目（一）相关推荐

最新文章

热门文章