python内容目标_python抓取一个页面的目标网址,然后抓取目标网址里的内容
这次测试的是招聘页面
https://www.liepin.com/zhaopin/?key=python
目标是先抓取到里面各个公司职位介绍的链接,然后在根据链接抓取到里面根据职位的介绍。
代码如下:正则匹配见注释。
#coding=utf-8
'''流程 先抓目标网页,然后抓取和匹配目标网址,然后把目标网址变成要抓的网页,然后进行抓取和匹配'''
import re,requests,time
diyihtml = requests.get("https://www.liepin.com/zhaopin/?key=python").text
for urllist1 in re.findall(r'见注释-正则1',diyihtml,re.S):
urllist1 = urllist1.replace("https://www.liepin.com","")#发现有部分不是标准的链接,这里就先删掉前面的,然后统一添加。
urllist1 = "https://www.liepin.com"+urllist1
print(urllist1)
time.sleep(10)
zhaopinhtml = requests.get(urllist1).text
for title,daiyu,diqu,nianxian,miaoshu in re.findall(r'见注释-正则2',zhaopinhtml,re.S):
jieguo = title+"&"+daiyu+"&"+diqu+"&"+nianxian+"&"+miaoshu
print(jieguo)
.*?
(.*?)
-->
分享到:
python内容目标_python抓取一个页面的目标网址,然后抓取目标网址里的内容相关推荐
- Scrapy爬取动态页面下载图片(以抓取360图片为例)
当我们想要抓取一个页面的内容时,要做的第一件事不是写代码,而是分析页面,确定这是一个静态页面还是动态页面.抓取静态页面的方法十分简单,直接解析html源码再进行分析解析即可,如果不太明白,可以参考我上 ...
- python读取文件_python这么受欢迎,你知道如何以正确的方式来读取文件内容吗
前言 对于互联网的开发人员来说,读取写入文件几乎是代码中常见的一种操作.但是经常性的打开关闭文件,浪费资源不说,当文件大的时候读取的效率也不高.所以今天我们一起看一个便捷的模块linecache.li ...
- mysql查询结果随机取一个_从SQL查询结果随机取一条数据
最近工作中会涉及复杂的SQL语句,还是挺有意思的.以前想写没有应用场景,现在正好可以多锻炼锻炼.我觉得在实际开发中,程序代码并不是最难的,最难的还是SQL.SQL逻辑性最强,而且还要很清楚表设计,业务 ...
- python duplicated函数_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...
Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值) 摘要 在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值. 这 ...
- python 北上资金_python爬虫技术:北向资金数据自动爬取!
好久不见!今天我们继续python的话题啦.python现在势头凶得很,没事刷抖音.刷朋友圈.看公众号,弹出的广告总少不了python."python带你发家致富,财富自由!"广告 ...
- python arp脚本_Python scapy 实现一个简易 arp 攻击脚本
scapy是python写的一个功能强大的交互式数据包处理程序,可用来发送.嗅探.解析和伪造网络数据包,常常被用到网络攻击和测试中. scapy的安装在Linux非常便利,但在Windows下比较复杂 ...
- python教程输入_python怎么输入一个集合
set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集.差集.并集等. set 语法: class set([iterable]) 参数说明: iterable -- 可 ...
- python求近似值_python 已知一个字符,在一个list中找出近似值或相似值实现模糊匹配...
已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...
- python cms模板_python基础-第一个python程序
前言 上一章中,我们介绍了怎么去安装python环境,作为我们入门python的先决条件,今天,我们通过编写第一个python应用程序的方式,正式进入python的大门. 首先,关于python,有两 ...
最新文章
- 如何使用Web Service新建和更新Wiki页面的内容
- spring boot actuator工作原理之http服务暴露源码分析
- 设计新Xlator扩展GlusterFS[转]
- (1) openssl基础概念
- 微型计算机c240,PC微机原理实验.doc
- 云南公务员计算机类岗竞争大吗,2020云南省考难吗?楚雄州历年竞争比、进面分数告诉你...
- 计算机专业颈椎有问题,出现这4个表现,你的颈椎病已经很严重了!上班族尤需警惕_39健康网...
- 本地配置DNS服务器(MAC版)
- Android(java)学习笔记164:开发一个多界面的应用程序之不同界面间互相传递数据(短信助手案例)...
- Excel develop
- hadoop10---消息队列
- 2014蓝桥杯C++A:猜年龄;扑克序列(全排列)
- 放两个关于角色与权限的文章供自己参考
- MFC在指定控件区域内进行一些操作
- 新手常见(五国)(-v图)错误解决(原版,破解kernel,补丁kext下载)
- ubuntu16.04 安装微信客户端
- 爱情从来就没有愚人节
- 多硬盘分区管理fdisk-张丹
- JavaScript 解析json例子
- python初学者爬虫教程(二)动态网页抓取
热门文章
- 布尔操作的“骤死式”(short-circuiting behavior)
- 从二分逼近领略计算科学的魅力
- c语言50个小程序,C语言50小程序.doc
- excel 日期加时间java程序里被转成浮点型_Java工具类之:包装类
- 没有基础的人可以学python吗-没有任何基础的人,该如何学习Python?「附具体步骤」...
- python安装教程-最新Python安装图文教程[很详细]
- python可以做什么-学会Python后都能做什么?网友们的回答简直不要太厉害
- python和c++哪个好-C/C++和Python哪个更有前景?
- 苹果 iPhone/iPad 第三方键盘为何没语音听写功能?真相了
- html鼠标感应图片,jQuery实现的感应鼠标悬停图片色彩渐显效果