爬虫技术python代码_Python 你见过三行代码的爬虫吗
Python实用宝典每次讲爬虫的时候都会从“发送请求” 开始讲,讲到解析页面的时候可能大部分读者都会卡住,因为这部分确实需要一点XPATH或者CSS选择器的前置知识。那么有没有不需要这么复杂的操作就能把页面信息读取出来的方法呢?
答案是:有。
Lassie是一个超简单的页面信息检索工具,它能够通过几行代码就获取到页面上的静态信息,比如:页面描述、视频链接、页面标题,页面关键词、图像链接等等。
为什么超简单?感受一下:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
你只要fetch一下页面,就能得到以下的运行结果(输出为字典):
1.安装
如果你还没有安装Python,推荐阅读这篇文章:Python安装。
安装完成后,请打开你的CMD/Terminal(终端)输入以下命令:
pip install lassie
即可成功安装lassie.
2.使用
让我们举个栗子,用这个工具爬取Python实用宝典上篇文章的图片链接:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
结果:
[{'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'secure_src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'og:image'}, {'src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'twitter:image'},{'src': 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg', 'type': 'favicon'}]
当然,我们可以用列表解析式,把所有链接放到一个数组里:
print([i['src']foriindata['images']])
结果:
['https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg']
怎么样,是不是这个库拿来爬静态页面实在太方便了!唯一的缺点就是它无法爬取页面中详细的文本内容,仅仅能用来提取图片、视频和页面相关的信息,如果你的爬虫只需要爬取静态页面上的图片和视频,这个库简直是神器啊。
如果你喜欢今天的Python 教程,请持续关注Python实用宝典,如果对你有帮助,麻烦在下面点一个赞/在看
,有任何问题都可以在下方留言,我们会耐心解答的!
点击下方阅读原文可以获取所有代码和链接哦!
Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号:Python实用宝典
爬虫技术python代码_Python 你见过三行代码的爬虫吗相关推荐
- python 爬虫代码_Python 你见过三行代码的爬虫吗
Python 使用Lassie库,仅编写三行代码就能爬取静态页面上的图片和视频.Python实战教程每次讲爬虫的时候都会从"发送请求" 开始讲,讲到解析页面的时候可能大部分读者都会 ...
- 【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)
系列 [实用工具系列之爬虫]python实现爬取代理IP(防 '反爬虫') [实用工具系列之爬虫]python实现快速爬取财经资讯(防 '反爬虫') 本文使用python实现代理IP的爬取,并可以防' ...
- 利用python爬虫技术本福特_Python爬虫技术(一)--模拟登陆
好了,最后上完整代码,当当当当~ # -*- coding: utf-8 -*- import requests import sys import urllib2 import re if __na ...
- 网络爬虫技术(python)
爬虫也用了这么久,最开始用Jave再换到了python.在学习和应用的过程中也遇到了有很多问题,在这里就简要地谈谈 整个过程中关于爬虫技术的一点点个人经验和理解.对于初学者来说,可以将本篇文章作为参考 ...
- 爬虫软件python功能_python实现简单爬虫功能的示例
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- 爬虫技术python流程图_基于Python的网络爬虫技术研究
基于 Python 的网络爬虫技术研究 王碧瑶 [摘 要] 摘要:专用型的网络爬虫能够得到想要的返回结果 , 本文就以拉勾网作 为例子 , 对基于 Python 的网络爬虫技术进行研究和分析. [期刊 ...
- 爬虫就是python吗_python就是爬虫吗
很多初学者都有这样的疑问:python就是爬虫吗?爬虫有什么干什么的?下面来说一说什么是python和爬虫. python Python是一种计算机程序设计语言.是一种面向对象的动态类型语言,最初被设 ...
- python怎么清除代码_python的shell中的代码怎么清理?
python shell是Python的命令行. 交互模式下使用Python很方便,如果想清除显示过的信息,有两种方法可以采用. 方法一.针对Python命令行(python shell) 直接使用下 ...
- python将txt转换为csv_Python Pandas 三行代码将 txt 文件转换成 csv 文件
今天需要处理几个比较大的 txt 文件,每个文件都在 2GB 以上,直接用 Excel 将其转换成 csv 文件显然是不太可行的,于是用 Python 中的数据处理神器 Pandas,三行代码就能搞定 ...
最新文章
- 链表-回文链表(复制+双指针法)
- 圣朱妮佩洛|San Junipero(2)
- 基于Dlib、OpenCV开发人脸识别程序的开发建议
- jquery实现上传图片及图片大小验证、图片预览效果代码
- 软件工程-东北师大站-第十二次作业(PSP)
- spring20:Aspectj实现前置通知@Before
- python输入hello*3_python入门到实践-Hello Python3
- VTK:Utilities之PCADemo
- 【HDU - 2255】奔小康赚大钱(KM算法模板,二分图最优匹配)
- 连接服务器_服务器海量TCP连接如何高效保活?
- php date( ymd_PHP DATE()
- 又优化了一下 Android ListView 异步加载图片
- 我的第一个博客正式注册
- js基础知识汇总13
- 当代中国社会划分为十大阶层
- 通俗易懂讲PID,附参数调试口诀
- 怎么更改计算机物理地址,修改MAC地址,教您怎么修改MAC地址
- 【Decouple】《Improving Semantic Segmentation via Decoupled Body and Edge Supervision》
- centos7用html5播放器,centos7安装多媒体播放器SMPlayer
- python arcgis 批量裁剪栅格文件
热门文章
- RocketMQ 错误:The broker does not support consumer to filter message by SQL92
- 管理员访客身份登录用户账户,java web/springboot/mybatis实现只能看用户信息但不允许修改
- JAVA——基于simple-robot 机器人的定时任务事件提醒解决方案
- Visual C++——定时刷新重绘窗口[WM_PAINT消息]解决方案
- 2019牛客暑期多校训练营(第八场)
- Java02-day02【运算符(赋值、关系、逻辑、三元、算数、自增自减)、分支语句(顺序结构、if语句)】
- 常用的云服务器,云数据库,高速缓存服务器
- 第六届上海市大学生网络安全大赛 | Wp
- try catch finally语句详解
- Sqli-labs第一题详解