python爬虫代码1000行-Python 你见过三行代码的爬虫吗
Python实用宝典每次讲爬虫的时候都会从“发送请求” 开始讲,讲到解析页面的时候可能大部分读者都会卡住,因为这部分确实需要一点XPATH或者CSS选择器的前置知识。那么有没有不需要这么复杂的操作就能把页面信息读取出来的方法呢?
答案是:有。
Lassie是一个超简单的页面信息检索工具,它能够通过几行代码就获取到页面上的静态信息,比如:页面描述、视频链接、页面标题,页面关键词、图像链接等等。
为什么超简单?感受一下:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
你只要fetch一下页面,就能得到以下的运行结果(输出为字典):
1.安装
如果你还没有安装Python,推荐阅读这篇文章:Python安装。
安装完成后,请打开你的CMD/Terminal(终端)输入以下命令:
pip install lassie
即可成功安装lassie.
2.使用
让我们举个栗子,用这个工具爬取Python实用宝典上篇文章的图片链接:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
结果:
[{'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'secure_src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'og:image'}, {'src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'twitter:image'},{'src': 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg', 'type': 'favicon'}]
当然,我们可以用列表解析式,把所有链接放到一个数组里:
print([i['src']foriindata['images']])
结果:
['https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg']
怎么样,是不是这个库拿来爬静态页面实在太方便了!唯一的缺点就是它无法爬取页面中详细的文本内容,仅仅能用来提取图片、视频和页面相关的信息,如果你的爬虫只需要爬取静态页面上的图片和视频,这个库简直是神器啊。
如果你喜欢今天的Python 教程,请持续关注Python实用宝典,如果对你有帮助,麻烦在下面点一个赞/在看
,有任何问题都可以在下方留言,我们会耐心解答的!
点击下方阅读原文可以获取所有代码和链接哦!
Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号:Python实用宝典
python爬虫代码1000行-Python 你见过三行代码的爬虫吗相关推荐
- python爬虫代码1000行-Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...
- python 爬虫代码_Python 你见过三行代码的爬虫吗
Python 使用Lassie库,仅编写三行代码就能爬取静态页面上的图片和视频.Python实战教程每次讲爬虫的时候都会从"发送请求" 开始讲,讲到解析页面的时候可能大部分读者都会 ...
- python封装sql脚本 github_Github 大牛封装 Python 代码,实现自动发送邮件只需三行代码...
原标题:Github 大牛封装 Python 代码,实现自动发送邮件只需三行代码 在运维开发中,使用 Python 发送邮件是一个非常常见的应用场景.今天一起来探讨一下,GitHub 的大牛门是如何使 ...
- python爬虫代码1000行-几行Python代码爬取3000+上市公司的信息
几行Python代码爬取3000+上市公司的信息 来源:中文源码网 浏览: 次 日期:2019年11月5日 [下载文档: 几行Python代码爬取3000+上市公司的信息.txt ] (友情提示:右键 ...
- 1000行python代码_GitHub - kill1000/LearnPython: 以撸代码的形式学习Python
LearnPython 以撸代码的形式学习Python, 具体说明在知乎专栏-撸代码,学知识 ===================================================== ...
- python神经网络代码_11行Python代码建立神经网络
Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 用11行Python代码写出一个神经网络 通过构造一个裸骨神经网络来解释反向传播的内部工作原理. 概览:对 ...
- python100行代码-100行Python代码自动抢火车票!
今年你不妨自己写一段代码来抢回家的火车票,是不是很Cool. 先准备好: 1)12306网站用户名和密码 2)chrome浏览器及下载chromedriver 3)下载Python代码,来自网络整理 ...
- python必背100代码-100行Python代码实现一款高精度免费OCR工具
近期Github开源了一款基于Python开发.名为 Textshot 的截图工具,刚开源不到半个月已经500+Star. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本 ...
- Python实战2 - 200行Python代码实现2048(控制台)
Python实战系列用于记录实战项目中的思路,代码实现,出现的问题与解决方案以及可行的改进方向 本文为第2篇–200行Python代码实现2048 一.分析与函数设计 1.1 游戏玩法 2048这款游 ...
最新文章
- mysql hy000 1005,mysql – ERROR 1005(HY000):无法创建表(errno:150)
- 2018 ACM博士论文奖公布:伯克利博士获奖,清华姚班马腾宇荣誉提名(附论文链接)...
- Andriod --- JetPack (二):LifeCycle 的诞生
- 在Play上使用twitter4j! 框架和安全社交很容易
- Base ui 纯as3的ui
- Proxmark3 Easy Gui 4.0 5.0 5.1无限制版解密程序
- 每日一课(4/75)逻辑运算指令
- exls下载后显示jsp_jsp笔记
- 一个动态路由OSPF配置实例(eNSP)
- 技术选型Rust——事后分析
- pip下载包报错ERROR: Could not find a version that satisfies the requirement xxxx==1.0.2 (from versions
- 制造业必须应用RPA的十大环节
- vue 中provide的用法_[转]浅谈vue中provide和inject 用法
- 在实体PC机上安装Linux系统
- 安装CocoaPods出现错误解决方法
- python 异步下载图片_异步Python壁纸爬虫
- Mysql -- 管理工具
- Nginx运维之一 反向代理、动静分离、负载均衡
- Pyspark Python worker exited unexpectedly (crashed) java.io.EOFException
- 实习入职第二十天:从setRecyclerListener看listView回收机制