【Python爬虫】用CSS 选择器提取网页数据
使用 pip 安装 requests_html 库
pip install requests_html
根据你的网络情况,通常需要几分钟时间。
在你的电脑任意位置,新建一个 crawler.py 文件。输入并执行以下 4 行代码:
from requests_html import HTMLSession session = HTMLSession() r = session.get('https://movie.douban.com/subject/1292052/') print(r.text)
运行
你将会看到如下输出:
<!DOCTYPE html> <html lang="zh-cmn-Hans" class="ua-mac ua-webkit"> <head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta name="renderer" content="webkit"><meta name="referrer" content="always"><meta name="google-site-verification" content="" /><title>肖申克的救赎 (豆瓣) </title>... 以下省略 3000 行
提取网页中所需内容
你将使用强大的 CSS 选择器 来提取网页中有价值的信息。
CSS 选择器可以从结构化的网页中选择一个特定的元素。
大多数浏览器都提供了获得页面上特定元素 CSS 选择器的功能。
先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就能将这段内容对应的 CSS 选择器复制到剪贴板。
现在你需要访问 这个 页面。按照上面的介绍,把电影名称对应的选择器复制上
回到之前创建的 crawler.py 文件,使用 Python 和 CSS 选择器来提取网页内容。
from requests_html import HTMLSession session = HTMLSession() r = session.get('https://movie.douban.com/subject/1292052/') title = r.html.find('用你的选择器替换这里的内容', first=True) # r.html.find() 接受一个 CSS 选择器(字符串形式)作为参数 # 返回在网页中使用该选择器选中的内容。print(title.text)
运行看看,你是否把电影名称从网页中提取出来了呢?如果成功了,试试提取其它你感兴趣的内容吧!
【Python爬虫】用CSS 选择器提取网页数据相关推荐
- Python爬虫4.2 — ajax(动态网页数据抓取)用法教程
Python爬虫4.2 - ajax[动态网页数据]用法教程 综述 AJAX 介绍 什么是AJAX 实例说明 请求分析 获取方式 实例说明 其他博文链接 综述 本系列文档用于对Python爬虫技术的学 ...
- python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
- Python爬虫(5)css选择器
css选择器 CSS 选择器用于"查找"(或选取)要设置样式的 HTML 元素. 顾名思义css选择器定位和选择的是HTML抽象DOM树上的一个或一类元素. 文章目录 css选择器 ...
- 21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据
目录 1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...
- 21天Python学习——lxml库与Xpath提取网页数据
活动地址:CSDN21天学习挑战赛 一.爬虫提取网页数据的流程图 图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无 羡ღ的博客-CSDN博客_pyt ...
- Python爬虫:用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
- Python爬虫:Xpath爬取网页信息(附代码)
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
- AJAX教程美食滤镜,Python爬虫实例——爬取美团美食数据
1.分析美团美食网页的url参数构成 1)搜索要点 美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ ...
- python爬虫——使用selenium爬取微博数据(一)
python爬虫--使用selenium爬取微博数据(二) 写在前面 之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...
最新文章
- Latex中的表格用法总结(三)——表格的合并分割,字体旋转,表头语句切割
- 频率分布直方图组距如何确定_QC七大手法之直方图法,快快转发、收藏!
- 逆向分析c++ vector向量
- linux命令netstat
- 「Python」ubuntu使用make命令安装python(带详细解释和防坑指南)
- hybris impex里忽略某列数据的语法
- Android初级开发第七讲--特效和数据传递处理
- Python abs函数 - Python零基础入门教程
- matlab中图像处理的基本函数(1)
- ApacheCN Linux 译文集 20211129 更新
- 【clickhose】clickhouse-client 无法登录 could not determine local time zone custom time zone file used
- [org/springframework/jdbc/support/sql-error-codes.xml]
- 编译原理 【国防科技大学网课】【笔记】【 陈火旺】 ——用于期末考试 【持续更新ing】
- Exynos4412 移植Linux Kernel 5.4过程记录(三)——根文件系统构建与SD卡挂载fs
- java中的String和ArrayList类
- zabbix三种常用报警方式:邮件、微信和短信报警
- 微信小程序调取微信支付遇到的问题“商户号该产品权限未开通,请前往商户平台产品中心检查后重试”
- Xposed Xposed插件开发
- Spectra Logic的数据备份和归档解决方案推动企业磁带销量增长
- logstash 数据重复问题