【Python爬虫】用CSS 选择器提取网页数据

使用 pip 安装 requests_html 库

 pip install requests_html

根据你的网络情况，通常需要几分钟时间。

在你的电脑任意位置，新建一个 crawler.py 文件。输入并执行以下 4 行代码：

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://movie.douban.com/subject/1292052/')
print(r.text)

运行

你将会看到如下输出：

<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-mac ua-webkit">
<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta name="renderer" content="webkit"><meta name="referrer" content="always"><meta name="google-site-verification" content="" /><title>肖申克的救赎 (豆瓣)
</title>... 以下省略 3000 行

提取网页中所需内容

你将使用强大的 CSS 选择器 来提取网页中有价值的信息。

CSS 选择器可以从结构化的网页中选择一个特定的元素。

大多数浏览器都提供了获得页面上特定元素 CSS 选择器的功能。

先查看一段内容的代码，在代码上点击右键，选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器），就能将这段内容对应的 CSS 选择器复制到剪贴板。

现在你需要访问这个页面。按照上面的介绍，把电影名称对应的选择器复制上

回到之前创建的 crawler.py 文件，使用 Python 和 CSS 选择器来提取网页内容。

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://movie.douban.com/subject/1292052/')
title = r.html.find('用你的选择器替换这里的内容', first=True)
# r.html.find() 接受一个 CSS 选择器（字符串形式）作为参数
# 返回在网页中使用该选择器选中的内容。print(title.text）

运行看看，你是否把电影名称从网页中提取出来了呢？如果成功了，试试提取其它你感兴趣的内容吧！

【Python爬虫】用CSS 选择器提取网页数据相关推荐

Python爬虫4.2 — ajax(动态网页数据抓取)用法教程
Python爬虫4.2 - ajax[动态网页数据]用法教程综述 AJAX 介绍什么是AJAX 实例说明请求分析获取方式实例说明其他博文链接综述本系列文档用于对Python爬虫技术的学 ...
python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架实例Demo 抓取:汽车之家.瓜子.链家等数据信息版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
Python爬虫(5)css选择器
css选择器 CSS 选择器用于"查找"(或选取)要设置样式的 HTML 元素. 顾名思义css选择器定位和选择的是HTML抽象DOM树上的一个或一类元素. 文章目录 css选择器 ...
21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据
目录 1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...
21天Python学习——lxml库与Xpath提取网页数据
活动地址:CSDN21天学习挑战赛一.爬虫提取网页数据的流程图图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无羡ღ的博客-CSDN博客_pyt ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
Python爬虫：Xpath爬取网页信息（附代码）
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
AJAX教程美食滤镜,Python爬虫实例——爬取美团美食数据
1.分析美团美食网页的url参数构成 1)搜索要点美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ ...
python爬虫——使用selenium爬取微博数据（一）
python爬虫--使用selenium爬取微博数据(二) 写在前面之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...

【Python爬虫】用CSS 选择器提取网页数据

提取网页中所需内容

【Python爬虫】用CSS 选择器提取网页数据相关推荐

最新文章

热门文章