使用 pip 安装 requests_html 库

 pip install requests_html

根据你的网络情况,通常需要几分钟时间。

在你的电脑任意位置,新建一个 crawler.py 文件。输入并执行以下 4 行代码:

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://movie.douban.com/subject/1292052/')
print(r.text)

运行

你将会看到如下输出:

<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-mac ua-webkit">
<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta name="renderer" content="webkit"><meta name="referrer" content="always"><meta name="google-site-verification" content="" /><title>肖申克的救赎 (豆瓣)
</title>... 以下省略 3000 行

提取网页中所需内容

你将使用强大的 CSS 选择器 来提取网页中有价值的信息。

CSS 选择器可以从结构化的网页中选择一个特定的元素。

大多数浏览器都提供了获得页面上特定元素 CSS 选择器的功能。

先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就能将这段内容对应的 CSS 选择器复制到剪贴板。

现在你需要访问 这个 页面。按照上面的介绍,把电影名称对应的选择器复制上

回到之前创建的 crawler.py 文件,使用 Python 和 CSS 选择器来提取网页内容。

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://movie.douban.com/subject/1292052/')
title = r.html.find('用你的选择器替换这里的内容', first=True)
# r.html.find() 接受一个 CSS 选择器(字符串形式)作为参数
# 返回在网页中使用该选择器选中的内容。print(title.text)

运行看看,你是否把电影名称从网页中提取出来了呢?如果成功了,试试提取其它你感兴趣的内容吧!

【Python爬虫】用CSS 选择器提取网页数据相关推荐

  1. Python爬虫4.2 — ajax(动态网页数据抓取)用法教程

    Python爬虫4.2 - ajax[动态网页数据]用法教程 综述 AJAX 介绍 什么是AJAX 实例说明 请求分析 获取方式 实例说明 其他博文链接 综述 本系列文档用于对Python爬虫技术的学 ...

  2. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  3. Python爬虫(5)css选择器

    css选择器 CSS 选择器用于"查找"(或选取)要设置样式的 HTML 元素. 顾名思义css选择器定位和选择的是HTML抽象DOM树上的一个或一类元素. 文章目录 css选择器 ...

  4. 21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据

    目录 ​1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...

  5. 21天Python学习——lxml库与Xpath提取网页数据

    ​ ​ 活动地址:CSDN21天学习挑战赛 一.爬虫提取网页数据的流程图 图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无 羡ღ的博客-CSDN博客_pyt ...

  6. Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

  7. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  8. AJAX教程美食滤镜,Python爬虫实例——爬取美团美食数据

    1.分析美团美食网页的url参数构成 1)搜索要点 美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ ...

  9. python爬虫——使用selenium爬取微博数据(一)

    python爬虫--使用selenium爬取微博数据(二) 写在前面 之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...

最新文章

  1. Latex中的表格用法总结(三)——表格的合并分割,字体旋转,表头语句切割
  2. 频率分布直方图组距如何确定_QC七大手法之直方图法,快快转发、收藏!
  3. 逆向分析c++ vector向量
  4. linux命令netstat
  5. 「Python」ubuntu使用make命令安装python(带详细解释和防坑指南)
  6. hybris impex里忽略某列数据的语法
  7. Android初级开发第七讲--特效和数据传递处理
  8. Python abs函数 - Python零基础入门教程
  9. matlab中图像处理的基本函数(1)
  10. ApacheCN Linux 译文集 20211129 更新
  11. 【clickhose】clickhouse-client 无法登录 could not determine local time zone custom time zone file used
  12. [org/springframework/jdbc/support/sql-error-codes.xml]
  13. 编译原理 【国防科技大学网课】【笔记】【 陈火旺】 ——用于期末考试 【持续更新ing】
  14. Exynos4412 移植Linux Kernel 5.4过程记录(三)——根文件系统构建与SD卡挂载fs
  15. java中的String和ArrayList类
  16. zabbix三种常用报警方式:邮件、微信和短信报警
  17. 微信小程序调取微信支付遇到的问题“商户号该产品权限未开通,请前往商户平台产品中心检查后重试”
  18. Xposed Xposed插件开发
  19. Spectra Logic的数据备份和归档解决方案推动企业磁带销量增长
  20. logstash 数据重复问题

热门文章

  1. vs2005常用的调试方法
  2. 实例解说Linux命令行uniq
  3. Leetcode算法题(C语言)6--只出现一次的数字
  4. 【AI视野·今日Robot 机器人论文速览 第八期】Wed, 16 Jun 2021
  5. 【AI视野·今日Robot 机器人论文速览 第一期】Fri, 4 Jun 2021
  6. Java—List集合详解
  7. dj电商-模型类设计-商品模块数据表
  8. vmware配置centos全套
  9. python使用print不换行
  10. LeetCode: Sort List 解题报告