昨天用xpath提取了网页内容,今天用CSS方法重新提取一遍。
随便在伯乐在线找一篇文章,网址:http://blog.jobbole.com/113555/

 #通过CSS选择器提取网页的字段#标题title = response.css(".entry-header h1::text").extract_first()#发布日期create_data = response.css(".entry-meta-hide-on-mobile::text").extract()[0].strip()#标签tag_list = response.css(".entry-meta-hide-on-mobile a::text").extract()tag_list = [element for element in tag_list if not element.strip().endswith("评论")]tags = ",".join(tag_list)#点赞数praise_nums = response.css(".vote-post-up h10::text").extract_first()#收藏数fav_nums = response.css("span.btn-bluet-bigger:nth-child(2)::text").extract_first()match_re = re.match(".*?(\d+).*", fav_nums)if match_re:fav_nums = match_re.group(1)# 评论数comment_nums = response.css("a[href='#article-comment'] span::text").extract_first()match_re = re.match(".*?(\d+).*", comment_nums)if match_re:comment_nums = match_re.group(1)#正文content = response.css("div .entry").extract()[0]

通过debug调试,可以实现。

提取的内容保存为json格式,上一篇博文已经写到。
http://blog.csdn.net/shengshengshiwo/article/details/79248421

用CSS方法提取网页内容相关推荐

  1. Scrapy定向爬虫教程(二)——提取网页内容

    本节内容 在这一小结,我将介绍如何使用Scrapy通过Selector选择器从网页中提取出我们想要的内容,并将这些内容存放到本地文件. 我们的目标网页是http://www.heartsong.top ...

  2. 为什么要将html页面和样式表分离,0031 如何使用css文件对网页内容和样式进行分离...

    原标题:0031 如何使用css文件对网页内容和样式进行分离 上节课,学习了针对文字可以设置很多种样式. 这节课,学习如何将内容和样式进行分离. 上节课的课后练习 1.将斜体字体效果去除 2.将工作经 ...

  3. 【Python爬虫】用CSS 选择器提取网页数据

    使用 pip 安装 requests_html 库 pip install requests_html 根据你的网络情况,通常需要几分钟时间. 在你的电脑任意位置,新建一个 crawler.py 文件 ...

  4. 如何用提取网页内容的工具快速提取网站内容

    随着社会的不断的进步,我们已经进入一个效率时代,相信每个人在互联网上下载或者复制粘贴过内容.特别是整理行业的数据,以及收集资料.今天小编就教大家如何用提取网页内容的工具快速提取到你想要的信息,只需要点 ...

  5. JQuery:JQuery 中的CSS()方法

    JQuery:CSS()方法 jQuery css()方法:css()方法设置或返回被选元素的一个或多个样式属性. 1.返回 CSS 属性 如需返回指定的 CSS 属性的值,请使用如下语法: css( ...

  6. 文本超出显示省略号/数字英文字母折行有关css 属性/显示两行,第二行省略号显示css方法...

    文本超出显示省略号: 定容器宽度 overflow: hidden; text-overflow: ellipsis; 文本超出显示省略号 white-space:nowrap;  强制文本不换行 折 ...

  7. jQuery CSS 操作 - css() 方法

    实例 设置 <p> 元素的颜色: $(".btn1").click(function(){$("p").css("color", ...

  8. jQuery 样式操作||操作 css 方法/设置类样式方法

    操作 css 方法 <!DOCTYPE html> <html lang="en"><head><meta charset="U ...

  9. Jquery中css()方法获取边框长度

    1. JQuery中可以使用css()方法获取块元素的边框宽度,如下: $("divMode").css("border-left-width");//左边框长 ...

最新文章

  1. CMM中18个KPA
  2. CentOS Linux 下的 vim 无法使用系统剪贴板,怎么解决呢?
  3. “超大杯”版小米10不仅有120W超级快充,电池也要比传闻大
  4. markdown 流程图js_在Markdown中用mermaid语法绘制图表
  5. 【报告分享】中国城市人工智能发展指数报告.pdf(附下载链接)
  6. 数据体系建设的开端,该如何规划平台? 1
  7. 面试大厂被怼!这都搞不定,你只能做“搬运工”!
  8. 专访 YYKit 作者 ibireme: 开源大牛是怎样炼成的
  9. 数学模型:传染病模型
  10. 大数据存储峰会4月9日深圳开幕
  11. steam服务器维护6月28,多多自走棋维护公告 多多自走棋6月28日更新内容
  12. Cubieboard2折腾手记(一)
  13. 1.5 人工智能迅速发展的技术领域
  14. h5策划书_世界睡眠日H5策划方案
  15. iPhone与win10传输大文件,使用局域网
  16. 如何快速备份linux文件夹?【高效】
  17. 树莓派4B 2g运行内存,gpu值改为1g后无法启动
  18. ==和equals判断两个字符串是否相等
  19. iOS:友盟SDK第三方登录 分享及友盟统计的使用
  20. 2022-2027年中国消防机器人行业市场调研及未来发展趋势预测报告

热门文章

  1. mysql mrr icp_【mysql】关于ICP、MRR、BKA等特性
  2. DAZ3D STUDIO 中复杂背景道具的简化
  3. cad编辑器快捷键,怎样删除CAD图纸中多余的元素?
  4. JAVAEE——SSH项目实战05:用户注册、登陆校验拦截器、员工拜访客户功能和MD5加密...
  5. Selenium 显示等待、隐式等待及流畅等待
  6. 游戏联运平台的运营模式是什么?
  7. Android 高德地图显示国外地图,安卓地图只显示高德地图四个字
  8. layui 好看侧边栏(附Demo)
  9. MyBatis基础语法
  10. MathType与Word对应的字体关系