一、操作步骤

今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下:

二、案例+操作步骤

  • 采集规则:搜狐新闻正文采集
  • 样本网址:http://www.sohu.com/a/227999170_123753?_f=index_chan08news_8&qq-pf-to=pcqq.temporaryc2c
  • 采集内容:新闻标题、作者、时间、正文

第一步、打开网页

1.1,打开集搜客软件,输入网址然后敲Enter键,等网页加载出来后再点击右上角的“定义规则”按钮,可以看到有一个浮窗显示出来,这是工作台,下面定义规则就会输出在上面。

1.2,在工作台输入主题名,然后点击查重,如果提示被占用,就要换一个名字,保证主题名是唯一的。


第二步:标注信息

2.1,在浏览器窗口里用鼠标单击想要抓取的内容,这里是选中了新闻标题,然后就会看到整个标题变成了黄色底,还有红框闪烁框住这个范围,根据黄色范围检查有没有选对信息,没问题再单击一下,弹出一个标签窗口,输入标签名字后,点击打勾保存或者敲enter键保存,规则里首次标注还要输入整理箱名字,确定之后在右上角的工作台里可以看到输出的数据结构;

2.2,按照前面的操作,把网页上的作者和发布时间也做上标注映射;

2.3,接下来要对正文做标注,如果你是点击正文的一个段落,只会选中了这一段的范围,想要抓取到全部的正文,要点击到正文的空白处,就会看到正文被全部选中,再点击一下做标注映射;

**PS:**如果是其他网页,不一定是点空白处选中全部,可以多点点其他位置,直到把你要的内容范围选中为止;

2.4,如果一直点击不到可以选中全部范围的位置,可以点一下目标信息的一部分,底部的dom窗口就会定位到这个信息对应的网页节点,然后点击包含这个节点的各个上层节点,直到网页上能看到选中了全部范围为止;

2.5,然后右击这个节点,快捷菜单里选内容映射->新建抓取内容->输入标签名,这个操作结果是跟前面步骤2.3是一样的;


第三步、存规则,抓取数据

3.1,点击右侧的测试按钮,预览输出信息是否完整,没有问题就点右上角的保存按钮,再点“爬数据”,就弹出一个DS打数机窗口,开始抓取数据;

3.2,前面只抓到了一个网页新闻,很多人会问要怎么做才能抓取到更多新闻呢?很简单,只要网页结构跟样本页面一样,就可以使用这个规则来抓取信息,所以,我们可以把跟这个页面结构相同的其他搜狐新闻网址整理出来,然后添加到规则里,操作是在打数机上右键规则,点击管理线索然后选择“添加”,把网址拷贝进去再保存,然后点规则旁边的“单搜”,就开始逐个网页采集。另外,还可以用层级采集的方法,实现网址的自动导入

第四步、转为Excel表

4.1,采集成功的数据会以xml文件的形式保存在电脑的DataScraperWorks文件夹中,点击左上角的文件菜单->存储路径可以找到文件夹的位置。

4.2,然后我们可以将采集到的xml文件压缩成一个zip的压缩包,到会员中心的规则管理,选择对应的规则,再点击导入数据,选择压缩好的zip压缩包导入进去。导入成功之后再点击导出数据,下载下来的就是Excel文件了。

Python学习笔记(11) 如何用爬虫完整抓取搜狐新闻文章?相关推荐

  1. Python爬虫——主题爬取搜狐新闻(步骤及代码实现)

    目录 一 .实现思路 二.获取url变化规律 三.爬取新闻名称及其超链接 四.判断与主题的契合度 四.输出结果 五.总代码 一 .实现思路 本次爬取搜狐新闻时政类 获取url--爬取新闻名称及其超链接 ...

  2. Python学习笔记11:函数修饰符

    Python学习笔记11:函数修饰符 Python有很多有趣的特性,其中函数修饰符就是一个. 我们在之前的那个web应用示例中用过如下写法: @web.route('/log') @符号后边的,就是一 ...

  3. 小猪的Python学习之旅 —— 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中

    小猪的Python学习之旅 -- 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中 标签:Python 一句话概括本文: 利用Excel存储爬到的抓取豆瓣音乐Top 250数据信息,还有 ...

  4. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

  5. python网络爬虫学习笔记(7)动态网页抓取(二)实践

    文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

  6. Python学习笔记(28)~爬虫基础学习:伪装

    伪装 作用:伪装成真实用户向服务器发起请求.因为有一些网站知道你是爬虫,会拒绝访问. 向豆瓣(douban.com)发起请求(直接,不伪装) Demo #!/usr/bin/python3 impor ...

  7. Python学习笔记 Mc喊麦DJ网 爬取下载

    # ***********************下面开始写代码******************************* 保存数据内容=[] def pzcx(n,lx):# 获取随机网址访问u ...

  8. 详解如何用爬虫批量抓取百度搜索多个关键字数据

    2019独角兽企业重金招聘Python工程师标准>>> 本文介绍如何使用软件的流程图模式,免费采集百度搜索多个关键字的信息数据. 软件下载网址:www.houyicaiji.com ...

  9. scrapy 搜索关键字_详解如何用爬虫批量抓取百度搜索多个关键字数据

    本文介绍如何使用软件的流程图模式,免费采集百度搜索多个关键字的信息数据. 软件下载网址:www.houyicaiji.com 采集结果预览: 下面我们来详细介绍一下如何使用流程图模式,采集在百度输入多 ...

最新文章

  1. js null ,null没有typeof返回值为undefine 即 null没有返回类型的
  2. java引用类型和值类型_[Java教程]JavaScript中值类型和引用类型的区别
  3. tensorflow随笔-条件循环控制(1)
  4. EXCEL中提取某行最后一个有效单元格数据
  5. React开发(167):...数组拼接
  6. Win11如何查看电池情况 Win11查看电池情况的方法
  7. Qt工作笔记-ui文件连接信号与槽
  8. 交换机集群管理(锐捷)
  9. linux并发控制方法,linux系统并发控制
  10. 图文详细解说DevExpress 2015新版亮点【附文档下载】
  11. 二、文章发布页制作及后台实现《iVX低代码/无代码个人博客制作》
  12. 柯尼卡美能达一体机 扫描文件,不是全彩的,就首页和尾页是彩色,中间黑白
  13. Qt 界面美化教程 QSS QML Qt自绘方式优缺点对比
  14. Python实战:利用Uplift模型识别营销敏感用户提升市场策略(二)
  15. iris莺尾花matplotlib实验柱状图饼图直方图
  16. Web大学生网页作业成品——抗击疫情网站设计与实现(HTML+CSS)
  17. 主题模型分析漏洞趋势
  18. sghdg jskadhs khad jlad jlajd
  19. mapreduce和hive 对山西省汽车销售数据分析
  20. 6款提升办公效率的超牛软件,从此告别加班

热门文章

  1. Go 接口,接口继承
  2. 3分钟教你子网划分--(内含习题讲解)
  3. TYPEC拓展坞电源管理芯片|IM2603设计方案
  4. TIM+ADC+DMA
  5. pb中自定义纸张打印
  6. 归并排序算法实现数组的排序
  7. 2022-04-16 一维离散傅里叶变换DFT - 手算过程
  8. vue项目中阿里图标的使用
  9. 【Web】JavaScript实现九九乘法表格
  10. 使用微信小程序云空间操作云数据库