前期条件:安装web scraper插件;

安装好之后,打开网页调试模式,F12 会看到多出来Web Scraper;

实践:

以豆瓣网为例:

爬取租房信息:

Type有很多类型:

这里选择是表格,需要看网页具体是什么来排列。

选择器,selector,这里需要自己多尝试几次,选好父节点,需要抓取界面的全部内容。

后面选择的节点都是在这个父节点之下的。

实例:抓取当前界面的所有标题信息。

确认之后,如下图所示。

设置完成后,该界面的内容已经选择完成了。

选择Datapreview,看抓取内容是否符合预期。

如果没有内容,大部分是选择选择器Selector和选择的类型Type问题,需要自己尝试一下。

备注:因为这里是表格,所以直接选择表格抓取,内容就全部抓取下来,其他需要选择元素,element,需要再选择子节点。

-------------------

如果要抓取所有界面的内容,需要创建Link关系,选择Next Page.

接着,是抓取第二页的内容 ,这里需要 进入到第2页,这里是一个链接 类型。

创建链接Link 类型。

选择具体内容,这里参照上面即可。

选择每条信息背后的正文内容。

完成Selector后,开始抓取数据,默认时间2000ms。

等待抓取:

抓取完,导出数据即可。

完成之后,可以看一下图谱链接关系。

Selector  Graph

先模拟一下,人工操作,

1、选择1条租房信息,这里是一个链接,会跳转到另一个界面,这里是这条租房信息的详细信息。

2、租房信息有1,2,3,...页,需要Next Page;

爬虫操作,也是模拟人工操作,需要创建一样的逻辑;

对比这个小组第一页与最后一页:

www.douban.com/group/605557/discussion?start=0

第1页:

深圳南山西丽,科技园租房交流群小组

第2页:

深圳南山西丽,科技园租房交流群小组

第500页:

登录豆瓣

可以找到规律,每1页都是25条内容,但有的页面可能不是,最新的都是,太老的创建的人少,就每保留每页25条。

抓取内容时,可以关注一下链接的关系及规律。研究背后的逻辑。

参考内容:

不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜..._sushengbuhuo的博客-CSDN博客

Web Scraper 初级用法——Web Scraper 初尝--抓取豆瓣高分电影 | 简易数据分析 04_Bingo-CSDN博客

以上只是个人所用,如有侵权请联系,立删。

Web Scraper爬取信息相关推荐

  1. 记录用web scraper爬取裁判文书网的文书列表信息以及批量下载word文书

    这个是一位网友在B站交流的一个问题,这里记录一下. 需求 1.爬取的网站地址:http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/in ...

  2. web scraper 爬取微博粉丝性别以及微博内容

    一.粉丝性别 两个地方要注意: 1. 翻页,由于查看粉丝数限制,如果一直点下一页,会卡在第5页或者第10页,最后数据无法保存.所以还是在url里写上页数范围,这样最后数据可以保存:比如第一页网址:是  ...

  3. web scraper 抓取网页数据的几个常见问题

    如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上 如果你在使用 web s ...

  4. [python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL

    这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机.         ...

  5. 如何使scrapy爬取信息不打印在命令窗口中

    通常,我们使用这条命令运行自己的scrapy爬虫: scrapy crawl spider_name 但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中.很乱 ...

  6. 四小时学python爬虫爬取信息系列(第一天)

    四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...

  7. 不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜

    苏生不惑第190 篇原创文章,将本公众号设为 星标 ,第一时间看最新文章. 关于Python之前分享过很多文章了: Python 抓取知乎电影话题下万千网友推荐的电影,这个国庆节不愁没电影看了 王菲k ...

  8. Python-爬虫(xpath数据解析,爬取信息实战)

    文章目录 1.xpath常见筛选方式 谓语 2.爬取信息实战 1.xpath常见筛选方式 测试网页源代码 <!DOCTYPE html> <html lang="en&qu ...

  9. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

最新文章

  1. java语言的主要的知识点
  2. 树莓派GPIO的两种模式区别
  3. Android数据库LitePal的存储操作
  4. docker 容器安装conposer_docker学习笔记(二)docker-composer
  5. getexternalfilesdir 相册_音乐相册(电子相册制作)V5.2 安卓最新版
  6. java 绘制长方形_Java入门:绘制简单图形
  7. 终于要跟大家见面了,Flink 面试指南
  8. java解析yml文件_如何基于JAVA读取yml配置文件指定key内容
  9. MegCup 2017 极客挑战赛 初赛试题
  10. 虽然现在有可以去码的软件了,可视频是如何自动跟踪打码的?
  11. 软件开发和DBA谁更吃香?有答案了
  12. JAVA项目实训struts2_JavaWeb学习:Struts2与Spring的IOC练习
  13. 超级简单的Android Studio jni 实现(无需命令行)
  14. 区块链教程Fabric1.0源代码分析流言算法Gossip服务端一兄弟连区块链教程
  15. 分享200个App移动端模板
  16. 路由器与交换机的作用及区别
  17. 全球航天电机行业调研及趋势分析报告
  18. 有限体积法(2)——二维、三维扩散方程的离散推导
  19. 计算机专业去,计算机专业去哪个学校_西信院
  20. 删除redis所有KEY

热门文章

  1. 关于更佳学术搜索及Android SDK更新问题
  2. JMeter 远程启动报错:java.rmi.ConnectException: Connection refused to host: 127.0.0.1; nested exception is:
  3. oracle双活什么意思,什么是双活数据中心
  4. U盘装系统教程,一键安装和U盘安装的区别
  5. AudioToolbox使用方法总结
  6. svn怎么执行清理命令_win7系统如何清理注册表 win7系统清理注册表方法【介绍】...
  7. 12、Decoder解码器和Encoder编码器
  8. 优达学诚--对安然事件数据集的分析
  9. 你所不知道的测试经验分享之安卓UI控件定位!
  10. 有他人的梦想,才会让人觉得更有意义!