Web Scraper爬取信息

前期条件：安装web scraper插件；

安装好之后，打开网页调试模式，F12 会看到多出来Web Scraper；

实践：

以豆瓣网为例：

爬取租房信息：

Type有很多类型：

这里选择是表格，需要看网页具体是什么来排列。

选择器，selector，这里需要自己多尝试几次，选好父节点，需要抓取界面的全部内容。

后面选择的节点都是在这个父节点之下的。

实例：抓取当前界面的所有标题信息。

确认之后，如下图所示。

设置完成后，该界面的内容已经选择完成了。

选择Datapreview，看抓取内容是否符合预期。

如果没有内容，大部分是选择选择器Selector和选择的类型Type问题，需要自己尝试一下。

备注：因为这里是表格，所以直接选择表格抓取，内容就全部抓取下来，其他需要选择元素，element，需要再选择子节点。

-------------------

如果要抓取所有界面的内容，需要创建Link关系，选择Next Page.

接着，是抓取第二页的内容，这里需要进入到第2页，这里是一个链接类型。

创建链接Link 类型。

选择具体内容，这里参照上面即可。

选择每条信息背后的正文内容。

完成Selector后，开始抓取数据，默认时间2000ms。

等待抓取：

抓取完，导出数据即可。

完成之后，可以看一下图谱链接关系。

Selector Graph

先模拟一下，人工操作，

1、选择1条租房信息，这里是一个链接，会跳转到另一个界面，这里是这条租房信息的详细信息。

2、租房信息有1，2，3，...页，需要Next Page；

爬虫操作，也是模拟人工操作，需要创建一样的逻辑；

对比这个小组第一页与最后一页：

www.douban.com/group/605557/discussion?start=0

第1页：

深圳南山西丽,科技园租房交流群小组

第2页：

深圳南山西丽,科技园租房交流群小组

第500页：

登录豆瓣

可以找到规律，每1页都是25条内容，但有的页面可能不是，最新的都是，太老的创建的人少，就每保留每页25条。

抓取内容时，可以关注一下链接的关系及规律。研究背后的逻辑。

参考内容：

不会 Python 没关系，手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜..._sushengbuhuo的博客-CSDN博客

Web Scraper 初级用法——Web Scraper 初尝--抓取豆瓣高分电影 | 简易数据分析 04_Bingo-CSDN博客

以上只是个人所用，如有侵权请联系，立删。

Web Scraper爬取信息相关推荐

记录用web scraper爬取裁判文书网的文书列表信息以及批量下载word文书
这个是一位网友在B站交流的一个问题,这里记录一下. 需求 1.爬取的网站地址:http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/in ...
web scraper 爬取微博粉丝性别以及微博内容
一.粉丝性别两个地方要注意: 1. 翻页,由于查看粉丝数限制,如果一直点下一页,会卡在第5页或者第10页,最后数据无法保存.所以还是在url里写上页数范围,这样最后数据可以保存:比如第一页网址:是 ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...
[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机. ...
如何使scrapy爬取信息不打印在命令窗口中
通常,我们使用这条命令运行自己的scrapy爬虫: scrapy crawl spider_name 但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中.很乱 ...
四小时学python爬虫爬取信息系列（第一天）
四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...
不会 Python 没关系，手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜
苏生不惑第190 篇原创文章,将本公众号设为星标 ,第一时间看最新文章. 关于Python之前分享过很多文章了: Python 抓取知乎电影话题下万千网友推荐的电影,这个国庆节不愁没电影看了王菲k ...
Python-爬虫（xpath数据解析，爬取信息实战）
文章目录 1.xpath常见筛选方式谓语 2.爬取信息实战 1.xpath常见筛选方式测试网页源代码 <!DOCTYPE html> <html lang="en&qu ...
大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取前言一.配置环境二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息三.建立Excel表并导出总 ...

Web Scraper爬取信息

Web Scraper爬取信息相关推荐

最新文章

热门文章