利用搜索引擎进行资源搜集第二课时
这是一篇搜索进阶篇文章
本篇文章的内容包括以下四个方面
谷歌高级语法深入探索、利用谷歌进行科学上网、利用chrome浏览器分析网站接口的方法以及简单爬虫分析。
大家利用搜索引擎一般干嘛呢?谷歌搜索引擎作为黑客必用的一个浏览器,自然会有很多比较厉害的特点。让我们来探讨一下谷歌搜索引擎到底能干些啥。
了解谷歌高级语法
上一篇内容中,我们初步探索了搜索引擎的语法。这一篇,我们同样以例子的方式来深入了解。
(1)、排列组合我们的关键词
利用“|”分隔关键词,表达或者的含义
例子:
这样就可以搜索出包含“身份证号”或者包含“学号”的信息。
利用空格或者点号(“.”)分隔关键词,表达和的含义
例子:
搜索出来的内容是既包含身份证号有包含学号的内容。
(2)、需要掌握的高级操作符
注意:高级操作符和关键词之间需要加上英文冒号(":”)。英文冒号和中文冒号的区别可以但很难用肉眼区别出来。所以要确保在英文输入状态下打这个冒号。
使用site关键字定位网址
Site关键字在入门篇中,我们详细使用过。这里不再赘述。
例子:
使用intitle查询在标签中的关键字
那么什么是title呢?
用红色框框住的就是title了。一般来说,这个title都指明了当前这个页面是什么功能,所以如果需要找特定功能的东西,就可以使用Intitle。
使用inurl关键字表示在url(链接)中查找关键词
那么,什么是url呢?以上面的图片为例子:
这个就是url。那我们来验证一下这个关键字的有效性吧。
这个例子我使用了两个关键字,限定了在某个网址下搜索url里面包含login的链接。可以看见,关键词的组合是通过空格隔开的方式,与上面说的排列组合我们的关键词类似。
使用intext表达在网页内容里查找字符串
那么,什么是网页内容呢?就是整个网站里面讲的是什么,就好比写一篇文章的主体内容。
例子:
利用上面四个关键字及其排列组合,我们已经可以很精确地对我们的关键词进行查找了。现在,再来讨论下不是很常用的关键字。
使用FileType搜索指定类型的文件
例子:
使用stocks搜索某个公司的股票信息
当然,谷歌高级语法中,这些关键字算是九牛一毛,但是已经可以满足我们日常的生活了。如果有想深入了解的朋友,我可以推荐一本书,叫《Google Hacking 技术手册》。
利用谷歌进行科学上网
在工作和学习中,我们往往需要利用科学上网去查阅比较新的资料,加上谷歌镜像站本身的不稳定,所以,备一个紧急科学上网的方法也是必要的。我把我科学上网的方法分享给大家。
我把插件和操作指南放到了压缩包里,大家下载之后照着里面的教程做就好。
链接:https://pan.baidu.com/s/1BY1dBXu_i_wTHgcXWoiWWQ
提取码:y3zu
失效联系我补
因为本插件是付费的,为避免广告嫌疑,我也不推荐大家使用这个插件。下面来说说安装流程。百度网盘下载好压缩包后解压,然后打开是这个样子:
然后打开你的chrome浏览器,在浏览器中输入扩展程序的网址:chrome://extensions/
然后把
这个文件直接拖到页面中即可。安装完成之后需要注册,然后登陆就可以了。
一共有三种模式,可根据个人喜好调整。
利用谷歌浏览器搜索进阶实际上内容已经讨论完了。但是我开头提出的问题,搜索引擎能做的,远不止这些。我们可以利用浏览器来提取网站接口,进而为我们搜集资源提供便利。
利用浏览器分析网站接口
先来说说什么是网站接口。一个网站,实际上分为前端和后端,前端一般主要做数据渲染,即将一堆堆难以理解的数据以网页的形式展示出来,那么后端,就是提供这些数据的。而提供的方式,就是利用的接口的方式。今天,我就以链家为例,来分析接口。由于分析接口我用firefox用得比较多,所以这里用firefox进行演示
首先,打开链家首页,然后点击 alt键,选择工具->web开发者->Web控制台
刷新网站,可以发现,前端向后端发起了很多请求,点开其中一个:
这里的https://cq.lianjia.com/site/getRecommendResblockInfo/是请求地址,get是请求方法
选择响应按钮,可以发现后端给前端传来了很多数据。这时我们就抓到了一个接口。但是这个接口是否真的有用呢,还得看具体自己收集什么资源。这里只是给大家介绍有这么一种技术。如果有想深入了解的小伙伴,可以关注本公众号后面的文章。
简单了解爬虫
首先需要说明的一点是,爬虫只能获取公开共享的东西。
爬虫又叫网络机器人,为啥叫这个名字呢,因为爬虫可以替代人做大量重复的操作。以http://www.java1234.com/为例,这个网站收集了各种各样的百度网盘链接,但是每个页面只有一个网盘链接,而且他们以类似的结构放在每个页面几乎相同的位置上。如果每个链接都人为的一个一个点,然后一个一个保存百度网盘的链接,是否过于繁琐了呢。这时候,如果利用爬虫,合理的编写代码,就可以实现自动收集百度网盘链接资源的功能。
爬虫一般是程序开发人员用代码对人工过程进行模拟实现的,同时利用线程池技术能大大提高工作效率。从程序开发的角度来说,这对于没有学过编程的同学来说难度就有点大了。但这并不意味者非编程人员就使用不了爬虫。网上也有一些爬虫软件,只不过这些软件往往自定义的能力不行,无法满足爬虫使用者真正的需求。所以,对于看到这里的同学,我还是建议大家学学python这门编程语言,用来写爬虫简单易上手。
谢谢观看,愿对你有帮助。
利用搜索引擎进行资源搜集第二课时相关推荐
- 以下哪个学术搜索引擎主要用于搜索计算机科学的相关资源,利用搜索引擎检索相关教学资源,所得搜索结果通常由以下哪几部分构成()?...
相关题目与解析 利用搜索引擎检索相关教学资源,所得搜索结果通常由以下哪几部分构成()? 利用搜索引擎检索教学资源时,通常用加号"+"或空格表示的逻辑关系是().A.逻辑" ...
- Kubernetes之路 2 - 利用LXCFS提升容器资源可见性
本系列文章记录了企业客户在应用Kubernetes时的一些常见问题 第一篇:Java应用资源限制的迷思 第二篇:利用LXCFS提升容器资源可见性 第三篇:解决服务依赖 这是本系列的第2篇内容,将介绍在 ...
- beego利用casbin进行权限管理——第二节 策略存储
beego利用casbin进行权限管理--第一节 起步.测试 beego利用casbin进行权限管理--第二节 策略存储 beego利用casbin进行权限管理--第三节 策略查询 beego利用ca ...
- 搜索引擎学习资源收集(转)
原文: http://blog.chinaunix.net/u/4764/showart_270897.html 搜索引擎学习资源收集 一.搜索引擎技术/动态资源 <一>.综合类 1.卢亮 ...
- 搜索引擎学习资源(作者:dongdonglang)
搜索引擎学习资源收集 作者:dongdonglang http://www.dunsh.org/forums/thread-2716-1-2.html 一.搜索引擎技术/动态资源 <一> ...
- python学习之第二课时--运行程序和字符编码
python学习之第二课时--运行程序和字符编码 python的运行方式 Windows的终端运行方式: [右键点击开始键]--->[运行输入cmd]---> ...
- 你必须要掌握的技能:如何利用搜索引擎快速获取信息?
俗话说,工欲善其事必先利其器.生活中.工作上,我们总是会遇到各式各样的问题,谷歌.百度.必应是我们经常使用的搜索引擎.那么,我们要如何高效利用搜索引擎,快速定位.获取我们需要的素材呢? 本文例出了几个 ...
- 利用网络现有资源 制作 swf动画
利用网络现有资源 制作 swf动画 想设计一段flash,可是不知无从下手,刚好网上找到一个内容接近的,便把它down下来,利用这个现成的资源进行修改. 问题出现了,就是如何修改swf文件?我 ...
- WPF中利用DynamicResource动态资源和资源字典实现软件中英文切换
在一个项目中,有时候会遇到不同国家或地区的软件用户,这样就需要对软件UI界面进行语言翻译,我们可以利用DynamicResource和资源字典来实现这一需求.我们可以将不同的语言字典封装到一个项目中, ...
最新文章
- java api 框架_java常用对象API之集合框架
- Linux命令 swap:内存交换空间
- vb破解万能断点816c24
- tensorflow随笔-条件循环控制(2)
- wxWidgets:wxFloatingPointValidator<T> 类模板用法
- django-oscar的物流状态pending修改以及分析源码解决报错:The new status 'xxx' is not valid for this order
- HBase实战:记一次Safepoint导致长时间STW的踩坑之旅
- python3调用c语言数组,使用Python中的ctypes访问数组
- fragment 调用activity方法,如dispatchKeyEvent,dispatchTouchEvent
- 跳出内层循环 使用 for of 代替 map
- 苹果CMS小俊XG013主题模板
- 能源36号文解读_电机暴露细节!春风发布新能源品牌:ZEEHO极核
- 区块链项目开发最容易受区块链技术影响的行业
- mybatis逆向工程详解
- SQL中Case的使用方法(上篇)
- 浅议公司现场5S管理内部验收基准
- android利用socket与java后台交互的设计与实现
- 反向传播(Backpropagation)算法详解
- 搞不动了,持安零信任真的安全
- 总结各种RGB转YUV的转换公式
热门文章
- 【论文笔记 6】A probabilistic method for emerging topic tracking in Microblog stream
- 【GDKOI】樱花再见
- php 无法打印,打印机无法打印的原因及解决办法
- 分享一些网站(不定期更新)
- linux下如何查看二进制文件,linux下查看二进制文件
- C4D三维背景、镜头+Animate二维人物的动画制作流程分享
- 丁达尔(Tyndall)效应:探测纳米世界的简易途径
- Android中jetpack讲解(详)--课外拓展知识讲解
- 这份工程师简历火了:手磨 14nm 咖啡,在微软传播 X 病
- 虚拟机配置NAT网络