深网中的信息收集 deep web

In our world, knowledge is power, timing is critical, accuracy is essential.

1. 深网&表网介绍

Google，Bing和其他引擎使用蜘蛛机器人来爬网并索引内容，无法抓取到数据的原因：1）无法到达：eg.需要登录的商业数据库 ,2) 机器人只能读取html，机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
保守的最佳猜测是90％的Internet是Deep Web，而占10％的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为，Deep Web的90％是可搜索的。估计Deep Web中有30％是商业数据库，而20％是军事数据库。因此使用正确的工具和方法，可以免费搜索到大约50％的Deep Web。
Surface Web通常是公司，人员和博客作者的网站。但是普通的个人网站上的信息，权威性不高，需要对来源和引用进行审核（很困难）。
深网将包含法院记录，人口普查记录的图像，也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比，对资源进行审核要容易得多，而且速度更快。但深网无法通过表网看到。图源网站

2. 研究深网的工具

数据是原始的、未经组织的、未经处理的事实；在上下文，结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理，然后审查数据，重新组织和可视化数据。
（口语） “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。

Source Deck 一个关键而简单的工具；是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释，说明如何使用它们，以及对它们的信任程度。

zotero 【快速入门指南】-- Firefox插件帮助保存论文或其他学术论文的引文信息，可用于深网研究。

maltego 一种关系映射工具，可帮助审查网站的权限；可用于开源情报（OSINT）和图形链接分析，收集和连接用于调查任务的信息；只要花1-2小时就可以学会如何使用它。

先在浅网中查找更多的信息

使用关键字制定 检索式； 搜索引擎很多，它们各有优势，但做的事都差不多：抓取网页并返回你想找到的内容，都使用布尔逻辑来缩小搜索范围；比如Google，Yahoo，Bing和Dogpile， PIPL， Zuula .多了解它们的特色有利于信息检索；

谷歌具有深层网络的特色的功能：图书搜索（book.google.com）搜索当前和出的绝版图书和学术搜索（scholar.google.com科学论文），这些也是可以被爬虫从元数据中的信息遍历到。

搜索工具：

Zuula.com

Scholar.google.com

dogpile.com

Deeperweb.com –通过博客，新闻，网络常规，研究搜索等方式搜索最佳匹配。

Touchgraph 漂亮的集群工具，通过它可以获得新资源

选择正确的数据源

原始的数据源是最接近我们的调查目标的信息或资料，因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息，则警方报告仍然是事件的主要来源。“

第二手资料可能会引用第一手资料，比如维基百科上的信息，Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道（企业官网的信息才是源头，才是第一手资料）

数据源的审核

对于从多个源头获得的信息，我们需要溯源，需要根据数据的权威性、数据可靠性、数据质量等方面来审核，也就是对数据源的排序/权限。eg事件发生时写的信件和日记，与为了迎合更大的市场而写的回忆录相比，可靠性更高。eg。比如使用谷歌地图时，它能为我们提供 A-B-C maps， mapquest

评估电子文档的价值，也就是衡量文档的“可信度”或“权威性”，毕竟网上充斥着各种垃圾邮件、诈骗信息；具体5个权限级别的特征请见美国的历史与计算协会杂志（JAHC）关于电子材料的权限级别

审核二手信息源的作者

审查secondary sources的作者权限等级：这些作者在分析，解释和解构事件以查找模式和得出结论，但有的时候他们会歪曲分析，把结论往自己的期望的方向推理，要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义，再量化文章内容的权威性，还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法（如下表）审核这些二次创作者：从默认的“ 5”开始所有文章，从那里添加奖励或惩罚。最终的分数合计：

小于3分：作者几乎被忽略，

4-7分 ：作者可能有一定的可信度，但要谨慎，

8-14 ：可以放心地相信作者的信誉

15以上：高度可信

泰勒计分卡

+6 如果已知作者在同行评审的学术期刊上发表 -1 总是把“他们” 暗指为不清楚的阴谋组织（阴谋论）

+5 引用的文献是主要参考文献 -2 信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上

+3 文章托管在政府或大学的网站（.gov或.edu）上 -4 未为文章指定作者姓名（政府报告/警察报告）

+2 文章刊登在知名新闻媒体上（eg《纽约时报》
《华盛顿邮报》） -4 文章组织性很差，存在拼写和语法错误，这些指向肤浅的思想和研究

+2 如果作者在非同行评审的期刊上发表其他文章 +1 如果作者公开联系人电子邮件

+2 如果作者公开联系人的邮寄地址 +1 似乎是面向学术人员写的文章

+2 来自政府报告（不论报告年份）
或引用的文献是二次引用

审核互联网资源的步骤

从已知的资料中选个句子，用搜索引擎去搜，看是否可以找到元素网页，再对比作者和发布日期，看这个资料是不是从主要信息源复制来的；

信息的目标群体是学术人员还是大众？相对应地，能否由此了解作者的学术水平背景；

对于原始网页和站点，分析域扩展名：是* .com，*。org，*。net吗？或* .edu 或* .mil（军事）；关于域扩展名请见信息检索；

查看整个域，看网站是免费博客服务还是专门的博客网站；

对于匿名作者专用的博客/网站，使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址

用反向IP查找此人可能拥有的其他网站；比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站，也许作者拥有2-3个网站，那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息，以查找他拥有的2-3个网站。

从上到下检查网站，查看是否有“联系我们”页面。有邮件吗？它去哪个域？检查“隐私政策”页面，看看是否有提及的公司。使用时，请在“法律”页面中检查名称（如果有的话）。有版权吗？是谁的名字？

一旦有了作者的名字，转入深网进行背景检查。从Pipl.com开始，然后从Linkedin.com开始，然后从那里延伸下去。
eg查外国人：他/她有执照吗？检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常，论坛可以设置一个城市，用于消除通用名称的歧义，提供可能的匹配。

使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常，这些网络表单将转发给电子邮件，并且来自其电子邮件帐户的任何回复都会带有身份信息。

深网搜索引擎

见搜索引擎篇

反向图片搜索（Reverse Image Search）：通过上传图片或者粘贴图片url，然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。

商业深层网络数据库

美国的许多图书馆都有许可证，允许其用户免费访问商业数据库，比如

Findlaw –有关法律和法院案件的一切

北极光Northern Light –竞争情报，商业分析，产品开发和技术研究。

Intellus –背景检查的良好来源

Intelius - Public Records Information 背景调查，联系信息，地址，犯罪记录，电话号码，社交媒体，照片，资产等公共记录报告

Xrefer —基于236个标题和290万以上条目的付费数据库。

LexisNexis -被称为全球最大的公共记录，未发布的意见，法律，新闻和商业信息的集合。超过35,000个在线资源。

Get Abstracts 获取摘要 -大型在线图书馆，提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。

Forrester研究 —一家独立的技术和市场研究公司，发布有关各种主题的深入研究报告。

Factiva -在线收集约10,000个单个来源。

US Search 美国搜索 –背景调查和定位服务

OSINT- Open Source Intelligence 开源情报

从开放的第三方来源收集的情报；来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube

European Commission staff 的一个关于开源情报的讲座，by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程，输关键字 Intelligence Analysis 就可以找到很多学校的案例。

情报分析师资源和白皮书

不熟悉情报和分析技术可参考一下美国政府的两份文件：

Intelligence_analyst_toolbox 情报分析工具箱的基本概述，大约十二页

情报作为调查职能 –情报分析和基础知识入门，45页的PDF。

用算法策略指导情报分析--计算机方法 –有助于分析的一些算法的概述：包括关联分析（关联规则挖掘）、图论的greedy approximation algorithm、启发式算法、密集二部图的局部搜索算法、最大熵模型...etc

贝叶斯智能分析 declassified-baysian-analysis.pdf –来自中央情报局的使用贝叶斯分析的解密文件（14页PDF，以中东为例）。
情报周期：在专注于IMINT时，它适用于SIGINT，GEOINT，TECHINT，HUMINT等。

免费的贝叶斯软件

用贝叶斯信念网络可以估计不确定性较高的事件。；3个在.jar或java中运行的贝叶斯网络

OpenMarkov –比Bayesbuilder先进得多，其网站上也提供了教程。对于贝叶斯网络，OpenMarkov可以做更多。

Tetrad –是一个程序，用于创建因果模型和统计模型，从中模拟数据，进行估计，测试，预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。

Bayesbuilder –最简单的学习方法。有几个缺点，但可以在一个小时内完成10节点模型。

OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透，以色列与案件官员的业务安全，以色列招募情报资产;GSM(全球移动通信系统)底层技术中的基本不安全因素;

OSINT工具-osint.geekcq.com 、社会工程-案例篇、社工工具-

深网中的信息收集 deep web相关推荐

内网安全（信息收集）
DMZ:中文名称为"隔离区",也称"非军事化区".一般在两个防火墙之间 DMZ 内通常放置一些不含机密信息的公用服务器,比如 WEB 服务器.E-Mail 服务 ...
外网打点（信息收集）
前言作者简介:不知名白帽,网络安全学习者. 博客主页:https://blog.csdn.net/m0_63127854?type=blog 安全面试专栏:https://blog.csdn.net ...
爬去豆瓣网中电影信息并保存到本地目录当中
爬取豆瓣网中电影信息并保存到本地目录当中读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...
【湃哒星说安全】攻防演练中数据库信息收集方法记录
0x00 背景在攻防演练或红队评估项目中,项目成果往往依赖红队队员综合渗透技能和优良的自动化工具.信息收集贯穿整个项目生命周期,如果攻方通过获取互联网侧应用服务器权限,并以此为跳板突破目标单位互联网 ...
信息收集（web安全入门05）
为什么学习这节课程在划定了测试范围之后,就需要进入信息收集阶段.在这个阶段,渗透人员需要使用各种公共资源尽可能地获取测试目标的相关信息.他们从互联网上搜集信息的渠道主要有: 论坛.公告板.新闻组. ...
【网络安全】内网介绍+windows信息收集（含命令）
目录前言一.内网渗透测试是什么? 1.介绍 2.内外网区别 3.工作组是什么? 4.域是什么? 5.域的知识点 6.活动目录 7.活动目录主要功能 8.域权限二.windows信息收集 (1) ...
内网渗透：二、内网渗透的信息收集
一.本机信息收集(黑色背景为域成员,蓝色为域控) 1.1 查询网络配置信息 ipconfig /all (域成员,域控均可执行) 1.2查询本机的服务信息 wmic service list bri ...
html页面中常用标记,收集的web页面html中常用的特殊符号大全
收集的web页面html中常用的特殊符号大全 2007-03-09 00:00:00 作者: 收集的web页面html中常用的特殊符号大全 *特殊符号:·⊙①⊕◎Θ⊙*○¤㊣㈱@の*□*☆** ▲△▼ ...
pyqt 把控制台信息显示到_内网渗透初识—信息收集
进入到内网后,首先要对自己当前所处的网络环境有一个清楚地判断,收集到有关当前环境足够多的信息,为接下来的渗透做好准备 PS:文中提到的PowerSploit 本机信息包括操作系统,当前用户权限,内网 ...

深网中的信息收集 deep web

In our world, knowledge is power, timing is critical, accuracy is essential.

1. 深网&表网介绍

2. 研究深网的工具

先在浅网中查找更多的信息

选择正确的数据源

数据源的审核

审核二手信息源的作者

审核互联网资源的步骤

深网搜索引擎

商业深层网络数据库

OSINT- Open Source Intelligence 开源情报

情报分析师资源和白皮书

免费的贝叶斯软件

深网中的信息收集 deep web相关推荐

最新文章

热门文章

泰勒计分卡
+6	如果已知作者在同行评审的学术期刊上发表	-1	总是把“他们” 暗指为不清楚的阴谋组织（阴谋论）
+5	引用的文献是主要参考文献	-2	信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上
+3	文章托管在政府或大学的网站（.gov或.edu）上	-4	未为文章指定作者姓名（政府报告/警察报告）
+2	文章刊登在知名新闻媒体上（eg《纽约时报》《华盛顿邮报》）	-4	文章组织性很差，存在拼写和语法错误，这些指向肤浅的思想和研究
+2	如果作者在非同行评审的期刊上发表其他文章	+1	如果作者公开联系人电子邮件
+2	如果作者公开联系人的邮寄地址	+1	似乎是面向学术人员写的文章
+2	来自政府报告（不论报告年份）或引用的文献是二次引用