In our world, knowledge is power, timing is critical, accuracy is essential.

1. 深网&表网介绍

  • Google,Bing和其他引擎使用蜘蛛机器人来爬网并索引内容,无法抓取到数据的原因:1)无法到达:eg.需要登录的商业数据库 ,2) 机器人只能读取html,机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
  • 保守的最佳猜测是90%的Internet是Deep Web,而占10%的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为,Deep Web的90%是可搜索的。估计Deep Web中有30%是商业数据库,而20%是军事数据库。因此使用正确的工具和方法,可以免费搜索到大约50%的Deep Web。
  • Surface Web通常是公司,人员和博客作者的网站。但是普通的个人网站上的信息,权威性不高,需要对来源和引用进行审核(很困难)。
  • 深网将包含法院记录,人口普查记录的图像,也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比,对资源进行审核要容易得多,而且速度更快。但深网无法通过表网看到。图源网站

2.  研究深网的工具

数据是原始的、未经组织的、未经处理的事实;在上下文,结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理,然后审查数据,重新组织和可视化数据。
(口语) “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。

  1. Source Deck   一个关键而简单的工具;是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释,说明如何使用它们,以及对它们的信任程度。
  2. zotero 【快速入门指南】-- Firefox插件  帮助保存论文或其他学术论文的引文信息,可用于深网研究。
  3. maltego   一种关系映射工具,可帮助审查网站的权限 ;可用于开源情报(OSINT)和图形链接分析,收集和连接用于调查任务的信息 ;只要花1-2小时就可以学会如何使用它。

先在浅网中查找更多的信息

  • 使用关键字制定 检索式; 搜索引擎很多,它们各有优势,但做的事都差不多:抓取网页并返回你想找到的内容,都使用布尔逻辑来缩小搜索范围;比如Google,Yahoo,Bing和Dogpile,  PIPL, Zuula .多了解它们的特色有利于信息检索;
  • 谷歌  具有深层网络的特色的功能:图书搜索(book.google.com)搜索当前和出的绝版图书和学术搜索(scholar.google.com科学论文),这些也是可以被爬虫从元数据中的信息遍历到。

搜索工具:

  1. Zuula.com
  2. Scholar.google.com
  3. dogpile.com
  4. Deeperweb.com  –通过博客,新闻,网络常规,研究搜索等方式搜索最佳匹配。
  5. Touchgraph      漂亮的集群工具,通过它可以获得新资源

选择正确的数据源

  • 原始的数据源是最接近我们的调查目标的信息或资料 ,因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息,则警方报告仍然是事件的主要来源。“
  • 第二手资料可能会引用第一手资料,比如维基百科上的信息,Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道(企业官网的信息才是源头,才是第一手资料)

数据源的审核

  • 对于从多个源头获得的信息,我们需要溯源,需要根据数据的权威性、数据可靠性、数据质量等方面来审核,也就是对数据源的排序/权限。eg事件发生时写的信件和日记,与为了迎合更大的市场而写的回忆录相比,可靠性更高。eg。比如使用谷歌地图时,它能为我们提供 A-B-C maps, mapquest
  • 评估电子文档的价值,也就是衡量文档的“可信度”或“权威性”,毕竟网上充斥着各种垃圾邮件、诈骗信息;具体5个权限级别的特征请见 美国的历史与计算协会杂志(JAHC)关于电子材料的权限级别

审核二手信息源的作者

审查secondary sources的作者权限等级:这些作者在分析,解释和解构事件以查找模式和得出结论,但有的时候他们会歪曲分析,把结论往自己的期望的方向推理,要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义,再量化文章内容的权威性,还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法(如下表)审核这些二次创作者:从默认的“ 5”开始所有文章,从那里添加奖励或惩罚。最终的分数合计:

  • 小于3分:作者几乎被忽略,
  • 4-7分  : 作者可能有一定的可信度,但要谨慎,
  • 8-14   :  可以放心地相信作者的信誉
  • 15以上  : 高度可信

                                                                                             泰勒计分卡
+6 如果已知作者在同行评审的学术期刊上发表 -1 总是把“他们” 暗指为不清楚的阴谋组织(阴谋论)
+5 引用的文献是主要参考文献 -2 信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上
+3 文章托管在政府或大学的网站(.gov或.edu)上 -4 未为文章指定作者姓名(政府报告/警察报告)
+2  文章刊登在知名新闻媒体上(eg《纽约时报》
《华盛顿邮报》)
-4 文章组织性很差,存在拼写和语法错误,这些指向肤浅的思想和研究
+2 如果作者在非同行评审的期刊上发表其他文章 +1 如果作者公开联系人电子邮件
+2 如果作者公开联系人的邮寄地址 +1  似乎是面向学术人员写的文章
+2  来自政府报告(不论报告年份)
或引用的文献是二次引用
 

审核互联网资源的步骤

  1. 从已知的资料中选个句子,用搜索引擎去搜,看是否可以找到元素网页,再对比作者和发布日期,看这个资料是不是从主要信息源复制来的;
  2. 信息的目标群体是学术人员还是大众?相对应地,能否由此了解作者的学术水平背景;
  3. 对于原始网页和站点,分析域扩展名:是* .com,*。org,*。net吗?或* .edu 或* .mil(军事);关于域扩展名请见信息检索 ;
  4. 查看整个域,看网站是免费博客服务还是专门的博客网站;
  5. 对于匿名作者专用的博客/网站,使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址
  6. 用反向IP查找  此人可能拥有的其他网站;比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站,也许作者拥有2-3个网站,那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息,以查找他拥有的2-3个网站。
  7. 从上到下检查网站,查看是否有“联系我们”页面。有邮件吗?它去哪个域?检查“隐私政策”页面,看看是否有提及的公司。使用时,请在“法律”页面中检查名称(如果有的话)。有版权吗?是谁的名字?
  8. 一旦有了作者的名字,转入深网进行背景检查。从Pipl.com开始,然后从Linkedin.com开始,然后从那里延伸下去。
    eg查外国人:他/她有执照吗?检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常,论坛可以设置一个城市,用于消除通用名称的歧义,提供可能的匹配。
  9. 使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常,这些网络表单将转发给电子邮件,并且来自其电子邮件帐户的任何回复都会带有身份信息。

深网搜索引擎

见 搜索引擎篇

反向图片搜索(Reverse Image Search):通过上传图片或者粘贴图片url,然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。

商业深层网络数据库

美国的许多图书馆都有许可证,允许其用户免费访问商业数据库,比如

  • Findlaw –有关法律和法院案件的一切
  • 北极光Northern Light  –竞争情报,商业分析,产品开发和技术研究。
  • Intellus –背景检查的良好来源
  • Intelius - Public Records Information  背景调查,联系信息,地址,犯罪记录,电话号码,社交媒体,照片,资产等公共记录报告
  • Xrefer  —基于236个标题和290万以上条目的付费数据库。
  • LexisNexis -被称为全球最大的公共记录,未发布的意见,法律,新闻和商业信息的集合。超过35,000个在线资源。
  • Get Abstracts 获取摘要 -大型在线图书馆,提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。
  • Forrester研究 —一家独立的技术和市场研究公司,发布有关各种主题的深入研究报告。
  • Factiva -在线收集约10,000个单个来源。
  • US Search 美国搜索 –背景调查和定位服务

OSINT- Open Source Intelligence 开源情报

从开放的第三方来源收集的情报;来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube

European Commission staff 的一个关于开源情报的讲座 ,by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程,输关键字 Intelligence Analysis  就可以找到很多学校的案例。

情报分析师资源和白皮书

不熟悉情报和分析技术可参考一下美国政府的两份文件:

  • Intelligence_analyst_toolbox     情报分析工具箱的基本概述,大约十二页
  • 情报作为调查职能 –情报分析和基础知识入门,45页的PDF。
  • 用算法策略指导情报分析--计算机方法 –有助于分析的一些算法的概述:包括关联分析(关联规则挖掘)、图论的greedy approximation algorithm、启发式算法、密集二部图的局部搜索算法、最大熵模型...etc
  • 贝叶斯智能分析 declassified-baysian-analysis.pdf –来自中央情报局的使用贝叶斯分析的解密文件(14页PDF,以中东为例)。
    情报周期:在专注于IMINT时,它适用于SIGINT,GEOINT,TECHINT,HUMINT等。

免费的贝叶斯软件

用贝叶斯信念网络可以估计不确定性较高的事件。;3个在.jar或java中运行的贝叶斯网络

  • OpenMarkov –比Bayesbuilder先进得多,其网站上也提供了教程。对于贝叶斯网络,OpenMarkov可以做更多。

  • Tetrad –是一个程序,用于创建因果模型和统计模型,从中模拟数据,进行估计,测试,预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。

  • Bayesbuilder –最简单的学习方法。有几个缺点,但可以在一个小时内完成10节点模型。

OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透,以色列与案件官员的业务安全,以色列招募情报资产;GSM(全球移动通信系统)底层技术中的基本不安全因素; 

OSINT工具-osint.geekcq.com 、社会工程-案例篇、 社工工具-

深网中的信息收集 deep web相关推荐

  1. 内网安全(信息收集)

    DMZ:中文名称为"隔离区",也称"非军事化区".一般在两个防火墙之间 DMZ 内通常放置一些不含机密信息的公用服务器,比如 WEB 服务器.E-Mail 服务 ...

  2. 外网打点(信息收集)

    前言 作者简介:不知名白帽,网络安全学习者. 博客主页:https://blog.csdn.net/m0_63127854?type=blog 安全面试专栏:https://blog.csdn.net ...

  3. 爬去豆瓣网中电影信息并保存到本地目录当中

    爬取豆瓣网中电影信息并保存到本地目录当中 读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...

  4. 【湃哒星说安全】攻防演练中数据库信息收集方法记录

    0x00 背景 在攻防演练或红队评估项目中,项目成果往往依赖红队队员综合渗透技能和优良的自动化工具.信息收集贯穿整个项目生命周期,如果攻方通过获取互联网侧应用服务器权限,并以此为跳板突破目标单位互联网 ...

  5. 信息收集(web安全入门05)

    为什么学习这节课程 在划定了测试范围之后,就需要进入信息收集阶段.在这个阶段,渗透人员需要使用各种公 共资源尽可能地获取测试目标的相关信息.他们从互联网上搜集信息的渠道主要有: 论坛.公告板.新闻组. ...

  6. 【网络安全】内网介绍+windows信息收集(含命令)

    目录 前言 一.内网渗透测试是什么? 1.介绍 2.内外网区别 3.工作组是什么? 4.域是什么? 5.域的知识点 6.活动目录  7.活动目录主要功能 8.域权限 二.windows信息收集 (1) ...

  7. 内网渗透:二、内网渗透的信息收集

    一.本机信息收集(黑色背景为域成员,蓝色为域控) 1.1 查询网络配置信息 ipconfig /all  (域成员,域控均可执行) 1.2查询本机的服务信息 wmic service list bri ...

  8. html页面中常用标记,收集的web页面html中常用的特殊符号大全

    收集的web页面html中常用的特殊符号大全 2007-03-09 00:00:00 作者: 收集的web页面html中常用的特殊符号大全 *特殊符号:·⊙①⊕◎Θ⊙*○¤㊣㈱@の*□*☆** ▲△▼ ...

  9. pyqt 把控制台信息显示到_内网渗透初识—信息收集

    进入到内网后,首先要对自己当前所处的网络环境有一个清楚地判断,收集到有关当前环境足够多的信息,为接下来的渗透做好准备 PS:文中提到的PowerSploit 本机信息 包括操作系统,当前用户权限,内网 ...

最新文章

  1. .net之生成图表的控件(柱状图,曲线图,饼状图) [转]
  2. 多径信道理论的直观感受与MATLAB仿真
  3. (JAVA)reflect练习
  4. Pandas Groupby ApplyAgg
  5. 关于用户自定义控件与引用该控件的页面之间的javascript脚本冲突
  6. 38个敏感词_敏感词运营体系搭建手册—正则关键词
  7. java rcp 教程 书,Eclipse RCP Tutorial(中文教程)
  8. word文档打钩记录快捷键
  9. /etc/passwd,/etc/shadow文件详解,及密码复杂度设置
  10. php echo eot,php理解print EOT分界符和echo EOT的用法的简单示例
  11. 1.图灵学院-----阿里/京东/滴滴/美团整理----高频JAVA并发篇
  12. 群晖nas免费内网穿透,实现外网异地远程访问
  13. 【面试】Tomcat面试题
  14. 粒子群优化算法改进之多子群合作粒子群优化算法
  15. Linux系统中的超级用户,普通用户,特殊用户(特殊用户)3种类型
  16. BP算法双向传,链式求导最缠绵(深度学习入门系列之八)
  17. 001、element-ui前言
  18. 「津津乐道播客」#197. 拼娃时代:聊聊帝都拼娃史
  19. 13、DA数模转换(PWM输出)
  20. 五十音图平假名随机生成

热门文章

  1. iOS界面回到主页刷新列表
  2. 【前端】实现视频自定义字幕,中英文,彩色,你也可以
  3. c# modbus RTU CRC16校验和计算
  4. Kali 下载安装Google Chrome谷歌
  5. 电源软启动的实用设计技巧
  6. mysql存储过程之游标遍历数据表
  7. C语言—函数_成仙不问道
  8. PS学习-抠图与创意合成处理(二)--为梯田水面合成创意火烧云
  9. 7.Flutter教程 — 基础组件综合实例
  10. 【附白皮书下载】智能制造专家黄贞枝:如何用科学方法,让生产排程最优化?