深网中的信息收集 deep web
In our world, knowledge is power, timing is critical, accuracy is essential.
1. 深网&表网介绍
- Google,Bing和其他引擎使用蜘蛛机器人来爬网并索引内容,无法抓取到数据的原因:1)无法到达:eg.需要登录的商业数据库 ,2) 机器人只能读取html,机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
- 保守的最佳猜测是90%的Internet是Deep Web,而占10%的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为,Deep Web的90%是可搜索的。估计Deep Web中有30%是商业数据库,而20%是军事数据库。因此使用正确的工具和方法,可以免费搜索到大约50%的Deep Web。
- Surface Web通常是公司,人员和博客作者的网站。但是普通的个人网站上的信息,权威性不高,需要对来源和引用进行审核(很困难)。
- 深网将包含法院记录,人口普查记录的图像,也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比,对资源进行审核要容易得多,而且速度更快。但深网无法通过表网看到。图源网站
2. 研究深网的工具
数据是原始的、未经组织的、未经处理的事实;在上下文,结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理,然后审查数据,重新组织和可视化数据。
(口语) “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。
- Source Deck 一个关键而简单的工具;是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释,说明如何使用它们,以及对它们的信任程度。
- zotero 【快速入门指南】-- Firefox插件 帮助保存论文或其他学术论文的引文信息,可用于深网研究。
- maltego 一种关系映射工具,可帮助审查网站的权限 ;可用于开源情报(OSINT)和图形链接分析,收集和连接用于调查任务的信息 ;只要花1-2小时就可以学会如何使用它。
先在浅网中查找更多的信息
- 使用关键字制定 检索式; 搜索引擎很多,它们各有优势,但做的事都差不多:抓取网页并返回你想找到的内容,都使用布尔逻辑来缩小搜索范围;比如Google,Yahoo,Bing和Dogpile, PIPL, Zuula .多了解它们的特色有利于信息检索;
- 谷歌 具有深层网络的特色的功能:图书搜索(book.google.com)搜索当前和出的绝版图书和学术搜索(scholar.google.com科学论文),这些也是可以被爬虫从元数据中的信息遍历到。
搜索工具:
- Zuula.com
- Scholar.google.com
- dogpile.com
- Deeperweb.com –通过博客,新闻,网络常规,研究搜索等方式搜索最佳匹配。
- Touchgraph 漂亮的集群工具,通过它可以获得新资源
选择正确的数据源
- 原始的数据源是最接近我们的调查目标的信息或资料 ,因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息,则警方报告仍然是事件的主要来源。“
- 第二手资料可能会引用第一手资料,比如维基百科上的信息,Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道(企业官网的信息才是源头,才是第一手资料)
数据源的审核
- 对于从多个源头获得的信息,我们需要溯源,需要根据数据的权威性、数据可靠性、数据质量等方面来审核,也就是对数据源的排序/权限。eg事件发生时写的信件和日记,与为了迎合更大的市场而写的回忆录相比,可靠性更高。eg。比如使用谷歌地图时,它能为我们提供 A-B-C maps, mapquest
- 评估电子文档的价值,也就是衡量文档的“可信度”或“权威性”,毕竟网上充斥着各种垃圾邮件、诈骗信息;具体5个权限级别的特征请见 美国的历史与计算协会杂志(JAHC)关于电子材料的权限级别
审核二手信息源的作者
审查secondary sources的作者权限等级:这些作者在分析,解释和解构事件以查找模式和得出结论,但有的时候他们会歪曲分析,把结论往自己的期望的方向推理,要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义,再量化文章内容的权威性,还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法(如下表)审核这些二次创作者:从默认的“ 5”开始所有文章,从那里添加奖励或惩罚。最终的分数合计:
- 小于3分:作者几乎被忽略,
- 4-7分 : 作者可能有一定的可信度,但要谨慎,
- 8-14 : 可以放心地相信作者的信誉
- 15以上 : 高度可信
泰勒计分卡 +6 如果已知作者在同行评审的学术期刊上发表 -1 总是把“他们” 暗指为不清楚的阴谋组织(阴谋论) +5 引用的文献是主要参考文献 -2 信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上 +3 文章托管在政府或大学的网站(.gov或.edu)上 -4 未为文章指定作者姓名(政府报告/警察报告) +2 文章刊登在知名新闻媒体上(eg《纽约时报》
《华盛顿邮报》)-4 文章组织性很差,存在拼写和语法错误,这些指向肤浅的思想和研究 +2 如果作者在非同行评审的期刊上发表其他文章 +1 如果作者公开联系人电子邮件 +2 如果作者公开联系人的邮寄地址 +1 似乎是面向学术人员写的文章 +2 来自政府报告(不论报告年份)
或引用的文献是二次引用
审核互联网资源的步骤
- 从已知的资料中选个句子,用搜索引擎去搜,看是否可以找到元素网页,再对比作者和发布日期,看这个资料是不是从主要信息源复制来的;
- 信息的目标群体是学术人员还是大众?相对应地,能否由此了解作者的学术水平背景;
- 对于原始网页和站点,分析域扩展名:是* .com,*。org,*。net吗?或* .edu 或* .mil(军事);关于域扩展名请见信息检索 ;
- 查看整个域,看网站是免费博客服务还是专门的博客网站;
- 对于匿名作者专用的博客/网站,使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址
- 用反向IP查找 此人可能拥有的其他网站;比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站,也许作者拥有2-3个网站,那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息,以查找他拥有的2-3个网站。
- 从上到下检查网站,查看是否有“联系我们”页面。有邮件吗?它去哪个域?检查“隐私政策”页面,看看是否有提及的公司。使用时,请在“法律”页面中检查名称(如果有的话)。有版权吗?是谁的名字?
- 一旦有了作者的名字,转入深网进行背景检查。从Pipl.com开始,然后从Linkedin.com开始,然后从那里延伸下去。
eg查外国人:他/她有执照吗?检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常,论坛可以设置一个城市,用于消除通用名称的歧义,提供可能的匹配。- 使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常,这些网络表单将转发给电子邮件,并且来自其电子邮件帐户的任何回复都会带有身份信息。
深网搜索引擎
见 搜索引擎篇
反向图片搜索(Reverse Image Search):通过上传图片或者粘贴图片url,然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。
商业深层网络数据库
美国的许多图书馆都有许可证,允许其用户免费访问商业数据库,比如
- Findlaw –有关法律和法院案件的一切
- 北极光Northern Light –竞争情报,商业分析,产品开发和技术研究。
- Intellus –背景检查的良好来源
- Intelius - Public Records Information 背景调查,联系信息,地址,犯罪记录,电话号码,社交媒体,照片,资产等公共记录报告
- Xrefer —基于236个标题和290万以上条目的付费数据库。
- LexisNexis -被称为全球最大的公共记录,未发布的意见,法律,新闻和商业信息的集合。超过35,000个在线资源。
- Get Abstracts 获取摘要 -大型在线图书馆,提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。
- Forrester研究 —一家独立的技术和市场研究公司,发布有关各种主题的深入研究报告。
- Factiva -在线收集约10,000个单个来源。
- US Search 美国搜索 –背景调查和定位服务
OSINT- Open Source Intelligence 开源情报
从开放的第三方来源收集的情报;来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube
European Commission staff 的一个关于开源情报的讲座 ,by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程,输关键字 Intelligence Analysis 就可以找到很多学校的案例。
情报分析师资源和白皮书
不熟悉情报和分析技术可参考一下美国政府的两份文件:
- Intelligence_analyst_toolbox 情报分析工具箱的基本概述,大约十二页
- 情报作为调查职能 –情报分析和基础知识入门,45页的PDF。
- 用算法策略指导情报分析--计算机方法 –有助于分析的一些算法的概述:包括关联分析(关联规则挖掘)、图论的greedy approximation algorithm、启发式算法、密集二部图的局部搜索算法、最大熵模型...etc
- 贝叶斯智能分析 declassified-baysian-analysis.pdf –来自中央情报局的使用贝叶斯分析的解密文件(14页PDF,以中东为例)。
情报周期:在专注于IMINT时,它适用于SIGINT,GEOINT,TECHINT,HUMINT等。
免费的贝叶斯软件
用贝叶斯信念网络可以估计不确定性较高的事件。;3个在.jar或java中运行的贝叶斯网络
OpenMarkov –比Bayesbuilder先进得多,其网站上也提供了教程。对于贝叶斯网络,OpenMarkov可以做更多。
Tetrad –是一个程序,用于创建因果模型和统计模型,从中模拟数据,进行估计,测试,预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。
Bayesbuilder –最简单的学习方法。有几个缺点,但可以在一个小时内完成10节点模型。
OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透,以色列与案件官员的业务安全,以色列招募情报资产;GSM(全球移动通信系统)底层技术中的基本不安全因素;
OSINT工具-osint.geekcq.com 、社会工程-案例篇、 社工工具-
深网中的信息收集 deep web相关推荐
- 内网安全(信息收集)
DMZ:中文名称为"隔离区",也称"非军事化区".一般在两个防火墙之间 DMZ 内通常放置一些不含机密信息的公用服务器,比如 WEB 服务器.E-Mail 服务 ...
- 外网打点(信息收集)
前言 作者简介:不知名白帽,网络安全学习者. 博客主页:https://blog.csdn.net/m0_63127854?type=blog 安全面试专栏:https://blog.csdn.net ...
- 爬去豆瓣网中电影信息并保存到本地目录当中
爬取豆瓣网中电影信息并保存到本地目录当中 读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...
- 【湃哒星说安全】攻防演练中数据库信息收集方法记录
0x00 背景 在攻防演练或红队评估项目中,项目成果往往依赖红队队员综合渗透技能和优良的自动化工具.信息收集贯穿整个项目生命周期,如果攻方通过获取互联网侧应用服务器权限,并以此为跳板突破目标单位互联网 ...
- 信息收集(web安全入门05)
为什么学习这节课程 在划定了测试范围之后,就需要进入信息收集阶段.在这个阶段,渗透人员需要使用各种公 共资源尽可能地获取测试目标的相关信息.他们从互联网上搜集信息的渠道主要有: 论坛.公告板.新闻组. ...
- 【网络安全】内网介绍+windows信息收集(含命令)
目录 前言 一.内网渗透测试是什么? 1.介绍 2.内外网区别 3.工作组是什么? 4.域是什么? 5.域的知识点 6.活动目录 7.活动目录主要功能 8.域权限 二.windows信息收集 (1) ...
- 内网渗透:二、内网渗透的信息收集
一.本机信息收集(黑色背景为域成员,蓝色为域控) 1.1 查询网络配置信息 ipconfig /all (域成员,域控均可执行) 1.2查询本机的服务信息 wmic service list bri ...
- html页面中常用标记,收集的web页面html中常用的特殊符号大全
收集的web页面html中常用的特殊符号大全 2007-03-09 00:00:00 作者: 收集的web页面html中常用的特殊符号大全 *特殊符号:·⊙①⊕◎Θ⊙*○¤㊣㈱@の*□*☆** ▲△▼ ...
- pyqt 把控制台信息显示到_内网渗透初识—信息收集
进入到内网后,首先要对自己当前所处的网络环境有一个清楚地判断,收集到有关当前环境足够多的信息,为接下来的渗透做好准备 PS:文中提到的PowerSploit 本机信息 包括操作系统,当前用户权限,内网 ...
最新文章
- .net之生成图表的控件(柱状图,曲线图,饼状图) [转]
- 多径信道理论的直观感受与MATLAB仿真
- (JAVA)reflect练习
- Pandas Groupby ApplyAgg
- 关于用户自定义控件与引用该控件的页面之间的javascript脚本冲突
- 38个敏感词_敏感词运营体系搭建手册—正则关键词
- java rcp 教程 书,Eclipse RCP Tutorial(中文教程)
- word文档打钩记录快捷键
- /etc/passwd,/etc/shadow文件详解,及密码复杂度设置
- php echo eot,php理解print EOT分界符和echo EOT的用法的简单示例
- 1.图灵学院-----阿里/京东/滴滴/美团整理----高频JAVA并发篇
- 群晖nas免费内网穿透,实现外网异地远程访问
- 【面试】Tomcat面试题
- 粒子群优化算法改进之多子群合作粒子群优化算法
- Linux系统中的超级用户,普通用户,特殊用户(特殊用户)3种类型
- BP算法双向传,链式求导最缠绵(深度学习入门系列之八)
- 001、element-ui前言
- 「津津乐道播客」#197. 拼娃时代:聊聊帝都拼娃史
- 13、DA数模转换(PWM输出)
- 五十音图平假名随机生成