Msray,是一款使用GO语言研发的企业级新一代多功能信息采集软件。具有高效率、低占用、功能强大、定制灵活、上手简单、支持webhook等特点。

主要运用于全网域名/URL网址/IP信息检索、联系方式信息采集、指定关键词批量数据采集、网络推广与分析、内容源收集,以及为各种大数据分析等提供数据支撑。

提供WEB管理后台对软件进行相关操作,无需使用复杂的命令,功能强大且简单易上手!

在线文档:http://www.msray.net/doc

二、任务引擎功能介绍

1:搜索引擎任务

基于任务配置,并发用多个搜索引擎(可分别自定义每个引擎的线程数,已经自定义开启的引擎),批量采集指定关键词的搜索结果。同时支持国内与国外主流引擎,包括但不限于百度、必应、谷歌、神马、yandex、duckduckgo等;

支持存储的信息:域名、根网址、详细页面的URL、标题、描述、IP、服务器所属国家、来源搜索引擎、来源关键词等;

同时支持自定义无限采集(自动从搜索引擎抓取相关搜索词、自动从采集结果网页中抓取keyword等实现);

支持重复关键词采集判断,系统可识别已经采集过的关键词。

2:系统爬虫引擎任务

可自定义线程,高并发的从全网爬行抓取URL/域名等信息。支持存储的信息:域名、根网址、详细页面的URL、标题、描述、IP、服务器所属国家等;

3: 联系信息抓取引擎

可自定义线程,高并发的从导入的URL文件中,抓取每个网站的联系信息。

支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;

电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式;

邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容!

facebook账号同时兼容ID格式与账号名格式!

支持自动保存采集进度,可停止后下次接着采集;

三、过滤引擎功能说明

过滤引擎,与重复过滤不同。重复过滤是系统内置的。而过滤引擎是可以自定义配置,根据多个维度,对抓取到的结果进行处理的引擎。

比如只想要顶级域名的结果,只存储网址对那个IP属于某个国家的结果,比如不想采集后缀为edu,gov的域名,那么都可以使用过滤引擎来实现。目前内置了6个维度的过滤功能。

注意:如果在任务中使用了过滤引擎,会一定程度上降低运行效率。

msray支持过滤方案管理,可根据用户不同时期的需求,自定义过滤引擎的方案,支持多个。在任务中可选择运用某一个方案去实现过滤效果。创建的过滤方案并不会自动运用到任务,只有创建任务的时候配置任务所属的过滤方案,才会生效!

四、导出引擎功能说明

程序支持两种导出功能。一种是以"任务"为单位的结果导出,一种是以"时间"为单位的结果导出;

以"任务"为单位的结果导出,需要在搜索任务或者外链任务里面操作;

以"时间"为单位的导出,需要在"导出管理"菜单中。注意,该数据包含了某个时间内的搜索任务以及外链任务的所有结果。

支持TXT、CSV、JSON 等三种导出文件类型;

需要特别说明的是,JSON类型会把所有结果导出为一个JSON数组。方便外部软件处于与识别;

支持自动保存采集进度,可停止后下次接着采集;
同时支持自定义导出字段内容与自定义导出格式;
同时支持导出结果文件下载到本地,以及导出保存到服务器目录;

五、推送引擎(web-hook)功能说明

推送简介:实时把程序采集到的数据,以HTTP POST协议发送到用户指定的HTTP接口;

该功能是msray程序为了方便用户对结果进行二次开发扩展与自定义数据处理而提供的个性化功能。

比如程序使用bing引擎,搜索"电影"关键词。每采集到一条数据,就会把经过数据后的数据,实时推送到http://www.xxxx.com/msray.php 这个网络接口地址;(该数据是经过处理后的,无需担心重复与过滤问题问题)

六、重复判断引擎功能说明

软件前期版本,使用redis的set类型的特性来实现重复过滤功能。后期为了提升效率与降低单机redis并发瓶颈,采用了布隆过滤器来实现,并且支持持久化机制。支持亿级数据的快速重复判断。

七、目前支持的搜索引擎说明

一、msray自带引擎

自带引擎,属于msray自带的域名/网址抓取引擎,与其他搜索引擎的蜘蛛类似;通过创建外链任务使用;

二、必应搜索

必应搜索引擎,无视安全验证不需要代理!可多线程稳定持续搜索;

三、百度移动版

可多线程持续稳定采集,不需要代理!已经突破安全验证!

四、百度电脑版

可多线程持续稳定采集,不需要代理!已经突破安全验证!

五、谷歌搜索(官方版)

google原版引擎,需要HTTP代理,否则容易出安全验证(不建议使用);强烈建议使用"谷歌镜像引擎",无需代理无需翻墙! 官方版本属于备用;

六、谷歌搜索(镜像版)

支持自定义镜像,内置稳定国内DIY镜像地址无需翻墙;

七、神马搜索引擎

神马是全球第一款完全基于移动互联网的搜索引擎!

八、yandex搜索引擎

俄罗斯知名多语言搜索引擎,具有世界第四大搜索引擎之称!

持续添加中...

一款超好用的企业级URL采集软件(Msray-plus)相关推荐

  1. mysql url查找_Superl-url:一款开源、强大的关键词URL采集工具

    原标题:Superl-url:一款开源.强大的关键词URL采集工具 superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集. 程 ...

  2. 做三维模型_这几款倾斜实景三维裸眼3D采集软件你了解吗?

    文章转载于众智绘云 部分软件介绍由GIS前沿添加和修改,版权归原作者所有 作为国际测绘领域一项高新技术,倾斜摄影测量(ObliquePhotogrammetry)因其能快速.高效获取地面高分辨率.高重 ...

  3. 拓客神器,使用(url采集工具-msray)精准采集手机号,邮箱等

    拓客神器,使用(msray)精准采集手机号,邮箱等 企业在客户拓展上否遇到以下痛点 1:客户资源少 海量信息碎片化,企业查询效果差,无法批量找到优质潜在客户,销售情况不如预期 2:获客成本高 业务竞争 ...

  4. 10款超赞的Android智能车机软件

    1.车机桌面软件 车机桌面软件内置了汽车迈速表功能,驰骋在一望无垠的高速公路上,相当酷炫,同事配合GPS信号,实时定位当前位置天气情况,再也不用在行车过程中打开手机看天气!非常人性化.同时大家可以在屏 ...

  5. python好用的软件_【分享|10款超好用的辅助Python的软件,初学者请查收!】- 环球网校...

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注Py ...

  6. 推荐3款超可爱,充满少女心的软件给你

    推荐一:桌面小管家 它是一款功能厉害的桌面组件和桌面美化软件:支持安卓版本.它的Android版本目前完全免费,不仅支持丰富全面的桌面小工具,还支持手机壁纸和手机主题板块.除了桌面小工具功能,它的主题 ...

  7. 10款超好用的矢量图软件,轻松绘制矢量图

    大家好.我是不知名设计师l1m0_,今天分享内容为:10款超好用的矢量图软件.生活中经常需要绘制或者用到矢量图的朋友一定不能错过,一起来看看吧. 矢量图软件是指使用户能够使用数学和几何命令,而不是单个 ...

  8. 推荐十款推荐十款超赞的Googleamp;nbs…

    摘要:一款好的浏览器,除了可以浏览网页之外,还应该是个"全能选手".谷歌的Chrome的魅力就在于可以安装各种扩展插件,让其自身的功能更加丰富.所谓"好马还需配好鞍&qu ...

  9. SaaSBase:推荐七款超好用的大数据分析工具

    如今,大小企业都可以利用商业智能工具来理解复杂的大数据.通过收集和分析这些数据,并将其转化成易于理解的报告,这些解决方案可以为企业提供有价值的洞察力,从而提高企业利润.SaaSBase(saasbas ...

  10. Python培训教程分享:10款超好用的Python开发工具

    学会Python技术后,我们在参加工作的时候如果能有辅助工具的话,那么会很大程度的提高我们的工作效率,那么Python都有哪些好用的开发工具呢?下面小编就为大家详细的介绍一下10款超好用的Python ...

最新文章

  1. mysql预处理 更新_MySQL 预处理方法更新删除-2018年04月27日00时59分
  2. 东华之旅vs第一次坐飞机经历2018-06-10
  3. undefined reference to 问题解决方法
  4. 【模拟】【递归】电子表格(jzoj 2127)
  5. html-其他常见标签的使用
  6. 机器学习解决什么问题_机器学习帮助解决水危机
  7. mysql数据库之忘记root密码
  8. opengl学习笔记(六)
  9. 无可奈何花落去,数据丢失时时来;何当共谈完整性,却话巴山夜雨时----详解SQL Server 数据库库完整性检查和置疑修复
  10. 会买单吗?李楠创办的怒喵科技发布新品牌了,推出潮流无线桌面产品
  11. Android动态壁纸画布透明,Android 动态壁纸LayoutParams问题
  12. html表格内容自动更新,ElementUI table 组件展开 expand,动态更新数据时,视图没有自动更新...
  13. Unable to resolve dependency for ':app@debug/compileClasspath'
  14. java项目 服务器部署Word转成PDF乱码
  15. 51单片机课程设计——led点阵广告牌程序设计
  16. RTI -- 实时中断
  17. LISnlogn写法
  18. RPG Maker mv框架代码解析之窗口图片显示
  19. 9.20模拟赛T1[聪明的小偷]
  20. 学会吊打面试官之set

热门文章

  1. 手机阅读“宝”——Apabi Reader for Android
  2. 【5】分享两个小而实用的IP扫描仪
  3. 使用运动探测器和训练有素的DNN检测害虫
  4. DirectShow之视频渲染
  5. 阿里云 php shopex,开shopex
  6. SPI FLASH与NOR FLASH的区别
  7. DCN神州数码无线理论与配置逻辑
  8. PHP之AJAX、POST传值【顶、踩】
  9. Hybird App开发,懂得小程序+kbone+finclip就够了!
  10. 汇编语言10堆栈平衡