Hrefer是Xrumer配套软件,是一款全能的、极具潜力的搜索引擎抓取利器。Hrefer可以适用于Google, Bing, Yahoo, Altavista, MSN等主流搜索引擎。有两段视频,一定要看,背景音乐很不错。

http://www.56.com/u25/v_NjQyMDM5MzQ.html
http://www.56.com/u52/v_NjQyMDQyMjU.html

此教程为结合自己的了解,自主翻译,如有不足请支出修改。看完此教程能够更好的了解Hrefer,下面开始超越官方的Hrefer教程



Hrefer界面

Hrefer的设置项

Convert all links to index. 把收获的链接转变为首页链接(只支持论坛类型)
Reject domains with level lower than 2.  过滤二级以上的域名
Check all links “200 OK” response (will work SLOWLY). 检测链接200 OK状态。会降低获取链接的速度
Log founded hight-PR freehostings into the FreeBonus.txt. 记录高PR子域名,并且提供免费的hosting到FreeBonus.txt(在Hrefer根目录)
Enable filtering of duplicated links by hostnames. 程序运行时,过滤重复域名
Enable filtering of duplicated links on loading links database. 开启程序时,过滤重复域名(每次开启都会进行)
By hostnames and by entire URL. 按域名或者url
Deep of parsing (pages). 限制Parse页面数
Do not use additive words. 禁用“additional words”
Disable filtering harvested links by Sieve-filter. 禁用"Sieve-filter"
Query ordering. 搜索命令排列顺序
New query for each search engine or Same queries for each search engine SE是新的请求 还是 同样的请求
Auto resumption parsing after program starting. 自动开始
Parsing delay. 不同SE之间的请求间隔时间
Save ‘query -> URL’ into to filename_query.txt. 保存找到url的关键词到文本

不管用哪个SE获取数据,Hrefer中的Words和Additive Words都是必不可少的内容。
Words 通过尽可能多的词,增加对SE的请求,来增加获得url的可能性
Additive Words 特征词,一般为网站程序的特征代码(footprints)

Words database界面

通过“Create New!” 可以用来创建新的 Words database

可以通过以下几种方式得到Words databse数据
1. 词库 (可以轻易找到以下类型的words)
Top 500 English words
Top 2300 English words
26,000 English words
150,000 English words

2. 字典
在google中搜素“English dictionary filetype:txt”。可以找到很多字典类的内容。

3. 书籍
网站上有很多电子书可以下载到。最好是找到txt格式的。例如,manybooks.net(很赞,可以直接免费下载txt格式的电子书)。
接下来“Create New!” ,然后“Add words from text file…” 把刚才的txt格式的电子书导进去。轻松获得大量的Words。

可以到找些书籍,合并后再导入,这样一次就可以获得更多的Words。

4. Google
“Add words from Google…” ,“Enter keyword”,“Choose Language”  该方法是抽取搜索页面中的单词

Additive Words界面

Additive Words 也是添加尽可能多的词

下面来分析下Simple Machines这种类型的论坛。红色框出来的词,就可以认为是特征词。

先来看看首页

Welcome, Guest
Please login or register
Login with username
General Category
General Discussion
Posts
Topics
Last post by
Posts in
Topics by
Members
Latest Member
View the most recent posts on the forum
recent posts
More Stats
Users Online
Guests
Users
Users active in past 15 minutes
Most Online Today
Most Online Ever
Login
Forgot your password
Username
Password
Minutes to stay logged in
Always stay logged in
Powered by SMF
SMF 2006-2011
Simple Machines LLC

再来看看论坛分类页面

Subject
Started by
Replies
Views
Last post
Jump to
Topic
you have posted in
Normal Topic
Hot Topic
More than 15 replies
Very Hot Topic
More than 25 replies
Locked Topic
Sticky Topic
Poll

还要看看发帖的页面

Did you miss your activation email
Pages
Administrator
Member
Newbie
Logged
previous
next
Author
Print
Topic
Reply

Profile页面也要找找

Summary
Name
Posts
Position
Date Registered
Last Active
ICQ
AIM
MSN
YIM
Current Status
Picture/Text
Gender
Age
Location
Local Time
Language Signature
Show the last posts of this person
Show general statistics for this member

这几个页面的url
index.php/board
index.php/topic
index.php?action=profile
index.php?action=register
index.php?action=login
index.php?action=help

然后把以上找到的特征代码整理下,添加到“Additive words”,这样一个比较全面的SMF类型论坛的footprints就找到了。

如果是需要其他语言的SMF呢?
1. 以上找特征码的网站,直接在特定的语言去找。(不过语言不通是个不小的问题)
2. Google翻译,这个强大的工具应该会想到吧?看图。

Search Engines options & Filter界面

SE:可以选择搜索引擎
Sieve-filter:保存的链接必须与所填的数据匹配

自带的没太大作用,可以试试下面的这些:
topic.php?forum=
yabb.cgi?board=
yabb.pl?board=
index.php?topic=
index.php?board=
posting.php?mode=
ikonboard.cgi?s=
viewtopic.php?topic_id=
showflat.php?cat=
newreply.php?s=
showthread.php?postid=
showtopic.php?threadid=
viewthread.php?s=
dcboard.cgi?az=
forum_viewpost.asp?tid=
newreply.php?do=
viewtopic.php
showthread.php
showtopic
forumdisplay.php
viewforum.php
showforum
http://forum.
http://forums.
http://foro.
http://phorum/
/forum/
/forums/
/foro/
/phorum/

Multithreading界面

这里可以调节代理检测和获取链接的线程数。还有就是每个请求之间的暂停时间。

Proxylist 界面

Proxylist Optionns 界面

URL to checker HTTP-proxy 和 URL to Checker SOCKS中的地址一定要修改成自己的地址,要不代理会无法使用。在Hrefer/proxyc目录下面,的list.txt文件下面是用来找到proxy的地址。这里是重点,尽可能去找更多的list吧。

获得proxy的一项方法:
1. 买
2. 创建自己的proxy list
3. 找/proxyc/engine.php  Google “inurl:/proxyc/engine.php HTTP_HOST”

Sort link database by PR界面 (点击左上角Tools,可以找到)

排序方法
1. Standard 根据PR降序排列
2. Multisort 分成十份文件,每个文件相同的PR
3. Sort in range 只选择指定的PR范围排序

原文地址: http://photek30en.blogspot.com/2 ... ware-functions.html

原视频地址:
www.youtube.com/watch?v=R7KCrMVxsmM
www.youtube.com/watch?v=FWxFpCg89BI


本文转自: http://www.sem9.com/thread-7369-1.html#ixzz1qmfbMYGl、
作者:puzzup

转载于:https://blog.51cto.com/feifei999/1343276

Hrefer教程【超越官方】相关推荐

  1. 腾讯云数据库 MySQL 8.0 正式上线,性能全面超越官方版本

    7月8日,拥有60+全新特性,性能全面超越官方版本的腾讯云MySQL 8.0正式发布.在全新引擎的驱动下,在MySQL官方版本大幅度提升性能的基础上,腾讯云MySQL8.0数据库通过优化锁系统,事务系 ...

  2. [教程]微信官方开源UI库-WeUI使用方法【申明:来源于网络】

    [教程]微信官方开源UI库-WeUI使用方法 [ 教程]微信官方开源UI库-WeUI使用方法 地址:http://www.weui.org.cn/?/article/1 微信公众号开发-WeUI使用说 ...

  3. AFNnetworking快速教程,官方入门教程译

    AFNnetworking快速教程,官方入门教程译 分类: IOS2013-12-15 20:29 12489人阅读 评论(5) 收藏 举报 afnetworkingjsonios入门教程快速教程 A ...

  4. Aptos教程-参与官方激励测试网(AIT3 激励测试网)

    文章目录 Aptos教程-参与官方激励测试网(AIT3 激励测试网) AIT2参与步骤 其他 详细步骤 成功的标准和奖励 Aptos教程-参与官方激励测试网(AIT3 激励测试网) AIT-3关键日期 ...

  5. mysql安装的官方教程_MySQL官方教程及各平台的安装教程和配置详解入口

    官方文档入口: https://dev.mysql.com/doc/ 一般选择MySQL服务器版本入口: https://dev.mysql.com/doc/refman/en/ 在右侧有版本选择: ...

  6. 关于 MATLAB2019 快速入门教程(官方手册翻译)的几点说明

    4月份的两则博文: MATLAB2019 快速入门教程(官方手册翻译)(1/4) MATLAB2019 快速入门教程(官方手册翻译)(2/4) 是写在我尚未找到 MATLAB 中文文档时翻译的,现在我 ...

  7. dell服务器 win7系统安装教程,dell官方win7系统64位系统安装教程

    dell品牌电脑相信网友们都不会陌生,毕竟现在使用dell用户非常多.今天就要为网友们带来dell官方win7系统64位系统安装教程,只要网友们认真阅读dell官方win7系统64位系统安装教程,学会 ...

  8. 安装oracle到create inventory时卡住了怎么办_win10系统安装教程(官方工具)

    Hi,大家好. 对于小白用户,装系统是比较头疼的事,所以今天写一个简单易懂的装系统教程. 使用微软官方提供的工具制作U盘启动盘,操作简单,系统纯净,强烈建议小白用户使用.缺点是该工具功能单一,并且官方 ...

  9. 实用教程丨官方下载Oracle各版本安装软件及补丁包

    由于还有很多小伙伴不知道在哪里下载安装Oracle数据库软件,所以在这里总结一下官方下载Oracle软件及补丁的渠道和一些注意事项. 由于Oracle的开放下载政策,Oracle的软件下载没有任何限制 ...

最新文章

  1. Spring.Net Aop
  2. uva LCD-Display
  3. IT服务管理(ITSM):IT行业变革的思考(4)
  4. padding 不占宽高_不占地方的复式楼室内电梯,极致微型,节电省力颜值高
  5. dreamstart的催促
  6. 牛客练习赛46T1-华华教奕奕写几何【数学】
  7. 大学生如何成功就业。
  8. BugkuCTF-MISC题虎符
  9. 初创企业融资应量力而行
  10. python中括号配对检测_使用模板匹配在Python上进行对象检测!(附代码)
  11. linux mysql 查看字符集_Linux中查看和设置MySQL数据库字符集 一
  12. 2020年华为鲲鹏产业体系研究深度报告
  13. ROI和widthStep
  14. 回归方程的拟合优度检验_回归分析的“拟合优度”是什么?
  15. vscode写的html网页中文乱码
  16. 夜谈TCP/IP的起源和胜利
  17. matlab opnet,OPNET中设计网络 MATLAB
  18. ARM 汇编基础教程系列
  19. CSS 圆形图片,类似头像形状。
  20. 英文字符和数字间隔突然变大

热门文章

  1. 想知道机器学习掌握的怎么样了吗?这有一份自测题(附答案和解析)
  2. 免费教材丨第51期:数学基础课程----概率论教程、机器学习中的数学基础
  3. (已解决)module ‘tensorflow‘ has no attribute ‘app‘
  4. 今天的 IBM —— 一封来自 IBM 董事长、首席执行官 Arvind Krishna 的公开信
  5. 【必读】2019年深度学习自然语言处理最新十大发展趋势, 附报告下载
  6. 牛津大学名誉教授Colin Blakemore:大脑是如何计算的?
  7. CES 2019开胃菜竟然是芯片,英特尔 英伟达 高通 华为 AMD已经开打!
  8. 头秃,在线求名字:网易使用昵称交流,再也没有“哥,姐,总”
  9. 如果宁静是 Oracle,万茜、张雨绮、黄圣依是什么?
  10. IBMDB2数据库软件安装教程