代理刷网页点击量-点到为止 2014-03-11 09:40

之前在oschina上看到一个用python写的代理刷网页点击量，最近学习了下Python的基本语法，仔细研读了下代码，
“代码主要实现网页的点击量，除了实现次功能点外，还有三个知识点：
1、随机获取代理ip，通过代理ip访问指定站点，其目的是防止ip被封
2、访问一个页面后，随机休息几秒，再访问，其目的是防止网站前面有4-7层过滤设备拦截
3、修改http的user agent字段，有些网站和4-7层设备会检查”

第一点，获取代理IP，这个功能很常用，例如投票、伪装自己，原帖在获取代理IP网页源代码后（ urllib2），用正则表达式提取IP和端口号，而另一篇文章用第三方库BeautifulSoup来处理网页-“ 简单的博客文章爬虫”。
第二点，发现原帖没访问一个页面后，就重新做第一步以更新代理IP列表，实际运行过程中，获取代理IP的过程用的时间很长，这是个小缺点，其实可以通过记录失败次数是否达到一个上限来决定是否更新代理IP列表。

本着学习熟练Python和黑客技巧的目的，决定仿照代理刷网页点击量的方法，重写一个Python程序，该程序用BeautifulSoup处理网页来获得代理IP列表。

两步走，首先实现获取代理IP列表，做成一个Module，方便以后其他程序用；第二步就是实现刷点击。

获取代理IP列表花了很长时间，原因我参考的BeautifulSoup学习网站用的不是最新版，而我下的却是最新版的BeautifulSoup 4，无语~~~ 教训是，以后这种技术还是用它自己的官方文档学比较好。
代码：-- proxyIPList.py

import urllib2,urllib,random
from bs4 import BeautifulSoup
#import Html
PROXYIPURL='http://www.xici.net.co/nn/'
#获取有代理IP的网页源代码
def getProxyHtml():page=urllib.urlopen(PROXYIPURL)html=page.read()return html
#    return Html.html
#解析网页获得代理IP列表
def getProxyIPList():print '---getting proxy ip html---'soup=BeautifulSoup(getProxyHtml())print '---proxy ip html gets!-----'   tr_list=soup.find_all('tr',{'class':True})proxy_list=[]for tr in tr_list:       ip_and_port=str(tr.contents[3].string)+":"+str(tr.contents[5].string)http_or_https=str(tr.contents[11].string).lower()a0='http://%s' % (ip_and_port)a1={'%s'%http_or_https:'%s'%a0}proxy_list.append(a1)return proxy_listif __name__=='__main__':
#    htmlText=getProxyHtml()
#    print htmlTextprint getProxyIPList()

原帖给的代理IP网站上不了，自己找了一个西刺网站，但访问速度较慢。

第二步的刷点击量就仿照原帖，修改了下更新代理IP列表，顺利多了。 main.py

import urllib2,re,time,urllib,random,user_agentsimport proxyIPListproxy_list=[]def getHtml(url):   proxy_ip =random.choice(proxy_list) #在proxy_list中随机取一个ipprint 'chose proxy ip:',proxy_ip   proxy_support = urllib2.ProxyHandler(proxy_ip)opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)urllib2.install_opener(opener)request = urllib2.Request(url)user_agent = random.choice(user_agents.user_agents)  #在user_agents中随机取一个做user_agentrequest.add_header('User-Agent',user_agent) #修改user-Agent字段#print user_agenthtml = urllib2.urlopen(request).read()#return proxy_ip
URLS = ['http://jluhlh.blog.sohu.com/','http://item.taobao.com/item.htm?spm=a1z10.1.w4004-3674808198.4.8YvsgI&id=37755249622',]
proxy_list = proxyIPList.getProxyIPList()
count_False,count= 0,0
while True:for url in URLS:count +=1try:proxy_ip=getHtml(url)           except urllib2.URLError:#print 'URLError! The bad proxy is %s' %proxy_ipcount_False += 1except urllib2.HTTPError:#print 'HTTPError! The bad proxy is %s' %proxy_ipcount_False += 1except:#print 'Unknown Errors! The bad proxy is %s ' %proxy_ipcount_False += 1randomTime = random.uniform(1,3) #取1-10之间的随机浮点数time.sleep(randomTime) #随机等待时间print '%d Eroors,%d ok,总数 %d' %(count_False,count - count_False,count)if(count_False!=0 and count_False%10==0):#如果错误数太多则刷行代理IP列表proxy_list = proxyIPList.getProxyIPList()

另外还有一个 user_agents.py,定义了一个各种http请求头中user_agent的列表。由于搜狐博客的限制，就不给出完全的代码了。

问题：
运行之后点击量好像没增加，打算学习下urllib2代理访问的知识，再看看哪有问题。
urllib2的http和https代理知识http://blog.csdn.net/liukeforever/article/details/6311282和http://blog.chinaunix.net/uid-20313988-id-143483.html。

后补充：修改好“ a0='http://%s' % (ip_and_port)”代码后，运行，还是没有增加点击量，不知道是不是因为我在虚拟机里运行python，而且是Nat上网。当初图安装简单就用了ubuntu，也不知道什么原因，想改成Bridge上网，就是不成功。

后补充：在window7 上也装上了python，运行也不好使，在微信“程序猿”的文章里提到有可能是服务器在返回的页面里加了javascript代码

转自我的搜狐博客 http://jluhlh.blog.sohu.com/301490961.html

代理刷网页点击量-点到为止 2014-03-11 09:40相关推荐

通过代理刷网页点击量
#!/usr/bin/python #-*- coding:utf-8 -*- ''' 此脚本主要实现网页的点击量,除了实现次功能点外,还有三个知识点: 1.随机获取代理ip,通过代理ip访问指定站点 ...
python通过代理刷网页点击量
更新异常处理情况 @time 2013-0803 更新循环里计数问题和随机等待时间问题 #!/usr/bin/python #-*- coding:utf-8 -*- ''' 此脚本主要实现网页的点击 ...
刷微信点击量的php,微信刷文章点击量软件使用的方法是什么?
所有的微信公众号管理员都会希望自己的微信公众号文章点击量高,因为点击量一高,文章的价值就会得到提升,相应的收入就会增加哦!所以都会去使用微信刷文章点击量软件,应该怎么使用呢? 微信刷文章点击量软件使用 ...
web实现统计网页点击量
web实现统计网页点击量下面是我写的网页HTML文件源代码Hello world: package runoob; import java.io.*; import javax.servlet.* ...
刷微信点击量的php,PHP一键刷QQ微信支付宝步数代码
PHP一键刷QQ微信支付宝步数代码,账号密码步数填好直接地址栏回车,想要自动刷就设定计划任务.每天自动刷,步数不要太多,容易封运动,导致步数别人看不到! 使用说明:http://域名/?mobile= ...
android第三方视频解码器Vitamio SDK使用后的感觉(2014.03.11)
Vitamio官方网址:http://www.vitamio.org/ Vitamio SDK下载地址: https://github.com/yixia/VitamioBundle Vitamio ...
用python刷网页浏览量_如何用python 增加网站点击量？
简单一句话:就是调用你的浏览器,然后程序自动帮你打开你的网页,隔一段时间自动关闭.之后的步骤就是循环,刷访问量.下面看一篇文章: python3爬虫之访问量.点击率数据的爬取分析 1.明确问题: 通过 ...
python广告刷量_Python一日一练05----怒刷点击量
功能自己主动获取CSDN文章列表,并对每篇文章添加点击量. 源代码 import urllib.request import re import time import random from bs ...
python 编程一日一练-Python一日一练05----怒刷点击量
功能自己主动获取CSDN文章列表,并对每篇文章添加点击量. 源代码 import urllib.request import re import time import random from bs ...

代理刷网页点击量-点到为止 2014-03-11 09:40

代理刷网页点击量-点到为止 2014-03-11 09:40相关推荐

最新文章

热门文章