python爬去百度搜索结果_python实现提取百度搜索结果的方法
本文实例讲述了python实现提取百度搜索结果的方法。分享给大家供大家参考。具体实现方法如下:
# coding=utf8
import urllib2
import string
import urllib
import re
import random
#设置多个user_agents,防止百度限制IP
user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0', \
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', \
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ \
(KHTML, like Gecko) Element Browser 5.0', \
'IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', \
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', \
'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', \
'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \
Version/6.0 Mobile/10A5355d Safari/8536.25', \
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/28.0.1468.0 Safari/537.36', \
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']
def baidu_search(keyword,pn):
p= {'wd': keyword}
res=urllib2.urlopen(("http://www.baidu.com/s?"+urllib.urlencode(p)+"&pn={0}&cl=3&rn=100").format(pn))
html=res.read()
return html
def getList(regex,text):
arr = []
res = re.findall(regex, text)
if res:
for r in res:
arr.append(r)
return arr
def getMatch(regex,text):
res = re.findall(regex, text)
if res:
return res[0]
return ""
def clearTag(text):
p = re.compile(u'<[^>]+>')
retval = p.sub("",text)
return retval
def geturl(keyword):
for page in range(10):
pn=page*100+1
html = baidu_search(keyword,pn)
content = unicode(html, 'utf-8','ignore')
arrList = getList(u"
.*?<\/a>", content)
for item in arrList:
regex = u"
(.*?)<\/a>"
link = getMatch(regex,item)
url = link[0]
#获取标题
#title = clearTag(link[1]).encode('utf8')
try:
domain=urllib2.Request(url)
r=random.randint(0,11)
domain.add_header('User-agent', user_agents[r])
domain.add_header('connection','keep-alive')
response=urllib2.urlopen(domain)
uri=response.geturl()
print uri
except:
continue
if __name__=='__main__':
geturl('python')
希望本文所述对大家的Python程序设计有所帮助。
python爬去百度搜索结果_python实现提取百度搜索结果的方法相关推荐
- python爬去中国天气网_python爬取中国天气网并展示最低温度
import requests from bs4 import BeautifulSoup import lxml import json from echarts import Echart,Bar ...
- Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘
更多详情请查看Honker Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘 给大家推荐一款超好用的壁纸下载网站-- wallhaven 第一次知道这个网站的时候,惊为天 ...
- 用python爬取动态网页上的图片(百度图片)
用python爬取动态网页上的图片(百度图片) 参考B站一个视频,视频链接: https://www.bilibili.com/video/BV1Va4y1Y7fK?share_source=copy ...
- python爬去淘宝西装数据
python爬去淘宝西装数据 啥也不说代码先码上 #爬取数据 from selenium import webdriver from bs4 import BeautifulSoup import t ...
- python爬去音乐_python爬去音乐
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如 ...
- python爬去百度图片_爬虫篇| 爬取百度图片(一)
什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
- python爬去新浪微博_Python 超简单爬取新浪微博数据 (高级版)
新浪微博的数据可是非常有价值的,你可以拿来数据分析.拿来做网站.甚至是*.不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法.没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁 ...
- python爬取酷狗音乐_Python实例---爬去酷狗音乐
项目一:获取酷狗TOP 100 排名 文件&&歌手 时长 效果: 附源码: import time import json from bs4 import BeautifulSoup ...
- python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
最新文章
- 【Groovy】编译时元编程 ( AST 语法树分析 | ClassNode 根节点 | 方法 Methods 节点 | 字段 Fields 节点 | 属性 Properties 节点 )
- android 随手记代码,用ExpandableListView写的随手记实例
- java.sql.SQLException: connection disabled
- 中国如何引进CMM评估,促进软件产业发展
- System V IPC之信号灯
- 数学结果告诉你足球的赛程安排并不能做到完全公平
- 设计模式:观察者模式 ——— 城管来了,摊主快跑
- 在命令行启动vscode
- 小米5x对标OV,突围荣耀,能否成功?
- Spring实现数据库读写分离
- Atitit.木马病毒的免杀原理---sikuli 的使用
- 医院MR图像的pixel array 数字过大解决方案
- linux 备份命令
- 电机调速程序c语言,直流电机调速控制系统的C语言程序
- opensips脚本格式
- [二十一]深度学习Pytorch-正则化Regularization之weight decay
- 解决破解版matlab2018a打开示例或者帮助需要登录账号或者需要输入激活码问题
- 以太坊测试网络rinkeby交易测试
- Android7.0适配
- form-data和x-www-form-urlencoded的区别和延伸
热门文章
- vscode markdown插件_如何用Markdown写公众号
- 算法工程师_浅谈算法工程师的职业定位与发展
- 7-5 jmu-Java-03面向对象基础-05-覆盖 (3 分)
- c#对象集合去重_C# List 对象去重
- msg批量转html,SysTools MSG Converter(MSG格式转换器)
- php 获取返回值,求助 如何获取php socket 返回值
- matplotlib画图时间长_Python学习第86课-数据可视化之matplotlib介绍
- 【AtCoder】AGC034
- git clone 失败
- Atitit. Atiposter 发帖机 新特性 poster new feature v7 q39