这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

搜索引擎用的很频繁,现在利用Python爬虫提取百度搜索内容,同时再进一步提取内容分析就可以简便搜索过程。详细案例如下:

代码如下

# coding=utf8

import urllib2

import string

import urllib

import re

import random

#设置多个user_agents,防止百度限制IP

user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0',

'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+

(KHTML, like Gecko) Element Browser 5.0',

'IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)',

'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14',

'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko)

Version/6.0 Mobile/10A5355d Safari/8536.25',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)

Chrome/28.0.1468.0 Safari/537.36',

'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']

def baidu_search(keyword,pn):

p= {'wd': keyword}

res=urllib2.urlopen(("http://www.baidu.com/s?"+urllib.urlencode(p)+"&pn={0}&cl=3&rn=100").format(pn))

html=res.read()

return html

def getList(regex,text):

arr = []

res = re.findall(regex, text)

if res:

for r in res:

arr.append(r)

return arr

def getMatch(regex,text):

res = re.findall(regex, text)

if res:

return res[0]

return ""

def clearTag(text):

p = re.compile(u'<[^>]+>')

retval = p.sub("",text)

return retval

def geturl(keyword):

for page in range(10):

pn=page*100+1

html = baidu_search(keyword,pn)

content = unicode(html, 'utf-8','ignore')

arrList = getList(u"

.*?", content)

for item in arrList:

regex = u"

(.*?)"

link = getMatch(regex,item)

url = link[0]

#获取标题

#title = clearTag(link[1]).encode('utf8')

try:

domain=urllib2.Request(url)

r=random.randint(0,11)

domain.add_header('User-agent', user_agents[r])

domain.add_header('connection','keep-alive')

response=urllib2.urlopen(domain)

uri=response.geturl()

print uri

except:

continue

if __name__=='__main__':

geturl('python')

*?href="(.*?)" rel="external nofollow" rel="external nofollow" .*?>*?class="t".*?>*?class="result".*?>

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例相关推荐

  1. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. 【爬虫】爬取百度搜索结果页面

    今日看了一下爬虫,写了一个爬取百度搜索页面的小程序.可以在代码中改动搜索词,代码如下: #coding=utf-8 #python version:2.7 #author:sharpdeepimpor ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. Python爬取百度搜索的标题和真实URL的代码和详细解析

    网页爬取主要的是对网页内容进行分析,这是进行数据爬取的先决条件,因此博客主要对爬取思路进行下解析,自学的小伙伴们可以一起来学习,有什么不足也可以指出,都是在自学Ing,回归正题今天我们要来爬取百度搜索 ...

  5. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  6. 写一个爬虫,可以爬取百度文库内容

    爬取百度文库内容需要使用爬虫技术.以下是一个简单的 Python 爬虫示例: import requestsurl ="https://wenku.baidu.com/view/your_d ...

  7. Java爬虫历险记 -- (1)爬取百度首页的logo

    Java爬虫历险记 – (1)爬取百度首页的logo 在这篇文章里,介绍两种方式来获取百度网页的logo: (1)Httpclient (2) jsoup + Httpclient ,详细的运行结果可 ...

  8. Python 3.5_简单上手、爬取百度图片的高清原图

    利用工作之余的时间,学习Python差不多也有小一个月的时间了,路漫漫其修远兮,我依然是只菜鸟. 感觉学习新技术确实是一个痛并快乐着的过程,在此分享些心得和收获,并贴一个爬取百度图片原图的代码. 代码 ...

  9. Python学习笔记(65)~ 爬取百度首页标题

    爬取百度首页标题 Demo #!/usr/bin/python3 import re from urllib import request#爬虫爬取百度首页内容 data=request.urlope ...

最新文章

  1. Python学习之路 (六)爬虫(五)爬取拉勾网招聘信息
  2. 第六章 深度学习(中下)
  3. 多媒体技术创新开启“科技+文化”新“视”界
  4. java学习(三) java 中 mongodb的各种操作
  5. jquery中checkbox全选失效的解决方法
  6. 计算机视觉实战(六)边缘检测
  7. c mysql主从复制_Mysql 主从复制
  8. 【线性代数笔记】秩为1的矩阵的性质
  9. php 写聊天室源码,PHP实现简单聊天室(附源码)_PHP
  10. 使用FPGA进行加速运算
  11. Android Studio打开之后class显示灰色 代码没有颜色区分 输入没了提示的解决方法
  12. 【超超超easy】5分钟:自制酷炫猫咪词云图,会点鼠标即可。
  13. 该怎么设置macOS 的开机启动项
  14. Mydrivers: DVD Jon出手,绕过ATT激活iPhone
  15. idea 一次启动多服务配置
  16. R语言进行神经网络算法——RSNNS
  17. urlencode quote unquote (url 中带中文参数)
  18. 2019年最新Java面试真题,通往BATJ的必经之路!
  19. mybatis-plus设置id自增,插入数据。
  20. 利用百度AI平台+pyqt5实现自动识别银行卡小工具

热门文章

  1. Delphi Excel操作,写了个ADODataSet转Excel的函数作为后期学习的例子
  2. LINQ To SQL 语法及实例大全
  3. loadClass和forName 的区别
  4. window document树
  5. python学习笔记 day15 内置函数(三)
  6. 检验xpath的小妙招
  7. 机器学习实战读书笔记(一)机器学习基础
  8. VBA在EXCEL中创建图形线条
  9. 一份传世典文:十年编程(Teach Yourself Programming in Ten Years)
  10. MFC中小笔记(三)