点击蓝字“python教程”关注我们哟!

代码展示:pachon2.5.py

# -- coding: utf-8 --

import urllib

import urllib2

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class book: #豆瓣书籍的类

def init(self, types, page):

self.baseUrl = 'http://www.douban.com/tag/'

self.types = types

self.filename = 'doubanbook.txt'

self.page = pagedef getContents(self): #爬取源代码

try:

#if self.page == 0:

url = self.baseUrl + self.types + '/book'

#else:

# url = self.baseUrl + self.types + '/book?start=' + str(self.page)

user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'

headers = { 'User-Agent' : user_agent}

request = urllib2.Request(url,headers = headers)

response = urllib2.urlopen(request)

content = response.read() #.decode('utf-8')

pattern = re.compile('(.*?).*?>(.*?)

',re.S)

items = re.findall(pattern,content)

return items

except urllib2.URLError, e:

if hasattr(e, "reason"):

print u"豆瓣链接错误,错误原因", e.reason

return None

def writetext(self, items): #写入txt

for item in items:

print item[0],item[1]

files = open(self.filename,'a')

files.write(item[0])

files.write(item[1])

files.write('\n')

files.close()

def strat(self): #启动函数

self.writetext(self.getContents())

print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个,

doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,

文件便会出现在桌面"""

print u"结束输入 'O' , 联系作者输入 'A'"

end = raw_input('>')

if end == 'A':

print u"QQ邮箱:1021644861@qq.com"

raw_input('>')

else:

print "over"

初学python会比较困难,但是只要坚定自己的信念,不轻易认输,敢于面对,成功迟早会笑脸相迎。

注意事项

01

对Python开发技术感兴趣的同学,欢迎加下方的交流群一起学习,相互讨论。

02

学习python过程中有不懂的可以加入我的python零基础系统学习交流秋秋qun:934109170,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。相关学习视频资料、开发工具都有分享

好啦!文章就给看官们分享到这儿

最后,如果觉得有帮助,记得关注、转发、收藏哟

python爬取豆瓣书籍_python爬虫学习,爬取豆瓣各分类书单相关推荐

  1. python爬取多页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  2. python爬取豆瓣书籍_Python爬虫-爬取豆瓣图书Top250

    豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作 需要安装reques ...

  3. python爬豆瓣top250书籍_python爬虫练习-爬取豆瓣图书top250

    个人自学,完整学习请访问以下链接 学习链接:https://study.163.com/course/courseMain.htm?courseId=1004714034 代码 # -*-coding ...

  4. python手机壁纸超清_python爬虫学习之爬取5K分辨率超清唯美壁纸

    前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,欢迎前来领取! 简介 壁纸的选择其实很大程度上 ...

  5. python爬虫自学网站_python爬虫学习 爬取幽默笑话网站

    这篇文章主要介绍了python爬虫爬取幽默笑话网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 爬取网站为:http://xiaohua.zol. ...

  6. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  7. python爬虫爬取京东_Python爬虫学习 爬取京东商品

    1. 本节目标 以抓取京东 App 的商品信息和评论为例,实现 Appium 和 mitmdump 二者结合的抓取.抓取的数据分为两部分:一部分是商品信息,我们需要获取商品的 ID.名称和图片,将它们 ...

  8. python输入城市找省份_python爬虫学习之爬取全国各省市县级城市邮政编码

    importrequestsimportxlwt#返回一个字典,键是各个省份的名字,值是对应省份的网址url defgetProvinceCode(url): response=requests.ge ...

  9. python 网上爬取数据源码_Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章...

    1.最简单的Python爬虫 最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如:爬取漫客栈里面的漫 ...

最新文章

  1. DVWA安装——一个菜鸟的入门教程
  2. css create 多边形 polygon
  3. 导入torchvision出现:AttributeError: module ‘torch.jit‘ has no attribute ‘unused‘错误
  4. c语言程序设计的反思,C语言程序设计教学反思.doc
  5. XFS:大数据环境下Linux文件系统的未来
  6. webpack4打包html,html-webpack-plugin详解
  7. Tensorflow-Estimator-自定义估算器
  8. php验证码图片乱码,php ,验证码图片,乱码
  9. Golang实践录:利用反射reflect构建通用打印结构体接口
  10. c语言数据类型上机题,2011计算机二级C语言自测题:数据类型及其运算
  11. 【水果识别】基于matlab GUI橙子数量识别【含Matlab源码 1821期】
  12. 微擎支持html微信支付,微信小程序云开发:现已原生支持微信支付
  13. LCP 03. 机器人大冒险-力扣双百代码
  14. 广西首届网络安全选拔赛 MISC Wirteup
  15. 数值计算与MATLAB微积分
  16. 安装ps教程,ps软件安装
  17. objectArx ---基础操作
  18. mysql批量删除5000条数据_mysql批量删除大量数据
  19. 中国中药提取物市场深度研究分析报告
  20. 远程桌面连接 已停止工作

热门文章

  1. 面试题 网络编程和并发、数据库和缓存
  2. ElasticSearch入门与Sense插件的使用
  3. curve25519-dalek中RistrettoPoint的double_and_compress_batch原理梳理
  4. 40套PSD欧美扁平化网页模板,可二次编辑开发,精品
  5. 2021年最新ASP.NET MVC面试题汇总
  6. web课程设计——仿小米商城(10个页面)html css javascript web前端课程设计 web前端课程设计代码 web课程设计 HTML网页制作代码
  7. linux sendmail 乱码,sendmail+formail乱码
  8. WPF下的语法高亮控件——AvalonEdit
  9. 考研数据结构名词解释
  10. 无人机侦听与反制_使用SWTEventHelper清除SWT侦听器通知