本次实战项目适合,有一定Python语法知识的小白学员。本人也是根据一些网上的资料,自己摸索编写的内容。有不明白的童鞋,欢迎提问。

目的:爬取百度小说吧中的原创小说《猎奇师》部分小说内容

链接:http://tieba.baidu.com/p/4792877734

首先,自己定义一个类,方便使用。其实类就像一个“水果篮”,这个“水果篮”里有很多的“水果”,也就是我们类里面定义的变量啊,函数啊等等,各种各样的。每一种"水果"都有自己的独特的口味,也即是各个函数实现的功能各不相同。

然后,按照这个思路,既然要爬取小说,那么肯定要有目标网页的地址,也就是上面我给的那个连接。其实就像买水果之前,我们要找到水果店。

打开目标贴吧后,会发现里面有很多的贴子,有楼主发的,还有读者评论的,很多很杂。不过,没关系。度娘给了我们一个强大的功能,只看楼主。这就是我们的切入点。点击只看楼主按钮,哈哈,此时呈现在眼前的就是楼主的主要内容啦。

相应的,此时的网页也有所改变,地址上多了一个只看楼主的标记 http://tieba.baidu.com/p/4792877734?see_lz=1

所以,我们在定义类中的初始化函数时,就要有这个标记。

接下来,我们开始在选择不同口味的水果。我们要先获取网页的源代码,就需要有一个getPage的函数。函数里需要有我们的页码,注意我们选择不同也的小说,会发现,我们的地址也是有稍稍变动的,比如:第二页连接:http://tieba.baidu.com/p/4792877734?see_lz=1&pn=2     多了&pn=2。这个我们要整合一下。

(未完>>>>>>>>>明晚继续)

下面是我的代码:

1 #-*- coding:utf-8 -*-

2 importurllib3 importurllib24 importre5

6 #百度小说吧 原创小说《猎奇师》

7 #连接http://tieba.baidu.com/p/4792877734?see_lz=1

8 #第二页连接:http://tieba.baidu.com/p/4792877734?see_lz=1&pn=2

9 classLQS:10 def __init__(self,daseUrl,seeLZ):11 self.daseUrl =daseUrl12 self.seeLZ ='?see_lz=' +str(seeLZ)13 #传入页码,获取网页源代码

14 defgetPage(self,pageNum):15 try:16 #拼接,地址 + 楼主参数 + 页数

17 url = self.daseUrl + self.seeLZ + '&pn=' +str(pageNum)18 request =urllib2.Request(url)19 response =urllib2.urlopen(request)20 returnresponse.read()21 except Exception,e:#处理异常

22 printe23 #获取标题

24 defgetTitle(self,pageNum):25 html =self.getPage(pageNum)26 reg = re.compile(r'

【原创】恐怖故事 (.*?)_小说吧_百度贴吧')27 items =re.findall(reg,html)28 #将标题写入文件

29 for item initems:30 f = open('lqshi.txt','w') #文件名最好是英文,中文识别不了

31 f.write('标题' + '\t\t' +item)32 f.close()33 returnitems34 #获取正文

35 defgetContent(self,pageNum):36 html =self.getPage(pageNum)37 reg = re.compile(r'class="d_post_content j_d_post_content "> (.*?)

python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文相关推荐

  1. python实战项目网站_python实战项目,搜索自己网站的关键词,使用代理并且模拟点击...

    前面,我们介绍了 python实战项目,获取指定网站关键词百度排名,为seo提供参考资料,那为了满足自己的虚荣心,而且听说点击可以提升网站关键词的排名.不过模拟点击,欺骗搜索引擎肯定知道咱们的 IP ...

  2. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  3. python爬虫微博热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  4. python古诗默写_Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索

    Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索 发布时间:2020-07-20 23:48:19 来源:51CTO 阅读:883 python编译练习,为了将自己学习过的知识用上,自己找了 ...

  5. python投票系统项目ppt_python fastApi实战项目 - 爱投票管理系统(一)

    一.闲来无事,在工作之余自己研究了一下python的异步框架 - fastapi,并写包括 1.部门管理 2.角色管理 3.用户管理 4.菜单管理 5.登录日志 6.操作日志 六个基础功能模块,演示链 ...

  6. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  7. (硅谷课堂项目)Java开发笔记2:项目概述,搭建项目环境和开发讲师管理接口

    文章目录 (硅谷课堂项目)Java开发笔记2:项目概述,搭建项目环境和开发讲师管理接口 1.项目概述 1.1 项目介绍 1.2 硅谷课程流程图 1.3 硅谷课堂功能架构 1.4 硅谷课堂技术架构 1. ...

  8. 基于Java的网络爬虫实现抓取网络小说(一)

    基于Java的网络爬虫实现抓取网络小说(一) 今天开始写点东西,一方面加深印象一方面再学习. 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用 ...

  9. 【网络爬虫】爬取神奇宝贝Pokemon图鉴图片大全

    [网络爬虫]爬取神奇宝贝Pokemon图鉴 前言: 最近心血来潮,想要一个Pokemon图鉴,无可奈何网上没有相关的博客:后来想了想不如自己动手丰衣足食,就写了一个爬虫,成功从神奇宝贝Wiki百科爬取 ...

最新文章

  1. 程序员面试题精选100题(14)-圆圈中最后剩下的数字[算法]
  2. 第2次预习课-0704
  3. android dumpsys命令使用
  4. IOS开发-jqeurey mobile
  5. PR、PS小技巧汇总
  6. 互联网日报 | 滴滴正式入局货运市场;苏宁小店宣布开放加盟;钉钉推出新职业在线学习平台...
  7. 【转载】非常实用的chrome插件 IT人必备
  8. LambdaQueryWrapper的不同写法
  9. 苹果企业开发者账号申请攻略
  10. 小散量化炒股记|Python也能量化财务指标!教你用净资产收益率选股!
  11. python下载西瓜视频2020最新思路
  12. 萤石摄像头(C6CN)的安装使用、获取设备的播放地址
  13. STP生成树协议|适合初学|华为,思科配置|阿树啊~
  14. 让Android Studio项目通过阿里云 代理加速下载依赖资源
  15. Two Sum (两数之和) - Hash Table (哈希表)
  16. java 中free,FreeJava 的使用方法(三)FreeJava的使用,freejava使用方法
  17. 线程(六)之LOCK和synchronized
  18. HTTP常用状态码状态码大全
  19. 【什么是服务器托管?为什么要托管呢?】
  20. 7-18 出租车计价 (15分)

热门文章

  1. JS/PHP中,数组与字符串的转换,这次总算是记住了
  2. 把爬取信息导出到mysql,关于爬虫学习的一些小小记录(四)——爬取数据存入数据库...
  3. vuex commit 模块_长篇连载:Vuex源码学习(二)脉络梳理
  4. springBoot+mybaits+达梦数据库
  5. vs能运行python吗_vs怎么运行python(vs能运行python吗)
  6. vue 多个回调_Vue 进阶面试必问,异步更新机制和 nextTick 原理
  7. linux dns chroot,chroot DNS 过程(包括一些简单的排错过程)
  8. yii和mysql apache_配置Apache,php5,mysql ,以及配置yii框架的简介
  9. Python中raise用法
  10. ajax走到error_jQuery中ajax 跳入error的原因总结