一次爬取小说的尝试

 1 #!/usr/bin/python
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 from bs4 import BeautifulSoup
 5
 6 url = 'http://www.zanghaihua.org/nanbudangan/'
 7 req = requests.get(url=url)
 8 req.encoding = req.apparent_encoding
 9 soup = BeautifulSoup(req.text,'html.parser')
10 div = soup.find(name='div',attrs={'class':'booklist'})
11 # print(div)
12 span_list = div.find_all('span')
13 # print(span_list)
14
15 for span in span_list:
16     a = span.find('a')
17     # span_text=span.find(attrs={'class':'v'})
18     if not a:
19         continue
20     a_url = a.get('href')
21     # a_text = a.text
22
23
24     response = requests.get(url=a_url)
25     response.encoding =response.apparent_encoding
26     # print(response.text)
27     # print(response.encoding)
28     soup = BeautifulSoup(response.text,'html.parser')
29
30     Bookname = soup.find(name='h1',attrs={'align':'center'}).text
31     # print('书名:%s' %Bookname)
32     ChapterTitle =soup.find(name='div',attrs={'class':'chaptertitle'}).text
33     # print('章节名:%s' %ChapterTitle)
34
35     Title = soup.find(name='div',attrs={'id':'BookText'}).get_text('\n','<br/><br/>')
36     #用get_text获取文本并将<br/><br/>替换成\n
37     # print(Title)
38
39     with open(Bookname,'ab+') as f:
40         #以追加模式写入文件
41
42         if ChapterTitle=='关于南部档案馆的研究':
43             f.write(Bookname.encode('utf-8'))
44         f.write(ChapterTitle.encode('utf-8'))
45         f.write(Title.encode('utf-8'))

转载于:https://www.cnblogs.com/xiaoyujuan/p/11098668.html

python爬虫--一次爬取小说的尝试相关推荐

  1. 还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub。

    还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...

  2. Python爬虫系列:爬取小说并写入txt文件

    导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了. 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能 ...

  3. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  4. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  5. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  6. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  7. Python爬虫系列之爬取某奢侈品小程序店铺商品数据

    Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...

  8. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  9. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

最新文章

  1. QT,QVector 基本用法,遍历[实例讲解]
  2. LoadRunner中对图表的分析说明
  3. Boost:双图bimap的修改和替换测试程序
  4. Python3实现队列
  5. vue 对象继承_Vue2.0中组件的继承与扩展是什么
  6. 一行命令搞定图像质量评价
  7. 数据机构与算法:书籍介绍
  8. Keli Linux与网络安全(1)——在VMWare中安装Keli系统
  9. teamtalk部署
  10. 零基础学FPGA(二):FPGA生产厂家及产品(呕心沥血,小白如何选择板卡)
  11. phpunit光速入门
  12. 【自动化】自动化工厂需要的十大工控产品
  13. 基于MATLAB的计算机视觉与深度学习实战
  14. 程序员2019可以看的书单
  15. js中身份证校验规则
  16. SpringBean装配------自动装配
  17. 二进制差分码规则_一篇文章弄明白Node.js与二进制数据流
  18. C盘扩容(使用DiskGenius软件进行操作)
  19. QT 5.15 Android Windows 10开发环境搭建
  20. 新浪与腾讯的开放平台对比(下)

热门文章

  1. 正向代理与方向代理简单图解
  2. Java用fillOval实现画点
  3. 如何管理一个大型开源仓库?淘系带你一探究竟
  4. Spring Boot-2.3.7.RELEASE整合activiti-6.0示例步骤
  5. 天锋w2019_天锋W2019上手,与三星W2019竟然完全一样,三星哭了!
  6. 计算机开机长鸣报警,请问开机时报警一声长鸣,是什么原因啊?
  7. Management Information
  8. 淘宝千牛软件服务器fmsas端口与客户端的通信协议(完整版)
  9. 程序员不同寻常的表达爱情方式
  10. 八种方法绿化数据中心