爬取小说(用BeautifulSoup爬)

url=http://www.bixiange.me/wxxz/3976/

先来常规操作

url = "http://www.bixiange.me/wxxz/3976/index/1.html"
headers = {"user-agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0"
}
resp = requests.get(url,headers=headers)
resp.encoding = resp.apparent_encoding
html = resp.text
print(html)

观察页面源代码

可以发现小说都是现在标签<div></div>之间

因此用bf提取div标签   并且指定对应class与id

bf = BeautifulSoup(html)
texts = bf.find_all('div',class_="content",id="mycontent")
print(texts)

得到的代码还是有<br><br>标签

解决方法:在匹配前提前把<br><br>改成换行

完成代码如下:

import requests
import time
from requests.api import head
from lxml import etree
from bs4 import BeautifulSoupfor a in range(1,10):url = "http://www.bixiange.me/wxxz/3976/index/{}.html".format(a)headers = {"user-agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0"}resp = requests.get(url,headers=headers)resp.encoding = resp.apparent_encodinghtml = resp.texthtml = html.replace("<br><br>",'\n\n')#在匹配前提前把<br><br>改成换行bf = BeautifulSoup(html)texts = bf.find_all('div',class_="content",id="mycontent") with  open('sample/novel.txt','a') as f:#写入文件中,文件默认和python文件同一级目录f.write(texts[0].text.replace('<br><br>','\n\n'))print(a)time.sleep(0.2)
f.close()

python爬虫学习(第三爬)相关推荐

  1. Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称

    Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称   这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询   这一个案例体现的点主要是xpat ...

  2. python爬虫学习 之 定向爬取 淘宝商品价格

    python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...

  3. python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

    2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests­          re 程序的结 ...

  4. python爬虫urllib 数据处理_python爬虫学习笔记(三)-爬取数据之urllib库

    1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...

  5. Python爬虫学习,批量爬取下载抖音视频

    这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙 项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...

  6. python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站

    注意事项 版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...

  7. python爬虫-----学习bs,爬取丁香园特定帖子的所有回复内容

    beautifsoup----爬虫数据挖掘又一大利器 – 安装: conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs ...

  8. Python爬虫学习---------使用beautifulSoup4爬取名言网

    爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签) #! /usr/bin/python3 # -*- coding:utf-8 -*-from urllib.requ ...

  9. Python 爬虫学习08 将爬取到的数据保存到SQL

    import pymssql #引入pymssql模块 import sys from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进 ...

  10. python爬虫学习:第一爬_快眼看书排行榜

    1 import json 2 import re 3 from urllib.request import urlopen # urllib用法:https://www.jb51.net/artic ...

最新文章

  1. 【基础】CSS实现多重边框的5种方式
  2. CentOS 安装NTFS-3G,让系统支持NTFS分区的方法
  3. 4.IE故障[网页打不开]的解决方法:
  4. MySQL笔记11:C语言编程API函数和完整实例演示!
  5. “蓝桥杯”基础练习:01字串
  6. 数学建模【统计模型及应用(单-双因素方差分析、一-多元线性回归分析、牙膏价格问题、方差分析与回归分析的SPSS实现)】
  7. adroid 如何测试端口号_多进程启动设备和appium实现自动化测试
  8. Java反射机制在UI自动化测试中的一个应用
  9. 使用URI设计松散耦合的Metro应用程序
  10. JVM内存管理------GC算法精解(五分钟让你彻底明白标记/清除算法)
  11. mysql定时增量备份_Mysql日常自动备份和增量备份脚本
  12. BI报表平台纪实:半年被叫停,用户个位数,分析后我找到了原因
  13. request-爬取一张图片的练习-答案-私
  14. Python基本数据类型之tuple
  15. 无法启动调试--未安装 Silverlight Developer 运行时。请安装一个匹配版本
  16. 【Oracle】批量造测试数据
  17. iexplore.exe
  18. linux安装谷歌中文,CentOS 7安装谷歌拼音中文输入法
  19. Windows系统下安装VMware Workstation并创建Xubuntu虚拟环境
  20. 2019大数据未来七大发展方向

热门文章

  1. 三菱PLC的通讯协议
  2. leetcode827. 最大人工岛
  3. 错误:初始化编辑器时候未传入任何参数,请查阅文档
  4. 浅谈MVVM是如何实现数据双向绑定的?
  5. 常见外贸英文缩写(上)
  6. word文档中分页符设置
  7. 亚马逊CTO沃格斯:AWS如何通过自定义硬件提升云端性能
  8. 制作教学资源:好钢用在刀刃上
  9. 【python八股】
  10. jquery的hide()和show()