【python】使用爬虫爬取动漫之家漫画更新信息

网站名称为：

https://manhua.dmzj.com/update_1.shtml

本篇仅在于交流学习

1.首先将相应的库导入：

import re
import requests
from bs4 import BeautifulSoup
import pandas as pd

2.截取网站信息进行分析：（此处是网页的第一页）

a = requests.get('https://manhua.dmzj.com/update_1.shtml')
html = a.content
soup = BeautifulSoup(html, 'html.parser')
print(soup)

效果如下：

3.截取信息，通过正则表达式进行网页内容截取：

findnewlink = re.compile(r'<a href="(.*?)"',re.S) #最新更新连接
findtitle = re.compile(r'title="(.*)"')  #作品标题
findname = re.compile(r'<span class="gray12">(.*)</span></li>')
findle = re.compile(r'<li>(.*)</li>') #状态
findtime1 = re.compile(r'<li class="numfont"><span class="color_red">(.*)</span></li>')#今天更新作品时间
#findtime2 = re.compile(r'<li class="numfont">(.*)</li>')  #最近更新时间

4.循环获取：

for i in soup.find_all('div',class_='pictext'):#print(i)  #测试全部信息#save = []i = str(i)link1 = re.findall(findnewlink,i)[0]newlink = "http://manhua.dmzj.com" + link1s = link1.rpartition('/')link = "http://manhua.dmzj.com"+s[0] + s[1]titie = re.findall(findtitle,i)[0]name = re.findall(findname,i)[0]le = re.findall(findle,i)[0]time1 = re.findall(findtime1,i)[0]#time2 = re.findall(findtime2,i)

5.输出内容：

    print(titie)print(name)print(le)print(time1)print(link)print(newlink)#print(time2)

6.设置csv文件内容：

savecsv = {'mhtitle':[],'mhname':[],'mhle':[],'mhtime1':[],'mhlink':[],'mhnewlink':[]}

    savecsv['mhtitle'].append(titie)savecsv['mhname'].append(name)savecsv['mhle'].append(le)savecsv['mhtime1'].append(time1)savecsv['mhlink'].append(link)savecsv['mhnewlink'].append(newlink)

7.保存至csv文件：

save = pd.DataFrame(savecsv)
save.to_csv("漫画更新.csv", encoding="utf_8_sig")

8.输出：

9.完整代码：

#漫画网站爬取
import re
import requests
from bs4 import BeautifulSoup
import pandas as pda = requests.get('https://manhua.dmzj.com/update_1.shtml')
html = a.content
soup = BeautifulSoup(html, 'html.parser')
#print(soup)savecsv = {'mhtitle':[],'mhname':[],'mhle':[],'mhtime1':[],'mhlink':[],'mhnewlink':[]}findnewlink = re.compile(r'<a href="(.*?)"',re.S) #最新更新连接
findtitle = re.compile(r'title="(.*)"')  #作品标题
findname = re.compile(r'<span class="gray12">(.*)</span></li>')
findle = re.compile(r'<li>(.*)</li>') #状态
findtime1 = re.compile(r'<li class="numfont"><span class="color_red">(.*)</span></li>')#今天更新作品时间
#findtime2 = re.compile(r'<li class="numfont">(.*)</li>')  #最近更新时间
for i in soup.find_all('div',class_='pictext'):#print(i)  #测试全部信息#save = []i = str(i)link1 = re.findall(findnewlink,i)[0]newlink = "http://manhua.dmzj.com" + link1s = link1.rpartition('/')link = "http://manhua.dmzj.com"+s[0] + s[1]titie = re.findall(findtitle,i)[0]name = re.findall(findname,i)[0]le = re.findall(findle,i)[0]time1 = re.findall(findtime1,i)[0]#time2 = re.findall(findtime2,i)print(titie)print(name)print(le)print(time1)print(link)print(newlink)#print(time2)savecsv['mhtitle'].append(titie)savecsv['mhname'].append(name)savecsv['mhle'].append(le)savecsv['mhtime1'].append(time1)savecsv['mhlink'].append(link)savecsv['mhnewlink'].append(newlink)save = pd.DataFrame(savecsv)
save.to_csv("漫画更新.csv", encoding="utf_8_sig")

【python】使用爬虫爬取动漫之家漫画更新信息相关推荐

java爬虫爬取动漫之家10000部漫画信息
Java大作业,爬取信息并写入Excel. 项目下载:https://pan.baidu.com/s/1Z1rMWSyaAeGvZCm5CMgexQ(请用eclipse 2018打开,我的jdk版本是 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）...
原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...
Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...
Python Scrapy 爬虫 - 爬取多级别的页面
Python Scrapy 爬虫 - 爬取多级别的页面互联网中众多的 scrapy 教程模板,都是爬取下一页 → \rightarrow →下一页形式的,很少有父级 → \rightarrow ...
Python POST 爬虫爬取掘金用户信息
Python POST 爬虫爬取掘金用户信息 1. 概述 Python第三方库requests提供了两种访问http网页的函数,基于GET方式的get()函数和基于POST方式的post()函数. g ...
Python:网络爬虫爬取某表情包网站
Python:网络爬虫爬取某表情包网站参考: 爬虫基础知识点汇总(html文件基础和4个常用库超级详细长文预警) [爬虫教程]吐血整理,最详细的爬虫入门教程~ HTML的简单介绍 HTML的全称为 ...

【python】使用爬虫爬取动漫之家漫画更新信息

【python】使用爬虫爬取动漫之家漫画更新信息相关推荐

最新文章

热门文章