pyhton爬虫爬取100首诗

简单的Python入门爬虫案例，爬取100首诗，视频介绍：http://www.zhishiml.com/pythondetails.html

# coding=utf-8
# www.zhishiml.com
#导入用到的包
import  urllib.request,urllib.error #发起请求
from bs4 import BeautifulSoup #粗略分析网页数据
import  re  #正则，精准提前目标信息
import  xlwt #保存结果到excel
import  time #定时功能def main():print("开始爬取")datalist=getData()saveData(datalist)print("爬取完成")
def getData():url = "https://so.gushiwen.cn/gushi/tangshi.aspx"headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}req = urllib.request.Request(url=url,headers=headers)try:#发起请求resp= urllib.request.urlopen(req)#获取数据html=resp.read().decode("utf-8")bs=BeautifulSoup(html,"html.parser")aitems= bs.find_all("span")datalist=[]for item in aitems:data = []item=str(item)# print(item)reSpan = re.compile(r'[\u4E00-\u9FA5]+')  # 正则 匹配一个或者多个汉字span=re.findall(reSpan,item)# print(span)title=span[0]data.append(title)#题目author=span[1]data.append(author)#作者reLink = re.compile(r'<a href="(.*?)"')  # 正则 拿到a的链接href属性值link=re.findall(reLink,item)## print(link[0])data.append(link[0])#站内链接# 再次发起请求url2="https://so.gushiwen.org"+link[0]data.append(url2)  # 完整链接req2 = urllib.request.Request(url=url2, headers=headers)resp2 = urllib.request.urlopen(req2)# 获取数据html2 = resp2.read().decode("utf-8")# print(html2)bs2 = BeautifulSoup(html2, "html.parser")aitems2 = bs2.find_all("div",class_="contson")[0]  # BeautifulSoupaitems2=str(aitems2)print(aitems2)#正则解析reDiv = re.compile(r'[\u4E00-\u9FA5]+')  # 正则 匹配一个或者多个汉字divContent = re.findall(reDiv, aitems2)# print(divContent)data.append(divContent)print("-------------------")print(data)datalist.append(data)# print(datalist)time.sleep(1)#间隔1秒，爬取一次# break;#循环执行一次就结束print('第'+str(len(datalist))+'首')if  len(datalist)>=100:#爬取一百条数据return datalist  # 返回结果集except  urllib.error.URLError as e:print(e.reason)#异常信息
def saveData(datalist):wbook = xlwt.Workbook("encoding=utf-8")wsheet = wbook.add_sheet("唐诗三百首3")colName =('题目','作者','站内链接','完整链接','内容')for i in  range(0,5):wsheet.write(0, i, colName[i]);  # 行，列，内容row=1for item in datalist:for i in range(0, 5):wsheet.write(row, i, str(item[i]))  # 行，列，内容row=row+1wbook.save("(唐诗三百首).xls")  # 保存
if __name__ == '__main__':main()

pyhton爬虫爬取100首诗相关推荐

python爬虫微博图片,pyhton爬虫爬取微博某个用户所有微博配图
前几天写了个java爬虫爬花瓣网,但是事后总感觉不够舒服,终于在今天下午写了个python爬虫(爬微博图片滴),写完之后就感觉舒服了,果然爬虫就应该用python来写,哈哈(这里开个玩笑,非引战言论) ...
利用PYHTON爬虫爬取恋家网房价
import openpyxl # 导入处理excel文件用到的库 import requests # 导入requests 请求库 from lxml import ...
pyhton爬虫爬取电商平台商品历史价格、最低价格（慢慢买网）
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 #!coding=utf-8 import ...
python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐需要使用的模块只需要requests模块和os模块即可开始工作先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫----爬取网易云音乐
使用python爬虫爬取网易云音乐目录使用python爬虫爬取网易云音乐需要使用的模块开始工作运行结果需要使用的模块只需要requests模块和os模块即可开始工作先去网易云音乐网页 ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
对爬虫爬取到的数据进行存储
已写章节第一章网络爬虫入门第二章基本库的使用第三章解析库的使用第四章数据存储第五章动态网页的抓取文章目录已写章节第四章数据存储 4.1 文件存储 4.1.1 TXT文件存储 ...
mysql scrapy 重复数据_大数据python（scrapy）爬虫爬取招聘网站数据并存入mysql后分析...
基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...
python爬虫开发数据库设计入门经典_Python3实现的爬虫爬取数据并存入mysql数据库操作示例...
本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作.分享给大家供大家参考,具体如下: 爬一个电脑客户端的订单.罗总推荐,抓包工具用的是HttpAnalyzerStdV7,与chr ...

pyhton爬虫爬取100首诗

pyhton爬虫爬取100首诗相关推荐

最新文章

热门文章