python爬虫(爬虎扑英雄联盟论坛)

第十五讲

BeautifulSoup解析HTML标签

爬虫实战项目（英雄联盟虎扑论坛）

import requests
url = 'https://bbs.hupu.com/lol'
headers = {'user-agant':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'
}
response = requests.get(url=url, headers=headers)
print(response)

这一步输出结构是一个状态码，如果和浏览器状态码相同，则访问正常

# pip install reqeusts, lxml
import requests
from lxml import etree
import csvurl = 'https://bbs.hupu.com/lol-1'headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15','Host': 'bbs.hupu.com'
}response = requests.get(url=url, headers=headers)
# print(response.text)# with open('hupu.html', 'w', encoding='utf-8') as fp:
#     fp.write(response.text)# 解析数据
# 数据解析的准备工作
root = etree.HTML(response.text)names = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/text()')
href = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/@href')
author = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-auth"]/a/text()')
time = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-time"]/text()')info = []
for i in range(len(names)):info.append([names[i], author[i], time[i], href[i]])fieldnames = ['name', 'author', 'time', 'href']
f = open('hupudata.csv', 'a+', encoding='utf-8')
f_csv = csv.writer(f)
f_csv.writerows(info)
f.close()

求赞！！！
你的支持就是我持续分享的动力

python爬虫(爬虎扑英雄联盟论坛)相关推荐

Python爬虫爬取王者荣耀英雄人物高清图片
Python爬虫爬取王者荣耀英雄人物高清图片实现效果: 网页分析从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的在每个英雄的具体 ...
PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息
Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象.. 下面就是所有要爬取的adc,当然有个别ad ...
用Python分析了1982场英雄联盟数据，开局前预测游戏对局胜负！
微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广概述前言假设游戏对战数据获取分析和训练数据游戏对战胜负预测期望研究的问题结论阿广说推荐阅读前言如今,只 ...
Python爬虫爬取微信朋友圈
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...
python爬虫爬图片教程_Python爬虫爬图片需要什么
Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现要点如下: 1.url_request = request.Request(url) 2. ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

python爬虫(爬虎扑英雄联盟论坛)

python爬虫(爬虎扑英雄联盟论坛)相关推荐

最新文章

热门文章