python爬虫(爬虎扑英雄联盟论坛)
第十五讲
BeautifulSoup解析HTML标签
爬虫实战项目(英雄联盟虎扑论坛)
import requests
url = 'https://bbs.hupu.com/lol'
headers = {'user-agant':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'
}
response = requests.get(url=url, headers=headers)
print(response)
这一步输出结构是一个状态码,如果和浏览器状态码相同,则访问正常
# pip install reqeusts, lxml
import requests
from lxml import etree
import csvurl = 'https://bbs.hupu.com/lol-1'headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15','Host': 'bbs.hupu.com'
}response = requests.get(url=url, headers=headers)
# print(response.text)# with open('hupu.html', 'w', encoding='utf-8') as fp:
# fp.write(response.text)# 解析数据
# 数据解析的准备工作
root = etree.HTML(response.text)names = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/text()')
href = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/@href')
author = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-auth"]/a/text()')
time = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-time"]/text()')info = []
for i in range(len(names)):info.append([names[i], author[i], time[i], href[i]])fieldnames = ['name', 'author', 'time', 'href']
f = open('hupudata.csv', 'a+', encoding='utf-8')
f_csv = csv.writer(f)
f_csv.writerows(info)
f.close()
求赞!!!
你的支持就是我持续分享的动力
python爬虫(爬虎扑英雄联盟论坛)相关推荐
- Python爬虫爬取王者荣耀英雄人物高清图片
Python爬虫爬取王者荣耀英雄人物高清图片 实现效果: 网页分析 从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的 在每个英雄的具体 ...
- PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息
Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据 最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象.. 下面就是所有要爬取的adc,当然有个别ad ...
- 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!
微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广 概述 前言 假设 游戏对战数据获取 分析和训练数据 游戏对战胜负预测 期望研究的问题 结论 阿广说 推荐阅读 前言 如今,只 ...
- Python爬虫爬取微信朋友圈
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...
- python爬虫爬图片教程_Python爬虫爬图片需要什么
Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现 要点如下: 1.url_request = request.Request(url) 2. ...
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
最新文章
- Python Django框架入门第一课
- 【Linux】5.linux下的export命令和环境变量
- (转载)C++之tinyXML使用
- The requested URL /server-status was not found on this server
- Ubuntu 发布迁移手册,拉拢 Windows 7 用户
- C语言操作符详解 隐式类型转换 (整型提升 算数转换)
- MySQL提供链接途径_MySQL 连接
- 计算机软件录音注意事项,录音笔使用注意事项
- 软件工程概论之登录页面
- Python实现好友信息管理系统 添加、删除、修改、备注、查询好友信息
- C语言整人小程序,慎用,谨记!
- 02.二叉树打印.md
- xls批量转换为xlsx格式文件
- 研究意识问题为什么如此困难
- 树莓派串口配置(c++)
- python中Excel表的读写改详解
- MySQL创建数据库表的语句和基础语句
- 【9505】部落卫队
- 清晰明了,什么是贝叶斯定理?朴素贝叶斯又是什么?
- 为陈天桥私有化盛大叫好
热门文章
- java计算机毕业设计校园代办业务系统源码+数据库+系统+lw文档+mybatis+运行部署
- 关于rt-thread的外设驱动原理(例子spi)
- Python StringIO模块 实现在内存缓冲区中读写数据
- 要点初见:Python+OpenCV校正并提取表格中的各个框
- MySQL提示Truncated incorrect DOUBLE value解决方法
- 在iMX8上使用MIPI-CSI摄像头
- java htmlunit 点击_htmlunit 模拟按钮点击
- VCU解决方案及核心L9788复杂驱动功能安全审计启动
- 淘系API、1688API、拼多多API大全,APP原数据调取
- div+css实现有序新闻文章列表布局