第十五讲

BeautifulSoup解析HTML标签

爬虫实战项目(英雄联盟虎扑论坛)

import requests
url = 'https://bbs.hupu.com/lol'
headers = {'user-agant':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'
}
response = requests.get(url=url, headers=headers)
print(response)

这一步输出结构是一个状态码,如果和浏览器状态码相同,则访问正常

# pip install reqeusts, lxml
import requests
from lxml import etree
import csvurl = 'https://bbs.hupu.com/lol-1'headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15','Host': 'bbs.hupu.com'
}response = requests.get(url=url, headers=headers)
# print(response.text)# with open('hupu.html', 'w', encoding='utf-8') as fp:
#     fp.write(response.text)# 解析数据
# 数据解析的准备工作
root = etree.HTML(response.text)names = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/text()')
href = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/@href')
author = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-auth"]/a/text()')
time = root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-time"]/text()')info = []
for i in range(len(names)):info.append([names[i], author[i], time[i], href[i]])fieldnames = ['name', 'author', 'time', 'href']
f = open('hupudata.csv', 'a+', encoding='utf-8')
f_csv = csv.writer(f)
f_csv.writerows(info)
f.close()

求赞!!!
你的支持就是我持续分享的动力

python爬虫(爬虎扑英雄联盟论坛)相关推荐

  1. Python爬虫爬取王者荣耀英雄人物高清图片

    Python爬虫爬取王者荣耀英雄人物高清图片 实现效果: 网页分析 从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的 在每个英雄的具体 ...

  2. PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息

    Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据 最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象.. 下面就是所有要爬取的adc,当然有个别ad ...

  3. 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!

    微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广 概述 前言 假设 游戏对战数据获取 分析和训练数据 游戏对战胜负预测 期望研究的问题 结论 阿广说 推荐阅读 前言 如今,只 ...

  4. Python爬虫爬取微信朋友圈

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...

  5. python爬虫爬图片教程_Python爬虫爬图片需要什么

    Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现 要点如下: 1.url_request = request.Request(url) 2. ...

  6. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  7. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  8. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  9. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

最新文章

  1. Python Django框架入门第一课
  2. 【Linux】5.linux下的export命令和环境变量
  3. (转载)C++之tinyXML使用
  4. The requested URL /server-status was not found on this server
  5. Ubuntu 发布迁移手册,拉拢 Windows 7 用户
  6. C语言操作符详解 隐式类型转换 (整型提升 算数转换)
  7. MySQL提供链接途径_MySQL 连接
  8. 计算机软件录音注意事项,录音笔使用注意事项
  9. 软件工程概论之登录页面
  10. Python实现好友信息管理系统 添加、删除、修改、备注、查询好友信息
  11. C语言整人小程序,慎用,谨记!
  12. 02.二叉树打印.md
  13. xls批量转换为xlsx格式文件
  14. 研究意识问题为什么如此困难
  15. 树莓派串口配置(c++)
  16. python中Excel表的读写改详解
  17. MySQL创建数据库表的语句和基础语句
  18. 【9505】部落卫队
  19. 清晰明了,什么是贝叶斯定理?朴素贝叶斯又是什么?
  20. 为陈天桥私有化盛大叫好

热门文章

  1. java计算机毕业设计校园代办业务系统源码+数据库+系统+lw文档+mybatis+运行部署
  2. 关于rt-thread的外设驱动原理(例子spi)
  3. Python StringIO模块 实现在内存缓冲区中读写数据
  4. 要点初见:Python+OpenCV校正并提取表格中的各个框
  5. MySQL提示Truncated incorrect DOUBLE value解决方法
  6. 在iMX8上使用MIPI-CSI摄像头
  7. java htmlunit 点击_htmlunit 模拟按钮点击
  8. VCU解决方案及核心L9788复杂驱动功能安全审计启动
  9. 淘系API、1688API、拼多多API大全,APP原数据调取
  10. div+css实现有序新闻文章列表布局