python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接,为什么只能爬10页就报...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
报错信息:
UnboundLocalError: local variable 'text_list' referenced before assignment
代码如下:
import requests
from bs4 import BeautifulSoup
import datetime
import time
for i in range(1,101):
link = 'http://bbs.hupu.com/bxj-' + str(i)
post_link = get_page(link)
data_list = get_data(post_link)
for each in data_list:
print(each)
time.sleep(5)
print('第',i,'页获取完成', '休息3秒')
def get_page(link):
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}
r = requests.get(link, headers=headers)
html= r.content # 要搞清楚什么时候用text,什么时候用content
html = html.decode('UTF-8') # 要搞清楚什么时候用text,什么时候用content
soup = BeautifulSoup(html, 'lxml')
text_list1 = soup.find_all('ul',class_='for-list')
for post in text_list1:
text_list = post.find_all('li')
return text_list
def get_data(post_list):
data_list = []
for post in post_list:
title_td = post.find('a',class_='truetit').text.strip()
title_url = 'https://bbs.hupu.com' + post.find('a',class_='truetit')['href']
title_user = post.find('a',class_='aulink').text.strip()
title_user_url = post.find('a',class_='aulink')['href']
data_list.append([title_td, title_url, title_user, title_user_url])
return data_list
python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接,为什么只能爬10页就报...相关推荐
- python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转载)...
完整代码 实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...
- python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
- python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
- No.5 爬虫学习——MongoDB爬虫实践:虎扑论坛(唐松编《Python网络爬虫从入门到实践》P116-123)
题目:获取虎扑步行街论坛上所有帖子的数据,内容包括帖子名称.帖子链接.作者.作者链接.创建时间.回复数.浏览数.最后回复用户和最后回复时间,网络地址为:https://bbs.hupu.com/bxj ...
- MongoDB爬虫实践:虎扑论坛
实践目的: 本实践项的目的是获取虎扑步行街论坛上所有帖子的数据,网站地址如下: https://bbs.hupu.com/bxj 实践代码: import requests from bs4 impo ...
- python爬贴吧回复_Python爬虫——抓取贴吧帖子
对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...
- python爬取微博评论_python爬虫抓取新浪微博数据
需求分析 微博主页 抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数 抓取的内容 数据是怎么加载的 新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...
- python爬取虎扑论坛帖子数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- 【Python爬虫】MongoDB爬虫实践:爬取虎扑论坛
MongoDB爬虫实践:爬取虎扑论坛 网站地址为:https://bbs.hupu.com/bxj 1.网站分析 首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...
- 爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...
最新文章
- 玩转GIT系列之【git的分支操作(查看分支/切换分支/新建分支/删除分支)】
- Java代码的执行顺序
- linux vps 命令,CentOS最常用Linux vps操作命令整理大全
- React Native使用指南-使用链接库
- Java 算法 特殊的数字四十
- (c语言)将一个数组逆序输出
- 【c语言复习笔记】初始c源程序及其数据类型
- 区块链 以太坊 solidity 什么时候使用storage、memory
- IT项目验收流程及说明
- 【埋点体系】(一)-埋点的理解
- Okra框架(三) 搭建HTTP服务器
- WIN10 kernel security check failure蓝屏解决策略
- 对学计算机学生礼仪,计算机学院举办“一学一做”之文明礼仪宣传月主题教育活动...
- Office2007 Professional简体中文版 附注册码
- 【UNIX网络编程】| 【03】TCP客户/服务器程序示例
- 【重新定义matlab强大系列八】利用matlab求局部值(函数islocalmax求局部最大值+函数islocalmin求局部最小值)
- 为什么要“除夕”,原来是内存爆了!
- 萌萌媛の【剑指offer笔记】二维数组中的查找
- 神经网络重建治疗仪原理,神经网络修复视频教程
- Mac上的Safari怎么屏蔽特定网站