该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

报错信息:

UnboundLocalError: local variable 'text_list' referenced before assignment

代码如下:

import requests

from bs4 import BeautifulSoup

import datetime

import time

for i in range(1,101):

link = 'http://bbs.hupu.com/bxj-' + str(i)

post_link = get_page(link)

data_list = get_data(post_link)

for each in data_list:

print(each)

time.sleep(5)

print('第',i,'页获取完成', '休息3秒')

def get_page(link):

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}

r = requests.get(link, headers=headers)

html= r.content # 要搞清楚什么时候用text,什么时候用content

html = html.decode('UTF-8') # 要搞清楚什么时候用text,什么时候用content

soup = BeautifulSoup(html, 'lxml')

text_list1 = soup.find_all('ul',class_='for-list')

for post in text_list1:

text_list = post.find_all('li')

return text_list

def get_data(post_list):

data_list = []

for post in post_list:

title_td = post.find('a',class_='truetit').text.strip()

title_url = 'https://bbs.hupu.com' + post.find('a',class_='truetit')['href']

title_user = post.find('a',class_='aulink').text.strip()

title_user_url = post.find('a',class_='aulink')['href']

data_list.append([title_td, title_url, title_user, title_user_url])

return data_list

python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接,为什么只能爬10页就报...相关推荐

  1. python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转载)...

    完整代码 实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...

  2. python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  3. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  4. No.5 爬虫学习——MongoDB爬虫实践:虎扑论坛(唐松编《Python网络爬虫从入门到实践》P116-123)

    题目:获取虎扑步行街论坛上所有帖子的数据,内容包括帖子名称.帖子链接.作者.作者链接.创建时间.回复数.浏览数.最后回复用户和最后回复时间,网络地址为:https://bbs.hupu.com/bxj ...

  5. MongoDB爬虫实践:虎扑论坛

    实践目的: 本实践项的目的是获取虎扑步行街论坛上所有帖子的数据,网站地址如下: https://bbs.hupu.com/bxj 实践代码: import requests from bs4 impo ...

  6. python爬贴吧回复_Python爬虫——抓取贴吧帖子

    对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...

  7. python爬取微博评论_python爬虫抓取新浪微博数据

    需求分析 微博主页 抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数 抓取的内容 数据是怎么加载的 新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...

  8. python爬取虎扑论坛帖子数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  9. 【Python爬虫】MongoDB爬虫实践:爬取虎扑论坛

    MongoDB爬虫实践:爬取虎扑论坛 网站地址为:https://bbs.hupu.com/bxj 1.网站分析 首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...

  10. 爬虫入门实践之爬取虎扑论坛帖子

    现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...

最新文章

  1. 玩转GIT系列之【git的分支操作(查看分支/切换分支/新建分支/删除分支)】
  2. Java代码的执行顺序
  3. linux vps 命令,CentOS最常用Linux vps操作命令整理大全
  4. React Native使用指南-使用链接库
  5. Java 算法 特殊的数字四十
  6. (c语言)将一个数组逆序输出
  7. 【c语言复习笔记】初始c源程序及其数据类型
  8. 区块链 以太坊 solidity 什么时候使用storage、memory
  9. IT项目验收流程及说明
  10. 【埋点体系】(一)-埋点的理解
  11. Okra框架(三) 搭建HTTP服务器
  12. WIN10 kernel security check failure蓝屏解决策略
  13. 对学计算机学生礼仪,计算机学院举办“一学一做”之文明礼仪宣传月主题教育活动...
  14. Office2007 Professional简体中文版 附注册码
  15. 【UNIX网络编程】| 【03】TCP客户/服务器程序示例
  16. 【重新定义matlab强大系列八】利用matlab求局部值(函数islocalmax求局部最大值+函数islocalmin求局部最小值)
  17. 为什么要“除夕”,原来是内存爆了!
  18. 萌萌媛の【剑指offer笔记】二维数组中的查找
  19. 神经网络重建治疗仪原理,神经网络修复视频教程
  20. Mac上的Safari怎么屏蔽特定网站

热门文章

  1. 中国电信5G套餐用户渗透率达到50.4%
  2. LG新能源新设首席数字官 首任是英伟达前数据科学家
  3. B站举办2021年度百大UP主盛典 科技知识类UP主占比翻倍
  4. 京东将回购计划授权增至30亿美元并延期至2024年
  5. 铁路12306网站App服务时间延长 退票业务可24小时全天候办理
  6. 百度入股汽车照明模组晶合光电
  7. 中汽中心软件测评中心与紫光国微达成芯片认证合作
  8. 王思聪怒了!大众点评紧急道歉:相关账户已冻结
  9. 京泉华:与小米生态链公司已在智能家居领域等展开相关业务合作
  10. 任正非表示支持小女儿姚安娜搞文艺