python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接，为什么只能爬10页就报...

该楼层疑似违规已被系统折叠隐藏此楼查看此楼

报错信息：

UnboundLocalError: local variable 'text_list' referenced before assignment

代码如下：

import requests

from bs4 import BeautifulSoup

import datetime

import time

for i in range(1,101):

link = 'http://bbs.hupu.com/bxj-' + str(i)

post_link = get_page(link)

data_list = get_data(post_link)

for each in data_list:

print(each)

time.sleep(5)

print('第',i,'页获取完成', '休息3秒')

def get_page(link):

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}

r = requests.get(link, headers=headers)

html= r.content # 要搞清楚什么时候用text，什么时候用content

html = html.decode('UTF-8') # 要搞清楚什么时候用text，什么时候用content

soup = BeautifulSoup(html, 'lxml')

text_list1 = soup.find_all('ul',class_='for-list')

for post in text_list1:

text_list = post.find_all('li')

return text_list

def get_data(post_list):

data_list = []

for post in post_list:

title_td = post.find('a',class_='truetit').text.strip()

title_url = 'https://bbs.hupu.com' + post.find('a',class_='truetit')['href']

title_user = post.find('a',class_='aulink').text.strip()

title_user_url = post.find('a',class_='aulink')['href']

data_list.append([title_td, title_url, title_user, title_user_url])

return data_list

python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接，为什么只能爬10页就报...相关推荐

python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储（转载）...
完整代码实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...
python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
No.5 爬虫学习——MongoDB爬虫实践：虎扑论坛(唐松编《Python网络爬虫从入门到实践》P116-123)
题目:获取虎扑步行街论坛上所有帖子的数据,内容包括帖子名称.帖子链接.作者.作者链接.创建时间.回复数.浏览数.最后回复用户和最后回复时间,网络地址为:https://bbs.hupu.com/bxj ...
MongoDB爬虫实践：虎扑论坛
实践目的: 本实践项的目的是获取虎扑步行街论坛上所有帖子的数据,网站地址如下: https://bbs.hupu.com/bxj 实践代码: import requests from bs4 impo ...
python爬贴吧回复_Python爬虫——抓取贴吧帖子
对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...
python爬取微博评论_python爬虫抓取新浪微博数据
需求分析微博主页抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数抓取的内容数据是怎么加载的新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...
python爬取虎扑论坛帖子数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
【Python爬虫】MongoDB爬虫实践：爬取虎扑论坛
MongoDB爬虫实践:爬取虎扑论坛网站地址为:https://bbs.hupu.com/bxj 1.网站分析首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...
爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...

python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接，为什么只能爬10页就报...

python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接，为什么只能爬10页就报...相关推荐

最新文章

热门文章