Python爬取NGA帖子

刚学爬虫，试着写了个爬NGA帖子的简单爬虫

先编辑好head和cookie，cookie会过期，如果跑不出结果可以试着换一下

from bs4 import BeautifulSoup
import requests
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Connection':'keep-alive'
}cookies='UM_distinctid=16df733f26b3a8-0c6ae27b1fe39-3d375b01-1fa400-16df733f26c79f; taihe_bi_sdk_uid=cbd969cd52f5f62a6f7fe5069f57cc6c; ngaPassportUid=34337474; ngaPassportUrlencodedUname=%25BD%25D0%25C9%25A7%25B5%25C4%25C3%25A8; ngaPassportCid=Z8eu0qnv7911if6jl6d1alu112qt5v944g00oii6; ngacn0comUserInfo=%25BD%25D0%25C9%25A7%25B5%25C4%25C3%25A8%09%25E5%258F%25AB%25E9%25AA%259A%25E7%259A%2584%25E7%258C%25AB%0942%0942%09%09-10%0922902%094%090%090%0911_-300%2C22_30%2C61_16%2C39_30%2C85_15; CNZZDATA30043604=cnzz_eid%3D1054280295-1571806389-https%253A%252F%252Fwww.google.com%252F%26ntime%3D1574749354; taihe_bi_sdk_session=3f434363b5d97f0bbe5fb22ee06a1e25; ngacn0comUserInfoCheck=6bef3a1628f60ed226b2d9e40cf7b34a; ngacn0comInfoCheckTime=1574750138; lastvisit=1574750762; lastpath=/read.php?tid=19416263&_ff=436; bbsmisccookies=%7B%22uisetting%22%3A%7B0%3A1%2C1%3A1582092365%7D%2C%22pv_count_for_insad%22%3A%7B0%3A-160%2C1%3A1574787652%7D%2C%22insad_views%22%3A%7B0%3A2%2C1%3A1574787652%7D%7D; _cnzz_CV30043604=forum%7Cfid436%7C0'
cookie={}
for line in cookies.split(';'):name,value=line.strip().split('=',1)cookie[name]=value

然后我手动把几个自己常用的板块加了进去

urls=['https://bbs.nga.cn/thread.php?fid=-7&page=','https://bbs.nga.cn/thread.php?fid=436&page=','https://bbs.nga.cn/thread.php?fid=414&page=','https://bbs.nga.cn/thread.php?fid=498&page=']

接下来写了一个获取板块主题的方法，返回内容包括主题链接和标题

#获取指定页数的主题
def getTopic(url,number=1):topics = []for i in range(1,number+1):url_one=url+str(i)res=requests.get(url_one,cookies=cookie,headers=headers)soup=BeautifulSoup(res.content,'lxml')topic=soup.find_all('a',class_='topic')for t in topic:topics.append('https://bbs.nga.cn/'+t['href']+"  "+t.get_text())return topics

下一步就是做一个获取主题内容的方法（不过由于学艺不精目前只能获取一些文字回复）

#获取指定主题的内容
def getContext(url):res=requests.get(url,cookies=cookie,headers=headers)soup=BeautifulSoup(res.content,'lxml')title_body = soup.find_all('p', class_='postcontent ubbcode')for t in title_body:print(t.get_text())context = soup.find_all('span', class_="postcontent ubbcode")for c in context:print(c.get_text())

最后再把逻辑调整完就行了

if __name__ == '__main__':big_topic=int(input('请输入板块 1-网事杂谈，2-消费电子，3-游戏综合，4-二手交易:'))page_num=int(input('请输入指定页 默认为第一页：'))Topic=getTopic(urls[big_topic-1],page_num)for i in range(1,len(Topic)):print(str(i)+" "+Topic[i-1])for i in range(1000):top_id=int(input("请输入编号选择想要查看的主题:"))url_next=Topic[top_id-1].split(" ")[0]getContext(url_next)time.sleep(5)is_goon=int(input('是否查看其他主题，1-是 0-否：'))if is_goon==1:continueelse:break

新手刚学写的不好欢迎大佬指导，也没思考太多就是一步步怎么想就怎么做了，本意也是练习练习加上可以猥琐的摸鱼。：）

Python爬取NGA帖子相关推荐

python爬取论坛帖子_Python爬虫实战（1）：爬取Drupal论坛帖子列表
1,引言在<Python即时网络爬虫项目: 内容提取器的定义>一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间.本文将用一个实例讲解怎样使用这个爬 ...
python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接，为什么只能爬10页就报...
该楼层疑似违规已被系统折叠隐藏此楼查看此楼报错信息: UnboundLocalError: local variable 'text_list' referenced before assignm ...
python爬取贴吧所有帖子-python爬取贴吧帖子
一.介绍我们常遇到一些很长的贴吧连载帖子想存到本地再看此文就是运用python爬取指定百度贴吧的帖子并存到本地满足需求环境:python2.7 目标网页:[长篇连载]剑网3的正史和野史--从头开 ...
python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
python爬取微博话题下面的帖子并存入excel文件
此次写的是python爬取微博话题下面的帖子,示例代码以爬取#转发这个杨超越# https://s.weibo.com/weibo/%23%E8%BD%AC%E5%8F%91%E8%BF%99%E4% ...
python爬取论坛付费内容_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...
欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...
python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些...
原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些写在前面考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...
python 爬取财经新闻股票_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...
欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...
python爬取Instagram上偶像的帖子（包括图片和视频）
python爬取Instagram上偶像的帖子(包括图片和视频) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关目录 python爬取Instagram上偶像的帖子(包 ...

Python爬取NGA帖子

刚学爬虫，试着写了个爬NGA帖子的简单爬虫

Python爬取NGA帖子相关推荐

最新文章

热门文章