Python爬取NGA帖子
刚学爬虫,试着写了个爬NGA帖子的简单爬虫
先编辑好head和cookie,cookie会过期,如果跑不出结果可以试着换一下
from bs4 import BeautifulSoup
import requests
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Connection':'keep-alive'
}cookies='UM_distinctid=16df733f26b3a8-0c6ae27b1fe39-3d375b01-1fa400-16df733f26c79f; taihe_bi_sdk_uid=cbd969cd52f5f62a6f7fe5069f57cc6c; ngaPassportUid=34337474; ngaPassportUrlencodedUname=%25BD%25D0%25C9%25A7%25B5%25C4%25C3%25A8; ngaPassportCid=Z8eu0qnv7911if6jl6d1alu112qt5v944g00oii6; ngacn0comUserInfo=%25BD%25D0%25C9%25A7%25B5%25C4%25C3%25A8%09%25E5%258F%25AB%25E9%25AA%259A%25E7%259A%2584%25E7%258C%25AB%0942%0942%09%09-10%0922902%094%090%090%0911_-300%2C22_30%2C61_16%2C39_30%2C85_15; CNZZDATA30043604=cnzz_eid%3D1054280295-1571806389-https%253A%252F%252Fwww.google.com%252F%26ntime%3D1574749354; taihe_bi_sdk_session=3f434363b5d97f0bbe5fb22ee06a1e25; ngacn0comUserInfoCheck=6bef3a1628f60ed226b2d9e40cf7b34a; ngacn0comInfoCheckTime=1574750138; lastvisit=1574750762; lastpath=/read.php?tid=19416263&_ff=436; bbsmisccookies=%7B%22uisetting%22%3A%7B0%3A1%2C1%3A1582092365%7D%2C%22pv_count_for_insad%22%3A%7B0%3A-160%2C1%3A1574787652%7D%2C%22insad_views%22%3A%7B0%3A2%2C1%3A1574787652%7D%7D; _cnzz_CV30043604=forum%7Cfid436%7C0'
cookie={}
for line in cookies.split(';'):name,value=line.strip().split('=',1)cookie[name]=value
然后我手动把几个自己常用的板块加了进去
urls=['https://bbs.nga.cn/thread.php?fid=-7&page=','https://bbs.nga.cn/thread.php?fid=436&page=','https://bbs.nga.cn/thread.php?fid=414&page=','https://bbs.nga.cn/thread.php?fid=498&page=']
接下来写了一个获取板块主题的方法,返回内容包括主题链接和标题
#获取指定页数的主题
def getTopic(url,number=1):topics = []for i in range(1,number+1):url_one=url+str(i)res=requests.get(url_one,cookies=cookie,headers=headers)soup=BeautifulSoup(res.content,'lxml')topic=soup.find_all('a',class_='topic')for t in topic:topics.append('https://bbs.nga.cn/'+t['href']+" "+t.get_text())return topics
下一步就是做一个获取主题内容的方法(不过由于学艺不精目前只能获取一些文字回复)
#获取指定主题的内容
def getContext(url):res=requests.get(url,cookies=cookie,headers=headers)soup=BeautifulSoup(res.content,'lxml')title_body = soup.find_all('p', class_='postcontent ubbcode')for t in title_body:print(t.get_text())context = soup.find_all('span', class_="postcontent ubbcode")for c in context:print(c.get_text())
最后再把逻辑调整完就行了
if __name__ == '__main__':big_topic=int(input('请输入板块 1-网事杂谈,2-消费电子,3-游戏综合,4-二手交易:'))page_num=int(input('请输入指定页 默认为第一页:'))Topic=getTopic(urls[big_topic-1],page_num)for i in range(1,len(Topic)):print(str(i)+" "+Topic[i-1])for i in range(1000):top_id=int(input("请输入编号选择想要查看的主题:"))url_next=Topic[top_id-1].split(" ")[0]getContext(url_next)time.sleep(5)is_goon=int(input('是否查看其他主题,1-是 0-否:'))if is_goon==1:continueelse:break
新手刚学写的不好欢迎大佬指导,也没思考太多就是一步步怎么想就怎么做了,本意也是练习练习加上可以猥琐的摸鱼。:)
Python爬取NGA帖子相关推荐
- python爬取论坛帖子_Python爬虫实战(1):爬取Drupal论坛帖子列表
1,引言 在<Python即时网络爬虫项目: 内容提取器的定义>一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间.本文将用一个实例讲解怎样使用这个爬 ...
- python爬取论坛帖子_python爬虫爬取虎扑论坛的帖子名称和链接,为什么只能爬10页就报...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 报错信息: UnboundLocalError: local variable 'text_list' referenced before assignm ...
- python爬取贴吧所有帖子-python爬取贴吧帖子
一.介绍 我们常遇到一些很长的贴吧连载帖子想存到本地再看 此文就是运用python爬取指定百度贴吧的帖子并存到本地满足需求 环境:python2.7 目标网页:[长篇连载]剑网3的正史和野史--从头开 ...
- python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
- python爬取微博话题下面的帖子并存入excel文件
此次写的是python爬取微博话题下面的帖子,示例代码以爬取#转发这个杨超越# https://s.weibo.com/weibo/%23%E8%BD%AC%E5%8F%91%E8%BF%99%E4% ...
- python爬取论坛付费内容_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...
欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...
- python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些...
原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些 写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...
- python 爬取财经新闻股票_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...
欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...
- python爬取Instagram上偶像的帖子(包括图片和视频)
python爬取Instagram上偶像的帖子(包括图片和视频) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python爬取Instagram上偶像的帖子(包 ...
最新文章
- 「土行孙」机器人登上Science子刊封面,用气流在地下穿梭自如,速度达每秒4.8米...
- Http协议中的数据传送之多重表单提交--multipart/form-data
- C++ #pragma comment语法(预处理指令)
- 神策数据丨教育行业线索转化全链路解决方案
- 手算KMP匹配的Next值和Nextval值(转载)
- Java根据正则生成随机字符串
- 微型计算机和pc的概念,微型计算机IBM-PC(0520)系统原理及应用
- 《量子计算机简史》--摘
- python json文件太大_python - python json.dump创建的文件太大 - 堆栈内存溢出
- IE下调试CSS与JS
- log4j日志设置error级别以上
- 微波工程(2)——传输线理论
- MybatisPlus学习笔记
- 联邦学习数学公式纯手推
- 仿射变换再次秒杀2011山东理科高考压轴题(圆锥曲线)
- 统一社会信用代码、纳税人识别号验证规则
- 防火墙 | DDos攻击防范技术
- c语言syslog日志记录
- ssh隧道连接的3种方式
- error LNK2019: 无法解析的外部符号 _Direct3DCreate9@4,该符号在函数 int __cdecl InitD3D(struct HWND__ *,unsigned lo