java 百度贴吧 爬虫,爬取百度贴吧帖子
依然是参考教程 Python爬虫实战一之爬取百度贴吧帖子。作者崔庆才写了很多关于Python爬虫的文章,大家有兴趣的话可以去他的个人博客静觅学习。
这次将爬取的数据写入了文本文件中,并用到了re模块中其他的匹配方式。
页面源代码.PNG
由于页面中包含了图片、超链接等一些我们不需要的信息,我们利用一个方法将这些信息剔除掉。
class Tool:
removeImg = re.compile('')
removeAddr = re.compile('|')
replaceBR = re.compile('
')
removeExtraTag = re.compile('<.>')
def replace(self, x):
x = re.sub(self.removeImg,"",x)
x = re.sub(self.removeAddr,"",x)
x = re.sub(self.replaceBR,"\n",x)
x = re.sub(self.removeExtraTag,"",x)
return x.strip()
re.sub(pattern, repl, string)将字符串string中符合正则表达式pattern的部分替换为repl。
def getTitle(self, page):
pattern = re.compile('
m.group(0) = 'Isaac Newton'
m.group(1) = 'Isaac'
m.group(2) = 'Newton'
utf-8是unicode的实现方式之一。字符串在Python内部的表示是unicode编码。pageCode = response.read().decode('utf-8')中decode('utf-8')代表将utf-8编码的字符串转换成unicode编码,然后在Python中进行处理。contents.append(content.encode('utf-8'))表示将unicode编码转换成utf-8编码的字符串,然后才能写入txt文件。self.file = open(title + ".txt", "w+")中的w+参数表示打开一个文件用于读写,如果该文件已存在则将其覆盖,如果该文件不存在,创建新文件。
以前每次在百度贴吧上看帖子想要只看楼主都要登录,这次以后知道只要在网址后面加上?see_lz=1就可以直接看了。
java 百度贴吧 爬虫,爬取百度贴吧帖子相关推荐
- python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
- python爬虫教学百度云_python爬虫爬取百度网盘-怎么做一个百度网盘搜索引擎
因为要做去转盘网,所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关注我,会发现去转 ...
- 测试爬虫 爬取百度贴吧 爬取百度搜图图片
测试爬取百度贴吧图片 定义爬取百度斗图吧首页的每条贴子的URL的爬取规则对象 /*** 斗图吧贴子的url*/SpiderFunction<Set<String>> doutu ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取百度文档
使用python爬虫爬取百度文档文字 话不多说,直接上代码! import requests import reheaders = {"User-Agent": "Moz ...
- python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)
什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
- python3爬虫爬取百度贴吧下载图片
python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...
- python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...
- java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息
[Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...
最新文章
- 配置yum源并与公网同步更新
- 钽电容正负极_固态电容怎么看正负极,固态电容正负极区分方法
- int ,long , long long类型的范围
- 一致性代码段和非一致性代码段【转】
- 我的HTTP/3学习笔记
- stm32f103 spi crc
- JavaEE企业级快速开发平台jeesite4的使用和快速搭建项目
- 银屑病与寿命的关系(调研手稿七)
- php在数据流(内存)中操纵远程数据
- java formatter()_Java Formatter locale()用法及代码示例
- hive sql之lateral view explode用法
- 【华为云技术分享】听说,AI界奔涌的后浪都相聚在这里
- 初用vscode遇到中文乱码问题
- 布客·ApacheCN 编程/大数据/数据科学/人工智能学习资源 2020.4
- 软件设计师中级- 数据结构与算法基础
- 为什么c语言没落了,编程语言Go飞速大涨,Delphi走向没落
- text 热敏打印机_便携热敏打印机API参考手册.pdf
- blog在搜索引擎的排名下降与technorati
- java 发送html格式邮件 样式混乱解决
- 【转发】Cortex-M3 处理器
热门文章
- GitHub开源:升讯威 SQLite 增强组件 Sheng.SQLite.Plus
- sheet.js插件解析excel数据
- 全国数学建模C题仿真代码
- 传世基本架构-服务器端(SelGate服务器分析)
- 希捷服务器硬盘型号,希捷硬盘有哪些型号?
- 单文件程序制作一键通三合一 v5.10 杏雨梨云版
- 前端监控sdk 页面性能监控
- ucenter base.php,UCenter之应用通信分析(一)
- Python大牛带你实现12306全自动抢票,学完后春运回家抢票无忧
- 1-10-RHEL6.3-linux启动原理及各种故障案例分析(Red Hat Enterprise Linux Server6.3)@树袋飘零...