用Python提取CSDN灌水乐园的帖子
无聊的很,写了个程序来提取CSDN灌水乐园的帖子。主要使用了urllib和re两个库。
可以提取帖子的标题,链接,分值和回复数。
代码如下:(就不解释了)
# -*- coding: utf-8 -*- import urllib, re def parsepost(msg): title = re.search('''title="(.+?)"''', msg).group()[7:-1] print title href = re.search('''title=(.+?)href="(/S+?)"''', msg).group() spos = href.find('href=') href = href[spos + 6:-1] print href nums = [] for r in re.finditer('''<td>[^.]+?/d+''', msg): nums += [r.group()] assert(len(nums) == 2) score = int(re.search('''/d+''', nums[0]).group()) replies = int(re.search('''/d+''', nums[1]).group()) print score print replies print "============================================" sock=urllib.urlopen("http://forum.csdn.net/SList/FreeZone") source=sock.read() print source startpos = [] endpos = [] trs = [] for i in re.finditer('''<tr class="(dark|light)">''', source): startpos += [i.start()] for j in re.finditer('''</tr>''', source): endpos += [j.end()] startpos = startpos[1:] endpos = endpos[4:] assert(len(startpos) == len(endpos)) for k in range(0, len(startpos)): trs += [source[startpos[k]:endpos[k]]] for t in trs: parsepost(t)
用Python提取CSDN灌水乐园的帖子相关推荐
- 前辈之路[摘自CSDN灌水乐园 袁峰贴]
1) 基本功: 数学: 关键是分析问题, 解决问题的能力 小学: 数学最好 中学: 数学课代表, 数理化全校第一(苏州三中). 大学: 想考数学系, 没考上, 上了上 ...
- CSDN自动回复灌水乐园帖子-httpClient篇
package com.ws; import java.io.IOException; import java.util.ArrayList; import java.util.List; //1.首 ...
- 利用python提取期货交易所的水单数据
5家期货交易所给的水单数据格式都不统一,这里用的是大商所.郑商所的txt水单文件,剩下的三家交易所使用的都是网页文件,提取txt文件直接使用open方法,提取网页文件则使用的是pandas库,提取出来 ...
- 【来灌灌水】~~感谢csdn平台给予新手学习的地方
小白来了,疯狂灌水! 大一刚接触c 学习(how) 最后,做总结! 大一刚接触c 先学会打印printf,scanf,gets,puts,等等基本的知识. 理解记忆对于我们来说是新的知识的内容 例如: ...
- 微信朋友圈python广告投了多少钱_朋友圈广告的评论区,当代人的灌水BBS
记者 | 马越 编辑 | 牙韩翔 1 如果你最近几天都忍住没发过朋友圈,也没给任何人点赞评论,却冷不防多了个小红点提醒--没错,八成是又有人收到Python的广告了. 6张不明所以的图片,加上20个字 ...
- 同盾反欺诈云防垃圾灌水帖体验分享
年初将留言本改成了松松论坛,解决了留言本很多问题,也有了互动性,增强了粘性. 不过随后遇到了很多问题,尤其是垃圾贴的问题困扰了我们很久,有一段时间有人用论坛群发器发布了很多垃圾贴,原本只有几千条的帖子 ...
- 用Python提取解析pdf文档中内容
用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...
- php 机数,PHP实现自动刷数和“灌水”机
今天无意间看到一个网站,它的计数器能够在静态页里更新,我想,应该是使用js来做的,打开源代码一看,果然是: <div align=center><SPAN class=Article ...
- python 替换array中的值_利用Python提取视频中的字幕(文字识别)
我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...
最新文章
- Redis低成本高可用方案设计
- 强制解包看 Swift 的设计
- 用Qt 4.4编写drcom的GUI (转)
- 组合,多态,封装, @property
- 什么叫pmt测试分析_RVS — 面向目标硬件的软件性能测试工具
- C++虚函数与纯虚函数用法与区别
- python程序的name的作用是什么_python 中__name__ = '__main__' 的作用,到底干嘛的?
- android studio shell 命令行自动打包(mac 平台)
- mongod启动问题
- MHA 节点程序介绍
- QTP(Quick Test Professional)安装详细教程
- html好看鼠标光标特效
- 【数据分析】面经(搬运)
- 带你学习《深入理解计算机系统》虚拟存储器(1)——虚存概念及页、页表和地址翻译基础
- 快播关闭服务器,你怎么看?
- 【总结】漫画机器学习入门(大关真之著)
- android 全景拼接软件,DetuStitch(全景拼接软件)
- MiniDao-PE精简版
- [Gym 102135][B - Freebie]2017-2018 8th BSUIR Open Programming Contest
- Python异常处理(try...except 语句中有return的一些情况)
热门文章
- 关于Excel导入(或数据库连接)的HDR=YES; IMEX=1详解
- 微信小程序反编译的应对方法
- 重磅!VirtualXposed,让你无需Root也能使用Xposed框架!
- iOS即时通讯之CocoaAsyncSocket源码解析一
- 分析便宜云主机价格低的因素
- XSY #2815 净空
- Linux du(disk usage)命令详解
- 搜网页显示未连接上服务器是什么,【科普君】网页搜索时,出现“404”到底是什么意思?...
- 2020-10-20 任务三(一) RTOS系统初识
- C#开发基于ESMTP协议的邮件发送系统经验总结