无聊的很,写了个程序来提取CSDN灌水乐园的帖子。主要使用了urllib和re两个库。

可以提取帖子的标题,链接,分值和回复数。

代码如下:(就不解释了)

# -*- coding: utf-8 -*- import urllib, re def parsepost(msg): title = re.search('''title="(.+?)"''', msg).group()[7:-1] print title href = re.search('''title=(.+?)href="(/S+?)"''', msg).group() spos = href.find('href=') href = href[spos + 6:-1] print href nums = [] for r in re.finditer('''<td>[^.]+?/d+''', msg): nums += [r.group()] assert(len(nums) == 2) score = int(re.search('''/d+''', nums[0]).group()) replies = int(re.search('''/d+''', nums[1]).group()) print score print replies print "============================================" sock=urllib.urlopen("http://forum.csdn.net/SList/FreeZone") source=sock.read() print source startpos = [] endpos = [] trs = [] for i in re.finditer('''<tr class="(dark|light)">''', source): startpos += [i.start()] for j in re.finditer('''</tr>''', source): endpos += [j.end()] startpos = startpos[1:] endpos = endpos[4:] assert(len(startpos) == len(endpos)) for k in range(0, len(startpos)): trs += [source[startpos[k]:endpos[k]]] for t in trs: parsepost(t)

用Python提取CSDN灌水乐园的帖子相关推荐

  1. 前辈之路[摘自CSDN灌水乐园 袁峰贴]

    1) 基本功: 数学: 关键是分析问题, 解决问题的能力      小学: 数学最好        中学: 数学课代表, 数理化全校第一(苏州三中).      大学: 想考数学系, 没考上, 上了上 ...

  2. CSDN自动回复灌水乐园帖子-httpClient篇

    package com.ws; import java.io.IOException; import java.util.ArrayList; import java.util.List; //1.首 ...

  3. 利用python提取期货交易所的水单数据

    5家期货交易所给的水单数据格式都不统一,这里用的是大商所.郑商所的txt水单文件,剩下的三家交易所使用的都是网页文件,提取txt文件直接使用open方法,提取网页文件则使用的是pandas库,提取出来 ...

  4. 【来灌灌水】~~感谢csdn平台给予新手学习的地方

    小白来了,疯狂灌水! 大一刚接触c 学习(how) 最后,做总结! 大一刚接触c 先学会打印printf,scanf,gets,puts,等等基本的知识. 理解记忆对于我们来说是新的知识的内容 例如: ...

  5. 微信朋友圈python广告投了多少钱_朋友圈广告的评论区,当代人的灌水BBS

    记者 | 马越 编辑 | 牙韩翔 1 如果你最近几天都忍住没发过朋友圈,也没给任何人点赞评论,却冷不防多了个小红点提醒--没错,八成是又有人收到Python的广告了. 6张不明所以的图片,加上20个字 ...

  6. 同盾反欺诈云防垃圾灌水帖体验分享

    年初将留言本改成了松松论坛,解决了留言本很多问题,也有了互动性,增强了粘性. 不过随后遇到了很多问题,尤其是垃圾贴的问题困扰了我们很久,有一段时间有人用论坛群发器发布了很多垃圾贴,原本只有几千条的帖子 ...

  7. 用Python提取解析pdf文档中内容

    用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...

  8. php 机数,PHP实现自动刷数和“灌水”机

    今天无意间看到一个网站,它的计数器能够在静态页里更新,我想,应该是使用js来做的,打开源代码一看,果然是: <div align=center><SPAN class=Article ...

  9. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

最新文章

  1. Redis低成本高可用方案设计
  2. 强制解包看 Swift 的设计
  3. 用Qt 4.4编写drcom的GUI (转)
  4. 组合,多态,封装, @property
  5. 什么叫pmt测试分析_RVS — 面向目标硬件的软件性能测试工具
  6. C++虚函数与纯虚函数用法与区别
  7. python程序的name的作用是什么_python 中__name__ = '__main__' 的作用,到底干嘛的?
  8. android studio shell 命令行自动打包(mac 平台)
  9. mongod启动问题
  10. MHA 节点程序介绍
  11. QTP(Quick Test Professional)安装详细教程
  12. html好看鼠标光标特效
  13. 【数据分析】面经(搬运)
  14. 带你学习《深入理解计算机系统》虚拟存储器(1)——虚存概念及页、页表和地址翻译基础
  15. 快播关闭服务器,你怎么看?
  16. 【总结】漫画机器学习入门(大关真之著)
  17. android 全景拼接软件,DetuStitch(全景拼接软件)
  18. MiniDao-PE精简版
  19. [Gym 102135][B - Freebie]2017-2018 8th BSUIR Open Programming Contest
  20. Python异常处理(try...except 语句中有return的一些情况)

热门文章

  1. 关于Excel导入(或数据库连接)的HDR=YES; IMEX=1详解
  2. 微信小程序反编译的应对方法
  3. 重磅!VirtualXposed,让你无需Root也能使用Xposed框架!
  4. iOS即时通讯之CocoaAsyncSocket源码解析一
  5. 分析便宜云主机价格低的因素
  6. XSY #2815 净空
  7. Linux du(disk usage)命令详解
  8. 搜网页显示未连接上服务器是什么,【科普君】网页搜索时,出现“404”到底是什么意思?...
  9. 2020-10-20 任务三(一) RTOS系统初识
  10. C#开发基于ESMTP协议的邮件发送系统经验总结