2019独角兽企业重金招聘Python工程师标准>>>

#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = 'gogogo.txt'
logfile = codecs.open(log,'w','utf-8')
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.a=0
        self.span=0;
    def handle_starttag(self,tag,attrs):
        if tag=='a':
            for name,value in attrs:
                if name=='class' and value=='tit':
                    self.a=1
        if tag=='span':
            for name,value in attrs:
                if name=='class' and value=='reply':
                    self.span=1
    def handle_endtag(self, tag):
        if tag == 'a' and self.a==1:
            self.a=0
            logfile.write('|')
        if tag=='span' and self.span==1:
            self.span=0
            logfile.write('\n')
    def handle_data(self, data):
        if (self.a or self.span):
            logfile.write(data)
parser = MyHTMLParser()

def getpage(url):
    req = urllib.request.Request(url)
    response = urllib.request.urlopen(req)
    the_page = response.read()
    return the_page
for i in range(1,405):
    url='http://bbs.qyer.com/forum-52-'+str(i)+'.html'
    page=getpage(url).decode('utf-8','ignore')
    parser.feed(page)
    print(i)

转载于:https://my.oschina.net/u/994484/blog/417102

python爬取标题和作者时间的小程序相关推荐

  1. python爬取京东商品属性_python爬虫小项目:爬取京东商品信息

    #爬取京东手机信息 import requests from bs4 import BeautifulSoup from selenium import webdriver import re imp ...

  2. 利用python爬取58同城简历数据_python爬虫程序 58同城二手交易信息爬取

    本脚本分为5部分: spider_main    主程序 url_manager    url管理器 html_downloader    网页下载器 html_parser    网页解析器 htm ...

  3. 自己做的爬取起点中文网书名目录的小程序

    import xlwt import requests from lxml import etree import timedef main(url,headers):page=requests.ge ...

  4. Fiddler爬取抓包(网页及小程序包)

    前言: 关于抓包的工具比较多,如: Charles : Fiddler  : Wireshark:BurpSuite (常用).今天演示讲解Fiddler抓包工具. 下载Fiddler Classic ...

  5. 爬取金山词霸并制作成exe小程序

    学习爬虫地二天,无聊中想起通过爬虫来爬取金山词霸的翻译网页,然后通过pyinstaller进行封装成一个可以在windows中可执行的exe文件 1.这是爬取数据的代码,用户可以循环输入自己想要翻译的 ...

  6. 新认知,python爬取12306火车出行时间

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:py3study ( 想要学习Python?Pytho ...

  7. Python爬取《创造营2020》小姐姐数据并用腾讯云人脸识别做颜值评分

    最近 创造营2020好多小姐姐吸引到我了,于是就有这这个 颜值100分的小姐姐高达21位 比如前段时间抖音很火的 凡凡 以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf ...

  8. Python爬取《创造营2020》小姐姐数据用腾讯云人脸识别做颜值评分

    最近 创造营2020好多小姐姐吸引到我了,于是就有这这个 颜值100分的小姐姐高达21位比如前段时间抖音很火的 凡凡 以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf- ...

  9. 元旦假期,去哪里旅游好呢?Python爬取元旦旅游最全攻略!

    2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连. 转发请求声明. 一.实现思路 首先我们爬取的网站是一个穷游网站: ...

最新文章

  1. 论文速递:智能作为信息处理系统
  2. Linux Shell脚本编程学习笔记和实战
  3. [转载]动态规划之0-1背包问题
  4. 使用数据库的压测工具super-smack测试mysql数据库性能
  5. RSA加密-解密以及解决超长内容加密失败解决
  6. 格子游戏(信息学奥赛一本通-T1347)
  7. 招博后,比利时鲁汶大学 A2H 部计算机视觉动物行为分析方向
  8. RFIC4463_F3CD
  9. css样式让样式失效,如何让css样式失效
  10. 转:FileReader详解与实例---读取并显示图像文件
  11. 【Linux】复制文件到当前目录 / 复制文件并重命名到当前目录
  12. 华为ensp模拟器实现通信安全(交换机配置vlan)
  13. cad快捷栏怎么调出来_cad左边工具栏不见了怎么办|cad工具栏怎么调出来_PC6教学...
  14. 学习笔记(8)之VelocityTracker
  15. 数据中台全面分析总结
  16. 获取android手机设备的OAID
  17. Python函数式编程 及案例
  18. 聊新款Macbook pro
  19. 手机计算机怎么恢复出厂设置密码,如何找回手机锁屏密码?
  20. 预装WIN8改装WIN7之BIOS设置

热门文章

  1. 多目标跟踪(MOT)中的卡尔曼滤波(Kalman filter)和匈牙利(Hungarian)算法详解
  2. quick-cocos2d-x下载文件
  3. 论文通过学校的查重率是多少?
  4. Design Pattern Explained 读书笔记六——Bridge
  5. (C语言!)广义表(头尾链表)的建立和输出
  6. 移动硬盘无法安全弹出解决方法
  7. fastapi+vue搭建免费代理IP网站部署至heroku
  8. 第一章 SRE与DevOps之间的联系
  9. nimble 蓝牙开发一:BLE 蓝牙 Host 规范概述
  10. 今天在进行《系统工程理论与实践》论文中遇到的坑