python爬取标题和作者时间的小程序

2019独角兽企业重金招聘Python工程师标准>>>

#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = 'gogogo.txt'
logfile = codecs.open(log,'w','utf-8')
class MyHTMLParser(HTMLParser):
   def __init__(self):
       HTMLParser.__init__(self)
       self.a=0
       self.span=0;
   def handle_starttag(self,tag,attrs):
       if tag=='a':
           for name,value in attrs:
               if name=='class' and value=='tit':
                   self.a=1
       if tag=='span':
           for name,value in attrs:
               if name=='class' and value=='reply':
                   self.span=1
   def handle_endtag(self, tag):
       if tag == 'a' and self.a==1:
           self.a=0
           logfile.write('|')
       if tag=='span' and self.span==1:
           self.span=0
           logfile.write('\n')
   def handle_data(self, data):
       if (self.a or self.span):
           logfile.write(data)
parser = MyHTMLParser()

def getpage(url):
   req = urllib.request.Request(url)
   response = urllib.request.urlopen(req)
   the_page = response.read()
   return the_page
for i in range(1,405):
   url='http://bbs.qyer.com/forum-52-'+str(i)+'.html'
   page=getpage(url).decode('utf-8','ignore')
   parser.feed(page)
   print(i)

转载于:https://my.oschina.net/u/994484/blog/417102

python爬取标题和作者时间的小程序相关推荐

python爬取京东商品属性_python爬虫小项目：爬取京东商品信息
#爬取京东手机信息 import requests from bs4 import BeautifulSoup from selenium import webdriver import re imp ...
利用python爬取58同城简历数据_python爬虫程序 58同城二手交易信息爬取
本脚本分为5部分: spider_main 主程序 url_manager url管理器 html_downloader 网页下载器 html_parser 网页解析器 htm ...
自己做的爬取起点中文网书名目录的小程序
import xlwt import requests from lxml import etree import timedef main(url,headers):page=requests.ge ...
Fiddler爬取抓包（网页及小程序包）
前言: 关于抓包的工具比较多,如: Charles : Fiddler : Wireshark:BurpSuite (常用).今天演示讲解Fiddler抓包工具. 下载Fiddler Classic ...
爬取金山词霸并制作成exe小程序
学习爬虫地二天,无聊中想起通过爬虫来爬取金山词霸的翻译网页,然后通过pyinstaller进行封装成一个可以在windows中可执行的exe文件 1.这是爬取数据的代码,用户可以循环输入自己想要翻译的 ...
新认知，python爬取12306火车出行时间
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:py3study ( 想要学习Python?Pytho ...
Python爬取《创造营2020》小姐姐数据并用腾讯云人脸识别做颜值评分
最近创造营2020好多小姐姐吸引到我了,于是就有这这个颜值100分的小姐姐高达21位比如前段时间抖音很火的凡凡以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf ...
Python爬取《创造营2020》小姐姐数据用腾讯云人脸识别做颜值评分
最近创造营2020好多小姐姐吸引到我了,于是就有这这个颜值100分的小姐姐高达21位比如前段时间抖音很火的凡凡以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf- ...
元旦假期，去哪里旅游好呢？Python爬取元旦旅游最全攻略！
2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连. 转发请求声明. 一.实现思路首先我们爬取的网站是一个穷游网站: ...

python爬取标题和作者时间的小程序

python爬取标题和作者时间的小程序相关推荐

最新文章

热门文章