python爬取标题和作者时间的小程序
2019独角兽企业重金招聘Python工程师标准>>>
#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = 'gogogo.txt'
logfile = codecs.open(log,'w','utf-8')
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.a=0
self.span=0;
def handle_starttag(self,tag,attrs):
if tag=='a':
for name,value in attrs:
if name=='class' and value=='tit':
self.a=1
if tag=='span':
for name,value in attrs:
if name=='class' and value=='reply':
self.span=1
def handle_endtag(self, tag):
if tag == 'a' and self.a==1:
self.a=0
logfile.write('|')
if tag=='span' and self.span==1:
self.span=0
logfile.write('\n')
def handle_data(self, data):
if (self.a or self.span):
logfile.write(data)
parser = MyHTMLParser()
def getpage(url):
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
the_page = response.read()
return the_page
for i in range(1,405):
url='http://bbs.qyer.com/forum-52-'+str(i)+'.html'
page=getpage(url).decode('utf-8','ignore')
parser.feed(page)
print(i)
转载于:https://my.oschina.net/u/994484/blog/417102
python爬取标题和作者时间的小程序相关推荐
- python爬取京东商品属性_python爬虫小项目:爬取京东商品信息
#爬取京东手机信息 import requests from bs4 import BeautifulSoup from selenium import webdriver import re imp ...
- 利用python爬取58同城简历数据_python爬虫程序 58同城二手交易信息爬取
本脚本分为5部分: spider_main 主程序 url_manager url管理器 html_downloader 网页下载器 html_parser 网页解析器 htm ...
- 自己做的爬取起点中文网书名目录的小程序
import xlwt import requests from lxml import etree import timedef main(url,headers):page=requests.ge ...
- Fiddler爬取抓包(网页及小程序包)
前言: 关于抓包的工具比较多,如: Charles : Fiddler : Wireshark:BurpSuite (常用).今天演示讲解Fiddler抓包工具. 下载Fiddler Classic ...
- 爬取金山词霸并制作成exe小程序
学习爬虫地二天,无聊中想起通过爬虫来爬取金山词霸的翻译网页,然后通过pyinstaller进行封装成一个可以在windows中可执行的exe文件 1.这是爬取数据的代码,用户可以循环输入自己想要翻译的 ...
- 新认知,python爬取12306火车出行时间
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:py3study ( 想要学习Python?Pytho ...
- Python爬取《创造营2020》小姐姐数据并用腾讯云人脸识别做颜值评分
最近 创造营2020好多小姐姐吸引到我了,于是就有这这个 颜值100分的小姐姐高达21位 比如前段时间抖音很火的 凡凡 以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf ...
- Python爬取《创造营2020》小姐姐数据用腾讯云人脸识别做颜值评分
最近 创造营2020好多小姐姐吸引到我了,于是就有这这个 颜值100分的小姐姐高达21位比如前段时间抖音很火的 凡凡 以下是代码,需要你在申请腾讯云有关参数替换哦 # -*- coding: utf- ...
- 元旦假期,去哪里旅游好呢?Python爬取元旦旅游最全攻略!
2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连. 转发请求声明. 一.实现思路 首先我们爬取的网站是一个穷游网站: ...
最新文章
- 论文速递:智能作为信息处理系统
- Linux Shell脚本编程学习笔记和实战
- [转载]动态规划之0-1背包问题
- 使用数据库的压测工具super-smack测试mysql数据库性能
- RSA加密-解密以及解决超长内容加密失败解决
- 格子游戏(信息学奥赛一本通-T1347)
- 招博后,比利时鲁汶大学 A2H 部计算机视觉动物行为分析方向
- RFIC4463_F3CD
- css样式让样式失效,如何让css样式失效
- 转:FileReader详解与实例---读取并显示图像文件
- 【Linux】复制文件到当前目录 / 复制文件并重命名到当前目录
- 华为ensp模拟器实现通信安全(交换机配置vlan)
- cad快捷栏怎么调出来_cad左边工具栏不见了怎么办|cad工具栏怎么调出来_PC6教学...
- 学习笔记(8)之VelocityTracker
- 数据中台全面分析总结
- 获取android手机设备的OAID
- Python函数式编程 及案例
- 聊新款Macbook pro
- 手机计算机怎么恢复出厂设置密码,如何找回手机锁屏密码?
- 预装WIN8改装WIN7之BIOS设置