(python)查看糗事百科文字 点赞 作者 等级 评论
import requests
import re
headers = {
'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)'
}
info_lists = []
def judgment_sex(class_name):
if class_name == 'womenIcon':
return '女'
else:
return '男'
def get_info(url):
res = requests.get(url)
ids = re.findall('<h2>(.*?)</h2>',res.text,re.S)
levels = re.findall('<div class="articleGender (.*?)">',res.text,re.S)
sexs = re.findall('<div class="number">',res.text,re.S)
contents = re.findall('<div class="content">.*?<span>(.*?)</span>',res.text,re.S)
laughs = re.findall('<span class="stats-vote"><i class="number">(\d+)<i>',res.text,re.S)
comments = re.findall('<i class="number">(\d+)</i>评论',res.text,re.S)
for id,level,sex,content,laugh,comment in zip(ids,levels,sexs,contents,laughs,comments):
info = {
'id':id,
'level':level,
'sex':judgment_sex(sex),
'content':content,
'laugh':laugh,
'comment':comment
}
info_lists.append(info)
if __name__ == '__main__':
urls = ['https://www.qiushibaike.com/text/page/{}/'.format(str(i)) for i in range(1,12)]
for url in urls:
get_info(url)
for info_list in info_lists:
f = open('E:/qiushi.text', 'a+')
try:
f.write(info_list['id']+'\n')
f.write(info_list['level']+'\n')
f.write(info_list['sex']+'\n')
f.write(info_list['content']+'\n')
f.write(info_list['laugh']+'\n')
f.write(info_list['comment']+'\n\n')
f.close()
except UnicodeEncodeError:
pass
问题:无法生成文档 debug无错
转载于:https://www.cnblogs.com/zhentaoFrezt/p/9255371.html
(python)查看糗事百科文字 点赞 作者 等级 评论相关推荐
- python多线程糗事百科案例
案例:多线程爬虫 目标:爬取糗事百科段子,待爬取页面URL:http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPATH/re 做 ...
- 正则表达式re模式(python爬虫糗事百科热点段子)
python编程快速上手(持续更新中-) python爬虫从入门到精通 文章目录 python编程快速上手(持续更新中-) python爬虫从入门到精通 非结构化数据与结构化数据提取 概述 非结构化的 ...
- python爬虫糗事百科
#coding:utf-8 import urllib2 import re # 工具类 class Tools(object):remove_n = re.compile(r'\n')replace ...
- python爬虫案例——糗事百科数据采集
全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--糗事百科数据采集 通过python实现糗事百科页面的内容采集是相对来说比较容易的,因为糗事百科不需要登陆,不需要coo ...
- 利用Python爬取糗事百科段子信息
文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...
- Python爬虫 基于Beautiful Soup的糗事百科爬虫
python爬虫 ---- 糗事百科爬虫 首先进入糗事百科官网首页 -> 糗事百科 本次爬虫的目标是翻页爬取糗事百科的信息,包括 标题, 链接, 作者名, 好笑数&评论数 之后右键检查, ...
- 爬虫实战1:爬取糗事百科段子
本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码 对网页源码进行正则分析,爬取段子 对爬取数据进行再次替换&删除处理易于阅读 0. ...
- Android实战——jsoup实现网络爬虫,糗事百科项目的起步
Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...
- python爬虫之糗事百科
历经1个星期的实践,终于把python爬虫的第一个实践项目完成了,此时此刻,心里有的只能用兴奋来形容,后续将继续加工,把这个做成一个小文件,发给同学,能够在cmd中运行的文件.简化版程序,即单单爬取页 ...
最新文章
- 电信联通三联手 “事实婚姻”还是临时取暖?
- HanLP二元核心词典详细解析
- cocos2dx ios入口类_2.cocos2d-x 第一个项目
- 银联Apple Pay 总结
- 揭秘阿里云EB级大数据计算引擎MaxCompute
- 计算机网络维护工具,一种计算机网络维护工具箱的制作方法
- 【Vue2.0】—mixin混入 (十五)
- 【leetcode】1053. Previous Permutation With One Swap
- Banana PI 开源硬件项目启动
- 1029 C语言文法定义与C程序的推导过程
- USACO 4.3.1 Buy Low, Buy Lower
- [T-ARA/筷子兄弟][Little Apple]
- 如何设计 user 表?加入第三方登录呢?
- 最好的Javaweb教程JavaWeb架构演变-动力节点
- SiliconLab zigbee host移植到IPQ 807X平台
- 7-15 福到了 c语言,7-7 福到了 (15分)
- 编写函数,对传送过来的三个数选出最大值和最小值,并通过形参传回调用函数
- html,bootstrap,js,jquery图片点击模态窗口放大图片,可以滚动常看长图
- python、java、Go哪个前景好?
- python3程序设计课后答案-Python 3 程序设计学习指导与习题解答--详细介绍
热门文章
- UIButton和UIimageView
- 详解李兰娟团队重大抗疫药物成果:2款处方药,体外试验有奇效,已在浙江临床使用...
- AI医疗 | 新开源计算机视觉技术用于新生儿胎龄估计
- mysql6位数货币大写,生成数字+英文字母大小写彩虹字符集(6位),共有62^6种可能_MySQL...
- python动态规划算法最大k乘积_C语言使用DP动态规划思想解最大K乘积与乘积最大问题...
- VTK模块学习(一)
- 从零开始用Python搭建超级简单的点击率预估模型
- ubuntn开发php教程,Ubuntu16.04的PHP开发环境配置
- 西安工程大学c语言试卷,知到_大学应用写作_单元测试答案知到C语言程序设计(西安工程大学)见面课答案...
- java自动获取ip_java自动获取电脑ip和MAC地址