import requests
import re
headers = {
'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)'
}
info_lists = []
def judgment_sex(class_name):
if class_name == 'womenIcon':
return '女'
else:
return '男'
def get_info(url):
res = requests.get(url)
ids = re.findall('<h2>(.*?)</h2>',res.text,re.S)
levels = re.findall('<div class="articleGender (.*?)">',res.text,re.S)
sexs = re.findall('<div class="number">',res.text,re.S)
contents = re.findall('<div class="content">.*?<span>(.*?)</span>',res.text,re.S)
laughs = re.findall('<span class="stats-vote"><i class="number">(\d+)<i>',res.text,re.S)
comments = re.findall('<i class="number">(\d+)</i>评论',res.text,re.S)
for id,level,sex,content,laugh,comment in zip(ids,levels,sexs,contents,laughs,comments):
info = {
'id':id,
'level':level,
'sex':judgment_sex(sex),
'content':content,
'laugh':laugh,
'comment':comment
}
info_lists.append(info)
if __name__ == '__main__':
urls = ['https://www.qiushibaike.com/text/page/{}/'.format(str(i)) for i in range(1,12)]
for url in urls:
get_info(url)
for info_list in info_lists:
f = open('E:/qiushi.text', 'a+')
try:
f.write(info_list['id']+'\n')
f.write(info_list['level']+'\n')
f.write(info_list['sex']+'\n')
f.write(info_list['content']+'\n')
f.write(info_list['laugh']+'\n')
f.write(info_list['comment']+'\n\n')
f.close()
except UnicodeEncodeError:
pass

问题:无法生成文档 debug无错

转载于:https://www.cnblogs.com/zhentaoFrezt/p/9255371.html

(python)查看糗事百科文字 点赞 作者 等级 评论相关推荐

  1. python多线程糗事百科案例

    案例:多线程爬虫 目标:爬取糗事百科段子,待爬取页面URL:http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPATH/re 做 ...

  2. 正则表达式re模式(python爬虫糗事百科热点段子)

    python编程快速上手(持续更新中-) python爬虫从入门到精通 文章目录 python编程快速上手(持续更新中-) python爬虫从入门到精通 非结构化数据与结构化数据提取 概述 非结构化的 ...

  3. python爬虫糗事百科

    #coding:utf-8 import urllib2 import re # 工具类 class Tools(object):remove_n = re.compile(r'\n')replace ...

  4. python爬虫案例——糗事百科数据采集

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--糗事百科数据采集 通过python实现糗事百科页面的内容采集是相对来说比较容易的,因为糗事百科不需要登陆,不需要coo ...

  5. 利用Python爬取糗事百科段子信息

    文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...

  6. Python爬虫 基于Beautiful Soup的糗事百科爬虫

    python爬虫 ---- 糗事百科爬虫 首先进入糗事百科官网首页 -> 糗事百科 本次爬虫的目标是翻页爬取糗事百科的信息,包括 标题, 链接, 作者名, 好笑数&评论数 之后右键检查, ...

  7. 爬虫实战1:爬取糗事百科段子

    本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码 对网页源码进行正则分析,爬取段子 对爬取数据进行再次替换&删除处理易于阅读 0. ...

  8. Android实战——jsoup实现网络爬虫,糗事百科项目的起步

    Android实战--jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言 对于Android初学者想要做项目时,最 ...

  9. python爬虫之糗事百科

    历经1个星期的实践,终于把python爬虫的第一个实践项目完成了,此时此刻,心里有的只能用兴奋来形容,后续将继续加工,把这个做成一个小文件,发给同学,能够在cmd中运行的文件.简化版程序,即单单爬取页 ...

最新文章

  1. 电信联通三联手 “事实婚姻”还是临时取暖?
  2. HanLP二元核心词典详细解析
  3. cocos2dx ios入口类_2.cocos2d-x 第一个项目
  4. 银联Apple Pay 总结
  5. 揭秘阿里云EB级大数据计算引擎MaxCompute
  6. 计算机网络维护工具,一种计算机网络维护工具箱的制作方法
  7. 【Vue2.0】—mixin混入 (十五)
  8. 【leetcode】1053. Previous Permutation With One Swap
  9. Banana PI 开源硬件项目启动
  10. 1029 C语言文法定义与C程序的推导过程
  11. USACO 4.3.1 Buy Low, Buy Lower
  12. [T-ARA/筷子兄弟][Little Apple]
  13. 如何设计 user 表?加入第三方登录呢?
  14. 最好的Javaweb教程JavaWeb架构演变-动力节点
  15. SiliconLab zigbee host移植到IPQ 807X平台
  16. 7-15 福到了 c语言,7-7 福到了 (15分)
  17. 编写函数,对传送过来的三个数选出最大值和最小值,并通过形参传回调用函数
  18. html,bootstrap,js,jquery图片点击模态窗口放大图片,可以滚动常看长图
  19. python、java、Go哪个前景好?
  20. python3程序设计课后答案-Python 3 程序设计学习指导与习题解答--详细介绍

热门文章

  1. UIButton和UIimageView
  2. 详解李兰娟团队重大抗疫药物成果:2款处方药,体外试验有奇效,已在浙江临床使用...
  3. AI医疗 | 新开源计算机视觉技术用于新生儿胎龄估计
  4. mysql6位数货币大写,生成数字+英文字母大小写彩虹字符集(6位),共有62^6种可能_MySQL...
  5. python动态规划算法最大k乘积_C语言使用DP动态规划思想解最大K乘积与乘积最大问题...
  6. VTK模块学习(一)
  7. 从零开始用Python搭建超级简单的点击率预估模型
  8. ubuntn开发php教程,Ubuntu16.04的PHP开发环境配置
  9. 西安工程大学c语言试卷,知到_大学应用写作_单元测试答案知到C语言程序设计(西安工程大学)见面课答案...
  10. java自动获取ip_java自动获取电脑ip和MAC地址