自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的代码,后续还会继续完善
 1 # coding=utf-8
 2 import requests
 3 from bs4 import BeautifulSoup
 4
 5 page = 1
 6 url = 'http://www.qiushibaike.com/hot/page/' + str(page)
 7 try:
 8     res=requests.get(url)
 9     # print res.text # 如果请求成功,下载的网页就作为一个字符串,保存在相应的text变量中,这就是为什么用res.text。
10 except Exception as e:
11     print '打开网页出现异常:',e
12
13 try:
14     soup=BeautifulSoup(res.text,'html.parser')
15     elms=soup.select('.content') #这里产生一个列表
16     for elm in elms:
17         print elm.text
18 except Exception as e:
19     print '解析出现异常:',e

 

转载于:https://www.cnblogs.com/carpenterworm/p/6009357.html

python爬取糗百第一页的笑话相关推荐

  1. python 爬取糗百

    Python爬虫爬取糗百 1.构造请求,查看爬取的URL,因为糗百的内容有可能有多页,并且内容很多,所以在爬取的时候选择只爬取文正的ID以及内容 2.构造爬取过程中的正则表达式,筛选出所需内容(根据网 ...

  2. [爬虫-python]爬取京东100页的图书(机器学习)的信息(价格,打折后价格,书名,作者,好评数,差评数,总评数)

    Python爬取京东的机器学习类图书的信息 一,配置搜索关键字和页数, 二,查找用到的三个URL的过程 1. 搜索图书的URL 2. 评论总数,差评数,好评数的URL 3. 当前价格与打折前价格URL ...

  3. python爬取知乎页面的LaTeX公式

    文章目录 写在前面 具体思路 代码 后记 2021.01.20更新 2022.4.10更新 写在前面 最近看到知乎有个大佬总结了一百多道不定积分的题目(网址请见知乎专栏:不定积分王者100题),看着有 ...

  4. python 爬取下一页_如何使用Beautifulsoup在python中抓取下一页

    通过提取"转到最后一页"元素的page参数来确定最后一页.并通过^{}遍历每个维护web抓取会话的页面:import re import requests from bs4 imp ...

  5. python爬取学校新闻_python-爬取校园新闻首页的新闻

    1.作业代码 importrequestsfrom bs4 importBeautifulSoupfrom datetime importdatetime#====================== ...

  6. 带你用Python爬取代理

    带你用Python爬取代理 第一步 导入库: import requests,xml.etree.ElementTree as ET 说明: Requests:请求库,用于请求API网址 xml.et ...

  7. 用python爬取冰冰B站千条评论,我发现了这些...

    Python爬取 冰冰 第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧 B站当日弹幕获取冰冰B站视频弹幕爬取原理解析 数据分析 import pandas as pd data = pd.r ...

  8. Python爬取韩寒全部新浪博客

    接上一篇,我们根据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就只有一处不同(页码序号),我们只要在上一篇的代码外面加一个循环,这样就可以爬取所有博客分页的博文,也就是所有博文了. # ...

  9. Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...

  10. python爬取贴吧图片_Python爬取贴吧多页图片

    Python爬取贴吧图片都只能爬取第一页的,加了循环也不行,现在可以了. #coding:utf-8 import urllib import urllib2 import re import os ...

最新文章

  1. [LeetCode] Longest Substring with At Most K Distinct Characters 最多有K个不同字符的最长子串...
  2. Google开源新TensorFlow运行时TFRT,将取代现有进行时
  3. Android Studio的技巧
  4. MySQL 报 Can't create more than max_prepared_stmt_count statements
  5. docker-compose.yml 启动jar 包
  6. python垃圾回收价格表_深度解析Python垃圾回收机制(超级详细)
  7. P5024-保卫王国【动态dp,最小覆盖集】
  8. Java标识符和关键字(static,final,abstract,interface)
  9. 昨晚第一次使用了 NUnit,方才发现它是个好东西,似乎好多好东西其实一直在身边,只是没有勇气去尝试而一直无法体会。...
  10. JavaMail 发送邮件的实例
  11. 使用QT + cocos2dx制作工具
  12. 电信测试网速测试在线软件,宽带测速在线测网速(中国电信宽带测速官网)
  13. 电压、电流、频率计算常见公式以及参数认识
  14. DNA测序发展史(3):三代测序
  15. NetBeans IDE12.3无法卸载
  16. asp.net md5加密
  17. 炼丹--服务器深度学习训练
  18. Android Snackbar控件
  19. IDEA开发 工具IC和IU的区别
  20. 出租车不需要司机了?带你体验无人驾驶出租车!|『智能产品家』第三期

热门文章

  1. psf点扩散函数matlab,点扩散函数(PSF)调制
  2. mysql批量生成随机姓名、手机号等数据
  3. 自动驾驶笔记-轨迹跟踪-综述
  4. 字符串匹配算法:从这段代码判断你是不是在大气层
  5. Java——实现100以内奇数的和
  6. labelImg 的pip安装
  7. 用c语言打印乘法口诀表
  8. 计算机最早应用于( )领域,计算机最早被应用于()领域。
  9. wind 修复 matlab 插件后仍然无效
  10. 人机交互期末复习要点