python爬取糗百第一页的笑话

自学python网络爬虫，发现request比urllib还是要好用一些，因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取，当然select也是一个不错的选择。下面是临时的代码，后续还会继续完善。

 1 # coding=utf-8
 2 import requests
 3 from bs4 import BeautifulSoup
 4
 5 page = 1
 6 url = 'http://www.qiushibaike.com/hot/page/' + str(page)
 7 try:
 8     res=requests.get(url)
 9     # print res.text # 如果请求成功，下载的网页就作为一个字符串，保存在相应的text变量中，这就是为什么用res.text。
10 except Exception as e:
11     print '打开网页出现异常：',e
12
13 try:
14     soup=BeautifulSoup(res.text,'html.parser')
15     elms=soup.select('.content') #这里产生一个列表
16     for elm in elms:
17         print elm.text
18 except Exception as e:
19     print '解析出现异常：',e

转载于:https://www.cnblogs.com/carpenterworm/p/6009357.html

python爬取糗百第一页的笑话相关推荐

python 爬取糗百
Python爬虫爬取糗百 1.构造请求,查看爬取的URL,因为糗百的内容有可能有多页,并且内容很多,所以在爬取的时候选择只爬取文正的ID以及内容 2.构造爬取过程中的正则表达式,筛选出所需内容(根据网 ...
[爬虫-python]爬取京东100页的图书（机器学习）的信息（价格，打折后价格，书名，作者，好评数，差评数，总评数）
Python爬取京东的机器学习类图书的信息一,配置搜索关键字和页数, 二,查找用到的三个URL的过程 1. 搜索图书的URL 2. 评论总数,差评数,好评数的URL 3. 当前价格与打折前价格URL ...
python爬取知乎页面的LaTeX公式
文章目录写在前面具体思路代码后记 2021.01.20更新 2022.4.10更新写在前面最近看到知乎有个大佬总结了一百多道不定积分的题目(网址请见知乎专栏:不定积分王者100题),看着有 ...
python 爬取下一页_如何使用Beautifulsoup在python中抓取下一页
通过提取"转到最后一页"元素的page参数来确定最后一页.并通过^{}遍历每个维护web抓取会话的页面:import re import requests from bs4 imp ...
python爬取学校新闻_python-爬取校园新闻首页的新闻
1.作业代码 importrequestsfrom bs4 importBeautifulSoupfrom datetime importdatetime#====================== ...
带你用Python爬取代理
带你用Python爬取代理第一步导入库: import requests,xml.etree.ElementTree as ET 说明: Requests:请求库,用于请求API网址 xml.et ...
用python爬取冰冰B站千条评论，我发现了这些...
Python爬取冰冰第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧 B站当日弹幕获取冰冰B站视频弹幕爬取原理解析数据分析 import pandas as pd data = pd.r ...
Python爬取韩寒全部新浪博客
接上一篇,我们根据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就只有一处不同(页码序号),我们只要在上一篇的代码外面加一个循环,这样就可以爬取所有博客分页的博文,也就是所有博文了. # ...
Python爬取校花网，妈妈再也不会担心我不给她发女朋友照片了
本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索极客导航即可关注,每个工作日都有文章更新. 一.概况上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...
python爬取贴吧图片_Python爬取贴吧多页图片
Python爬取贴吧图片都只能爬取第一页的,加了循环也不行,现在可以了. #coding:utf-8 import urllib import urllib2 import re import os ...

python爬取糗百第一页的笑话

python爬取糗百第一页的笑话相关推荐

最新文章

热门文章