使用BeautifulSoup爬取“0daydown”网站的信息（1）

最近发现一个很好的网站，0daydown，资源真的是无时无刻的更新着。资源有哪些呢: windows,mac下的各种工具和软件。各种电子书，包含科技，小说，杂志（居然还有类似花花公子那种），可以看多国外的最新杂志。当然还有音乐，高清电影，还有各种外国最近的IT教程，但是这个百度云下载的话只有网站会员才行，不然只能使用其它链接。还有各个平台下的游戏，PC，Linux，XBOX，PS3等。资源种类真的可以用琳琅满目来形容，而且主要是更新真的很快，一天更新好多。

信息一多，慢慢翻麻烦耗时，而且不是所有信息都想关注。于是谋生了用爬虫爬取自己想要的信息。我目前想关注的信息只有资源类别（比如windows，game,Ebook等），资源标题，发布时间，资源的简介四个东西。看了下网页源码，有规律，解析不难。下面截图是网页截图和网页源码部分信息：

上图中

上图中椭圆圈出的是我想获得的信息，方块圈出的是一个找寻信息的逻辑。通过分析网页源码发现，所有的最新发布的每个资源都在一个article class="excerpt"段落中，我们可以使用find_all找出所有的个article class="excerpt"，然后再在每个里面找寻想要的信息，比如资源类别，可以是article.header.a.next。资源标题是article.h2.string。发布时间是article.p.find('i', class_="icon-time icon12").next。资源简介是article.p.find_next_sibling().string。最后我想获取的是最新发布的10页资源信息，可以用循环实现，因为每个页面的Url很简单，只需在http://www.0daydown.com/page/后面添加页数。比如第二页就是http://www.0daydown.com/page/2.下面是源代码，用BeautifulSoup实现真的超级方便，可能以后会进行拓展，所以当前版本为0.1。

#coding:utf-8
#version: 0.1
#note:实现了查找0daydown最新发布的10页资源。
import urllib.requestfrom bs4 import BeautifulSoupfor i in range(1,11):url = "http://www.0daydown.com/page/" + str(i)   #每一页的Url只需在后面加上整数就行page = urllib.request.urlopen(url)soup_packtpage = BeautifulSoup(page)page.close()num = " The Page of: " + str(i)      #标注当前资源属于第几页print(num)print("#"*40)for article in soup_packtpage.find_all('article', class_="excerpt"):  #使用find_all查找出当前页面发布的所有最新资源print("Category:".ljust(20), end=''), print(article.header.a.next)   #categoryprint("Title:".ljust(20), end=''), print(article.h2.string)       #title    print("Pulished_time:".ljust(19), end=''), print(article.p.find('i', class_="icon-time icon12").next)  #published_timeprint("Note:",end=''), print(article.p.find_next_sibling().string)   #noteprint('-'*50)input() #等待输入，为了不让控制台运行后立即结束。

下面是运行成功效果图：

使用BeautifulSoup爬取“0daydown”网站的信息（1）相关推荐

python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...
爬取起点网站图书信息（书名、作者、简介、图片url）
# 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...
Scrapy ：爬取培训网站讲师信息
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
python+requests+beautifulsoup爬取大众点评评论信息
特别声明,此文写于2018年2月,大众点评的页面逻辑,已做了改动,请找最近爬的文章看下,谢谢支持. 先简单聊两句,距离上一篇博客大概过去了4个月,在忙一些别的事情,除了公司有新项目上线,学习新技术之外 ...
爬虫项目 | 爬取XX网站招聘信息
/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...
BeautifulSoup爬取虎扑步行街信息到Mysql
人生苦短,我用python 今天给大家爬取虎扑步行街的详细信息效果图如下: 首先根据虎扑步行街链接获取前十个页面链接 for i in range(1, 10):link = "https ...
python 爬取12306网站车次信息
12306网站爬取车次信息本想着可以做一个类似于查询详细车次信息的小工具,但是不尽人意,12306网站爬取的车次信息加密了,研究了一个下午也没有研究出其中全部的信息解密: 爬取的信息如下(举一个例子 ...
爬取1688网站商家信息
# coding:utf-8 import requests import bs4 import time import xlwt import random def get_IP(): &q ...
python电影系统管理-Python 爬取电影网站的信息【如有重复请管理删帖】
[Python] 纯文本查看复制代码#!/usr/bin/env python # -*- coding: utf-8 -*- # [url=home.php?mod=space&uid=6 ...
python爬考研_python爬取考研网的信息
今天我们使用python来爬取考研网站的信息. 目标网站: https://yz.chsi.com.cn/zsml/queryAction.do 使用的库: requests,bs4,pandas 这 ...

使用BeautifulSoup爬取“0daydown”网站的信息（1）

使用BeautifulSoup爬取“0daydown”网站的信息（1）相关推荐

最新文章

热门文章