最近发现一个很好的网站,0daydown,资源真的是无时无刻的更新着。资源有哪些呢: windows,mac下的各种工具和软件。各种电子书,包含科技,小说,杂志(居然还有类似花花公子那种),可以看多国外的最新杂志。当然还有音乐,高清电影,还有各种外国最近的IT教程,但是这个百度云下载的话只有网站会员才行,不然只能使用其它链接。还有各个平台下的游戏,PC,Linux,XBOX,PS3等。资源种类真的可以用琳琅满目来形容,而且主要是更新真的很快,一天更新好多。

信息一多,慢慢翻麻烦耗时,而且不是所有信息都想关注。于是谋生了用爬虫爬取自己想要的信息。我目前想关注的信息只有资源类别(比如windows,game,Ebook等),资源标题,发布时间,资源的简介四个东西。看了下网页源码,有规律,解析不难。下面截图是网页截图和网页源码部分信息:

上图中

上图中椭圆圈出的是我想获得的信息,方块圈出的是一个找寻信息的逻辑。通过分析网页源码发现,所有的最新发布的每个资源都在一个article class="excerpt"段落中,我们可以使用find_all找出所有的个article class="excerpt",然后再在每个里面找寻想要的信息,比如资源类别,可以是article.header.a.next。资源标题是article.h2.string。发布时间是article.p.find('i', class_="icon-time icon12").next。资源简介是article.p.find_next_sibling().string。最后我想获取的是最新发布的10页资源信息,可以用循环实现,因为每个页面的Url很简单,只需在http://www.0daydown.com/page/后面添加页数。比如第二页就是http://www.0daydown.com/page/2.下面是源代码,用BeautifulSoup实现真的超级方便,可能以后会进行拓展,所以当前版本为0.1。

#coding:utf-8
#version: 0.1
#note:实现了查找0daydown最新发布的10页资源。
import urllib.requestfrom bs4 import BeautifulSoupfor i in range(1,11):url = "http://www.0daydown.com/page/" + str(i)   #每一页的Url只需在后面加上整数就行page = urllib.request.urlopen(url)soup_packtpage = BeautifulSoup(page)page.close()num = " The Page of: " + str(i)      #标注当前资源属于第几页print(num)print("#"*40)for article in soup_packtpage.find_all('article', class_="excerpt"):  #使用find_all查找出当前页面发布的所有最新资源print("Category:".ljust(20), end=''), print(article.header.a.next)   #categoryprint("Title:".ljust(20), end=''), print(article.h2.string)       #title    print("Pulished_time:".ljust(19), end=''), print(article.p.find('i', class_="icon-time icon12").next)  #published_timeprint("Note:",end=''), print(article.p.find_next_sibling().string)   #noteprint('-'*50)input() #等待输入,为了不让控制台运行后立即结束。

下面是运行成功效果图:

使用BeautifulSoup爬取“0daydown”网站的信息(1)相关推荐

  1. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  2. 爬取起点网站图书信息(书名、作者、简介、图片url)

    # 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...

  3. Scrapy :爬取培训网站讲师信息

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...

  4. python+requests+beautifulsoup爬取大众点评评论信息

    特别声明,此文写于2018年2月,大众点评的页面逻辑,已做了改动,请找最近爬的文章看下,谢谢支持. 先简单聊两句,距离上一篇博客大概过去了4个月,在忙一些别的事情,除了公司有新项目上线,学习新技术之外 ...

  5. 爬虫项目 | 爬取XX网站招聘信息

    /***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能 毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...

  6. BeautifulSoup爬取虎扑步行街信息到Mysql

    人生苦短,我用python 今天给大家爬取虎扑步行街的详细信息 效果图如下: 首先根据虎扑步行街链接获取前十个页面链接 for i in range(1, 10):link = "https ...

  7. python 爬取12306网站车次信息

    12306网站爬取车次信息 本想着可以做一个类似于查询详细车次信息的小工具,但是不尽人意,12306网站爬取的车次信息加密了,研究了一个下午也没有研究出其中全部的信息解密: 爬取的信息如下(举一个例子 ...

  8. 爬取1688网站商家信息

    # coding:utf-8 import requests import bs4 import time import xlwt import random def get_IP():     &q ...

  9. python电影系统管理-Python 爬取电影网站的信息【如有重复请管理删帖】

    [Python] 纯文本查看 复制代码#!/usr/bin/env python # -*- coding: utf-8 -*- # [url=home.php?mod=space&uid=6 ...

  10. python爬考研_python爬取考研网的信息

    今天我们使用python来爬取考研网站的信息. 目标网站: https://yz.chsi.com.cn/zsml/queryAction.do 使用的库: requests,bs4,pandas 这 ...

最新文章

  1. matlab求二元函数极值算法_最优化计算与matlab实现(3)——进退法
  2. java openssl库,Java的OpenSSL
  3. flv文件转换,完美解决
  4. CRM campaign relationship read
  5. html点击按钮计算两个输入框的和_小程序计算报价功能介绍
  6. 【精品计划 附录2】- 算法分析
  7. 技术交流论坛_天气预报|“第一届国家建筑工程与材料测试技术论坛”暨“第七届全国建筑材料测试技术”交流会...
  8. CCF201803-2 碰撞的小球
  9. Html,css,is,php,mysql的学习顺序是什么?
  10. 必备的中国风PNG免扣元素点缀,尽显国潮韵味
  11. SVProgressHUD的使用
  12. 一味地追求流量正确么?
  13. 比较有深度的博客收藏
  14. 数据集加载--load_digits
  15. mugen linux主程序,Mugen主程序报错汇总
  16. 【LED灯屏控制器】AG10K 烧录程序(2)
  17. 硬件知识:独立显卡和集成显卡的区别
  18. Java是剑客-飘逸;.NET是刀客-霸道 (一) 【转载】
  19. 深度学习100题(1)
  20. PDU发送中英文长短信

热门文章

  1. HTML网上书店静态HTML网页作业作品 大学生三联书店网页设计制作成品 简单DIV CSS布局网站
  2. 软件工程导论患者监护系统
  3. NVIDIA Nsight Compute,Nsight Systems, Nsight Graphics,Nsight Deep Learning Designer简介-草稿
  4. 有第三方扩展组件的layui 文档地址
  5. c语言程序运行的单词翻译,c语言常见英语词汇带翻译
  6. 【Java】使用ScriptEngine动态执行代码(附Java几种动态执行代码比较)
  7. 涡CFTurbo 10.2.6 2017泵轮涡旋式机械设计
  8. 智慧环卫管理系统解决方案
  9. Tomcat下载及安装(Windows)
  10. OpenGL编程指南(第8版)PDF