一个简单测试爬虫的网页:http://www.pythonscraping.com/pages/page3.html

1.获取网址的html代码

import urllib.request
request=urllib.request.urlopen("http://www.baidu.com")
str=request.read()
print(str)

2.返回网页标题

输出目标网页内title标签内的文本:<h1>An Interesting Title</h1>,getTitle()函数返回网页的标题,如果获取网页遇到问题就返回一个 None 对象。 如果服务器不存在, html 就是一个 None 对象,html.read() 就会抛出 AttributeError 。https://www.cnblogs.com/Issac-Gan/p/6505808.html

from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):try:html = urlopen(url)except HTTPError as e:return Nonetry:bsObj = BeautifulSoup(html.read(),'lxml')title = bsObj.body.h1except AttributeError as e:return Nonereturn title
title = getTitle("http://www.pythonscraping.com/pages/page3.html")
if title == None:print("Title could not be found")
else:print(title)

网站中的信息是:

</style>
</head>
<body>
<div id="wrapper">
<img src="../img/gifts/logo.jpg" style="float:left;">
<h1>Totally Normal Gifts</h1>

则运行输出结果为:

D:\test\python>python reptile.py
<h1>Totally Normal Gifts</h1>

3.查找HTML

#!/usr/bin/env python #代码来自:https://www.cnblogs.com/zw2002/p/8476389.html
#coding=utf-8
import requests
from bs4 import BeautifulSoupurl = 'http://www.pythonscraping.com/pages/page3.html'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
bbs_nes = soup.find_all(name='span',attrs={'class':'excitingNote'})
for news in bbs_nes:print (news.string)

规律是查找:

<span class="excitingNote">

在这个HTML源代码中一共有:

<span class="excitingNote">Now with super-colorful bell peppers!</span>
<span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
<span class="excitingNote">Also hand-painted by trained monkeys!</span>
<span class="excitingNote">Or maybe he's only resting?</span>
<span class="excitingNote">Keep your friends guessing!</span>

所以最后的输出结果为:

D:\test\python>python reptile.py
Now with super-colorful bell peppers!
8 entire dolls per set! Octuple the presents!
Also hand-painted by trained monkeys!
Or maybe he's only resting?
Keep your friends guessing!

一个简单的Python爬虫相关推荐

  1. 一个简单的python爬虫程序

    #简介 在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...

  2. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  3. src获取同级目录中的图片_一个简单的Python爬虫实例:百度贴吧页面下载图片

    本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html ...

  4. python爬微博关键字_一个简单的python爬虫实践,爬取包含关键词的新浪微博

    此项目主要功能是通过微博"搜索"页面,每天自动爬取所有包含自定list中词汇的微博原数据.低速可控,简单粗暴,适合用来有针对性的搜集数据量不是很大的包含关键词的微博,每日可爬3-6 ...

  5. 一个简单的python爬虫(转)

    # -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期: ...

  6. php和python写爬虫-一个简单的Python写的XML爬虫

    一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...

  7. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  8. python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程

    原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...

  9. Python爬虫入门教程:超级简单的Python爬虫教程

    这是一篇详细介绍 [Python]爬虫入门的教程,从实战出发,适合初学者.读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫. 这篇 Python 爬 ...

最新文章

  1. 深度学习在不同领域的应用,我去,这也行!?
  2. Redis-18Redis主从同步
  3. linux修改网卡的mac地址
  4. 24. [Ext JS 4] 实战之Load Mask(加载遮罩)的显示与隐藏
  5. 还有戏!尽管疫情严重,苹果公司仍可能4月推出iPhone 9
  6. 传世经典书丛-UNIX编程艺术
  7. 部署Django REST Framework服务(Nginx + uWSGI + Django)
  8. uploadify 返回值(回调函数)总结
  9. 新手学习开源项目zheng环境部署
  10. 国内源代码安全漏洞检测工具现状浅析
  11. Bruce Schneier 和他的密码学以及网络安全经典著作推荐
  12. 【数学】 海 盗 埋 宝
  13. 迪普科技“高”在哪里?
  14. 日语口语1.11  松田社長がおいでになることを伺っておりまして、ずっと待っておりました
  15. vscode修改代码颜色
  16. Unity3D基本知识 构造函数 this用法
  17. arcgis api 4.13 —— Layer详细介绍
  18. [ Python ] 数据挖掘:股票价格
  19. 2022年个人Java面试总结
  20. Algebraic Multigrid

热门文章

  1. pat1069. The Black Hole of Numbers (20)
  2. Win7下MATLAB 7.0下载地址+详细安装+运行错误解决
  3. ASP.NET面试题 (转)
  4. 数据结构与算法(C#实现)系列---树
  5. 演示JSP Scriptlets、声明语句、jsp表达式的使用
  6. linux得到低权shell,oracle低权限下获取shell
  7. go html template 数据怎么加减乘除_Go 视图模板篇(五):模板布局和继承
  8. java父类引用子类_java多态,如何理解父类引用指向子类对象
  9. fastreport文本字数太多换行_Python教程第10篇:聊聊print换行输出和重复多次打印...
  10. python idls_Python argparse模块实现模拟 linux 的ls命令