一个简单的Python爬虫

一个简单测试爬虫的网页：http://www.pythonscraping.com/pages/page3.html

1.获取网址的html代码

import urllib.request
request=urllib.request.urlopen("http://www.baidu.com")
str=request.read()
print(str)

2.返回网页标题

输出目标网页内title标签内的文本：<h1>An Interesting Title</h1>，getTitle()函数返回网页的标题，如果获取网页遇到问题就返回一个 None 对象。如果服务器不存在， html 就是一个 None 对象，html.read() 就会抛出 AttributeError 。https://www.cnblogs.com/Issac-Gan/p/6505808.html

from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):try:html = urlopen(url)except HTTPError as e:return Nonetry:bsObj = BeautifulSoup(html.read(),'lxml')title = bsObj.body.h1except AttributeError as e:return Nonereturn title
title = getTitle("http://www.pythonscraping.com/pages/page3.html")
if title == None:print("Title could not be found")
else:print(title)

网站中的信息是：

</style>
</head>
<body>
<div id="wrapper">
<img src="../img/gifts/logo.jpg" style="float:left;">
<h1>Totally Normal Gifts</h1>

则运行输出结果为：

D:\test\python>python reptile.py
<h1>Totally Normal Gifts</h1>

3.查找HTML

#!/usr/bin/env python #代码来自:https://www.cnblogs.com/zw2002/p/8476389.html
#coding=utf-8
import requests
from bs4 import BeautifulSoupurl = 'http://www.pythonscraping.com/pages/page3.html'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
bbs_nes = soup.find_all(name='span',attrs={'class':'excitingNote'})
for news in bbs_nes:print (news.string)

规律是查找：

<span class="excitingNote">

在这个HTML源代码中一共有：

<span class="excitingNote">Now with super-colorful bell peppers!</span>
<span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
<span class="excitingNote">Also hand-painted by trained monkeys!</span>
<span class="excitingNote">Or maybe he's only resting?</span>
<span class="excitingNote">Keep your friends guessing!</span>

所以最后的输出结果为：

D:\test\python>python reptile.py
Now with super-colorful bell peppers!
8 entire dolls per set! Octuple the presents!
Also hand-painted by trained monkeys!
Or maybe he's only resting?
Keep your friends guessing!

一个简单的Python爬虫相关推荐

一个简单的python爬虫程序
#简介在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...
利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: 1 # -*- c ...
src获取同级目录中的图片_一个简单的Python爬虫实例：百度贴吧页面下载图片
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html ...
python爬微博关键字_一个简单的python爬虫实践，爬取包含关键词的新浪微博
此项目主要功能是通过微博"搜索"页面,每天自动爬取所有包含自定list中词汇的微博原数据.低速可控,简单粗暴,适合用来有针对性的搜集数据量不是很大的包含关键词的微博,每日可爬3-6 ...
一个简单的python爬虫（转）
# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期: ...
php和python写爬虫-一个简单的Python写的XML爬虫
一个简单的Python写的XML爬虫来源:程序员人生发布时间:2013-11-06 16:22:29 阅读次数:1578次原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...
一个月入门Python爬虫，轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
python爬虫简单实例-最简单的Python爬虫案例，看得懂说明你已入门，附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
Python爬虫入门教程：超级简单的Python爬虫教程
这是一篇详细介绍 [Python]爬虫入门的教程,从实战出发,适合初学者.读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫. 这篇 Python 爬 ...

一个简单的Python爬虫

一个简单的Python爬虫相关推荐

最新文章

热门文章