python简单爬虫代码，python入门

##python爬取慕课网首页课程标题与内容介绍
效果图：

思路：
获取页面内容存入html -->
利用正则表达式获取所有课程块的div盒子存入everydiv -->
在每个课程块中抓取标题与介绍存入列表classinfo -->
将列表存入info.txt文件中 -->
最后检查抓取到的内容

知识点：

re 模块（Regular Expression 正则表达式）提供各种正则表达式的匹配操作，适合文本解析、复杂字符串分析和信息提取时使用
Requests ，基于 urllib，但比 urllib 更加方便。自动的把返回信息有Unicode解码，且自动保存返回内容，所以你可以读取多次
sys模块包括了一组非常实用的服务，内含很多函数方法和变量，用来处理Python运行时配置以及资源，从而可以与前当程序之外的系统环境交互

python源代码即粘即用

#-*_coding:utf8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")class func(object):def __init__(self):print u'开始爬取内容。。。'#getsource获取网页源代码def getsource(self,url):html = requests.get(url)#print str(html.text)   可以在此打印，来检查是否抓到内容return html.text#geteverydiv抓取每个课程块的信息def geteverydiv(self,source):everydiv = re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)return everydiv#getinfo从每个课程块中提取出课程标题和内容描述def getinfo(self,eachclass):info = {}info['title'] = re.search('<h3>(.*?)</h3>',eachclass,re.S).group(1)info['content'] = re.search('<p>(.*?)</p>',eachclass,re.S).group(1)#print info  可以在此打印，来检查是否抓到内容return info#saveinfo用来保存结果到info.txt文件中def saveinfo(self,classinfo):f = open('info.txt','a')for each in classinfo:f.writelines('title:' + each['title'] + '\n')f.writelines('content:' + each['content'] + '\n\n')f.close()print "write file finished"#主函数
if __name__ == '__main__':classinfo = []url = 'http://www.imooc.com/'testspider = func()print u'正在处理页面：' + urlhtml = testspider.getsource(url)everydiv = testspider.geteverydiv(html)for each in everydiv:info = testspider.getinfo(each)classinfo.append(info)testspider.saveinfo(classinfo)

如果您有什么意见或建议，欢迎留言……^.

python简单爬虫代码，python入门相关推荐

python简单爬虫代码-python爬虫超简单攻略，带你写入门级的爬虫，抓取上万条信息...
原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...
python简单爬虫代码-python简单爬虫(二)
") file.write(" for data inself.datas: file.write(" file.write(' '+str(data['url'])+' ...
python简单爬虫代码-最精简的爬虫 --仅需4行代码（python）
最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要当初,自己的坑,希 ...
python简单爬虫代码-一则python3的简单爬虫代码
不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. 代码如下: #test rdp import ur ...
python简单爬虫代码-用Python编写一个简单的爬虫
作者信息: Author : 黄志成(小黄) 博客地址: 博客呐,这是一篇福利教程.为什么这么说呢.我们要爬取的内容是美图网站(嘿嘿,老司机都懂的) 废话不多说.开始今天的表演. 这个图集网站不要问 ...
python简单爬虫代码-使用Python3.5写简单网络爬虫
<一>用urllib库访问URL并采集网络数据 -1. 直接采集发送请求,打开URL,打印传回的数据(html文件) - 2. 模拟真实浏览器访问 1)发送http头信息(header) ...
python简单绘图代码-python中简单易学的绘图：用turtle画太极图
为什么想画太极图呢?因为我儿子不知道是看了哪本书还是哪个电视,竟然特地打印出一张太极图要挂在大门口,我赶紧说祖宗这挂在门外,别人看见了还以为咱家出什么事了,你喜欢就挂自己卧室门口吧,于是这张图就成了他 ...
python最简单的爬虫代码,python小实例一简单爬虫
python新手求助关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...
python多线程爬虫实例-Python多线程爬虫简单示例
python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...

python简单爬虫代码，python入门

python简单爬虫代码，python入门相关推荐

最新文章

热门文章