##python爬取慕课网首页课程标题与内容介绍
效果图:

思路:
获取页面内容存入html -->
利用正则表达式获取所有课程块的div盒子存入everydiv -->
在每个课程块中抓取标题与介绍存入列表classinfo -->
将列表存入info.txt文件中 -->
最后检查抓取到的内容

知识点:

  1. re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,适合文本解析、复杂字符串分析和信息提取时使用
  2. Requests ,基于 urllib,但比 urllib 更加方便。 自动的把返回信息有Unicode解码,且自动保存返回内容,所以你可以读取多次
  3. sys模块包括了一组非常实用的服务,内含很多函数方法和变量,用来处理Python运行时配置以及资源,从而可以与前当程序之外的系统环境交互

python源代码 即粘即用

#-*_coding:utf8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")class func(object):def __init__(self):print u'开始爬取内容。。。'#getsource获取网页源代码def getsource(self,url):html = requests.get(url)#print str(html.text)   可以在此打印,来检查是否抓到内容return html.text#geteverydiv抓取每个课程块的信息def geteverydiv(self,source):everydiv = re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)return everydiv#getinfo从每个课程块中提取出课程标题和内容描述def getinfo(self,eachclass):info = {}info['title'] = re.search('<h3>(.*?)</h3>',eachclass,re.S).group(1)info['content'] = re.search('<p>(.*?)</p>',eachclass,re.S).group(1)#print info  可以在此打印,来检查是否抓到内容return info#saveinfo用来保存结果到info.txt文件中def saveinfo(self,classinfo):f = open('info.txt','a')for each in classinfo:f.writelines('title:' + each['title'] + '\n')f.writelines('content:' + each['content'] + '\n\n')f.close()print "write file finished"#主函数
if __name__ == '__main__':classinfo = []url = 'http://www.imooc.com/'testspider = func()print u'正在处理页面:' + urlhtml = testspider.getsource(url)everydiv = testspider.geteverydiv(html)for each in everydiv:info = testspider.getinfo(each)classinfo.append(info)testspider.saveinfo(classinfo)

如果您有什么意见或建议,欢迎留言…….

python简单爬虫代码,python入门相关推荐

  1. python简单爬虫代码-python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息...

    原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息 最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...

  2. python简单爬虫代码-python简单爬虫(二)

    ") file.write(" for data inself.datas: file.write(" file.write(' '+str(data['url'])+' ...

  3. python简单爬虫代码-最精简的爬虫 --仅需4行代码(python)

    最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...

  4. python简单爬虫代码-一则python3的简单爬虫代码

    不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. 代码如下: #test rdp import ur ...

  5. python简单爬虫代码-用Python编写一个简单的爬虫

    作者信息: Author : 黄志成(小黄) 博客地址: 博客 呐,这是一篇福利教程.为什么这么说呢.我们要爬取的内容是美图网站(嘿嘿,老司机都懂的) 废话不多说.开始今天的表演. 这个图集网站不要问 ...

  6. python简单爬虫代码-使用Python3.5写简单网络爬虫

    <一>用urllib库访问URL并采集网络数据 -1. 直接采集 发送请求,打开URL,打印传回的数据(html文件) - 2. 模拟真实浏览器访问 1)发送http头信息(header) ...

  7. python简单绘图代码-python中简单易学的绘图:用turtle画太极图

    为什么想画太极图呢?因为我儿子不知道是看了哪本书还是哪个电视,竟然特地打印出一张太极图要挂在大门口,我赶紧说祖宗这挂在门外,别人看见了还以为咱家出什么事了,你喜欢就挂自己卧室门口吧,于是这张图就成了他 ...

  8. python最简单的爬虫代码,python小实例一简单爬虫

    python新手求助 关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...

  9. python多线程爬虫实例-Python多线程爬虫简单示例

    python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...

最新文章

  1. 读《高效程序员的45个习惯——敏捷开发修炼之道》
  2. css字体相关样式的处理
  3. LightSpeed 的Left Join Bug解决方案
  4. 雅虎卖身Verizon对微软必应有什么影响?
  5. docker 查看日志_8个优秀Docker容器监控工具,收藏了
  6. (JAVA)Object类之toString()和equals()
  7. CDH kerberos 认证,安全认证
  8. 在线VLOOKUP数据查找工具
  9. STM32 LWIP实验第一章节--了解以太网
  10. Python yield 的基本概念和用法
  11. android 修改系统字体后app崩溃,android 应用在切换系统字体大小和语言时,应用崩溃问题...
  12. cmd命令跳舞代码_Golang语言元编程之代码生成
  13. 状态控件ios 中滑块、开关、分段控件、操作表和警告的常用函数
  14. 转 fpga学习经验2
  15. 远程桌面看不到任务栏怎么办?
  16. 热带雨林绘画软件测试,手绘教程!手把手教你绘制光影超棒的热带雨林插画
  17. 大型多人在线游戏服务器架构设计 - RPC封装原理
  18. 今年今日==我的生日
  19. 计算机创新大赛参赛表,计算机科学学院 “互联网+”大学生创新创业大赛师生参赛奖励办法...
  20. day10-字符串作业-复写

热门文章

  1. HihoCoder 1408 The Lastest Time
  2. Py之scikit-sos:scikit-sos的简介、安装、使用方法之详细攻略
  3. 浅谈大学计算机专业该如何选择方向
  4. GitHub 与 win 有一天竟然能合体
  5. 四大会计师事务所python数据分析_用Python玩转数据分析4
  6. css外边距自动代码,CSS外边距合并代码
  7. ListView中嵌套checkbox实现多选
  8. ArcEngine代码 地图制图点状要素符号化
  9. 电商运营:数据分析的5大思维和8个指标
  10. pcs和serdes_Lattice ECP3/ECP5器件中的SerDes/PCS简要介绍