python简单爬虫代码,python入门
##python爬取慕课网首页课程标题与内容介绍
效果图:
思路:
获取页面内容存入html -->
利用正则表达式获取所有课程块的div盒子存入everydiv -->
在每个课程块中抓取标题与介绍存入列表classinfo -->
将列表存入info.txt文件中 -->
最后检查抓取到的内容
知识点:
- re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,适合文本解析、复杂字符串分析和信息提取时使用
- Requests ,基于 urllib,但比 urllib 更加方便。 自动的把返回信息有Unicode解码,且自动保存返回内容,所以你可以读取多次
- sys模块包括了一组非常实用的服务,内含很多函数方法和变量,用来处理Python运行时配置以及资源,从而可以与前当程序之外的系统环境交互
python源代码 即粘即用
#-*_coding:utf8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")class func(object):def __init__(self):print u'开始爬取内容。。。'#getsource获取网页源代码def getsource(self,url):html = requests.get(url)#print str(html.text) 可以在此打印,来检查是否抓到内容return html.text#geteverydiv抓取每个课程块的信息def geteverydiv(self,source):everydiv = re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)return everydiv#getinfo从每个课程块中提取出课程标题和内容描述def getinfo(self,eachclass):info = {}info['title'] = re.search('<h3>(.*?)</h3>',eachclass,re.S).group(1)info['content'] = re.search('<p>(.*?)</p>',eachclass,re.S).group(1)#print info 可以在此打印,来检查是否抓到内容return info#saveinfo用来保存结果到info.txt文件中def saveinfo(self,classinfo):f = open('info.txt','a')for each in classinfo:f.writelines('title:' + each['title'] + '\n')f.writelines('content:' + each['content'] + '\n\n')f.close()print "write file finished"#主函数
if __name__ == '__main__':classinfo = []url = 'http://www.imooc.com/'testspider = func()print u'正在处理页面:' + urlhtml = testspider.getsource(url)everydiv = testspider.geteverydiv(html)for each in everydiv:info = testspider.getinfo(each)classinfo.append(info)testspider.saveinfo(classinfo)
如果您有什么意见或建议,欢迎留言…….
python简单爬虫代码,python入门相关推荐
- python简单爬虫代码-python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息...
原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息 最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...
- python简单爬虫代码-python简单爬虫(二)
") file.write(" for data inself.datas: file.write(" file.write(' '+str(data['url'])+' ...
- python简单爬虫代码-最精简的爬虫 --仅需4行代码(python)
最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...
- python简单爬虫代码-一则python3的简单爬虫代码
不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. 代码如下: #test rdp import ur ...
- python简单爬虫代码-用Python编写一个简单的爬虫
作者信息: Author : 黄志成(小黄) 博客地址: 博客 呐,这是一篇福利教程.为什么这么说呢.我们要爬取的内容是美图网站(嘿嘿,老司机都懂的) 废话不多说.开始今天的表演. 这个图集网站不要问 ...
- python简单爬虫代码-使用Python3.5写简单网络爬虫
<一>用urllib库访问URL并采集网络数据 -1. 直接采集 发送请求,打开URL,打印传回的数据(html文件) - 2. 模拟真实浏览器访问 1)发送http头信息(header) ...
- python简单绘图代码-python中简单易学的绘图:用turtle画太极图
为什么想画太极图呢?因为我儿子不知道是看了哪本书还是哪个电视,竟然特地打印出一张太极图要挂在大门口,我赶紧说祖宗这挂在门外,别人看见了还以为咱家出什么事了,你喜欢就挂自己卧室门口吧,于是这张图就成了他 ...
- python最简单的爬虫代码,python小实例一简单爬虫
python新手求助 关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...
- python多线程爬虫实例-Python多线程爬虫简单示例
python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...
最新文章
- 读《高效程序员的45个习惯——敏捷开发修炼之道》
- css字体相关样式的处理
- LightSpeed 的Left Join Bug解决方案
- 雅虎卖身Verizon对微软必应有什么影响?
- docker 查看日志_8个优秀Docker容器监控工具,收藏了
- (JAVA)Object类之toString()和equals()
- CDH kerberos 认证,安全认证
- 在线VLOOKUP数据查找工具
- STM32 LWIP实验第一章节--了解以太网
- Python yield 的基本概念和用法
- android 修改系统字体后app崩溃,android 应用在切换系统字体大小和语言时,应用崩溃问题...
- cmd命令跳舞代码_Golang语言元编程之代码生成
- 状态控件ios 中滑块、开关、分段控件、操作表和警告的常用函数
- 转 fpga学习经验2
- 远程桌面看不到任务栏怎么办?
- 热带雨林绘画软件测试,手绘教程!手把手教你绘制光影超棒的热带雨林插画
- 大型多人在线游戏服务器架构设计 - RPC封装原理
- 今年今日==我的生日
- 计算机创新大赛参赛表,计算机科学学院 “互联网+”大学生创新创业大赛师生参赛奖励办法...
- day10-字符串作业-复写
热门文章
- HihoCoder 1408 The Lastest Time
- Py之scikit-sos:scikit-sos的简介、安装、使用方法之详细攻略
- 浅谈大学计算机专业该如何选择方向
- GitHub 与 win 有一天竟然能合体
- 四大会计师事务所python数据分析_用Python玩转数据分析4
- css外边距自动代码,CSS外边距合并代码
- ListView中嵌套checkbox实现多选
- ArcEngine代码 地图制图点状要素符号化
- 电商运营:数据分析的5大思维和8个指标
- pcs和serdes_Lattice ECP3/ECP5器件中的SerDes/PCS简要介绍