虫师博客:http://www.cnblogs.com/fnng/p/3576154.html

我的笔记

初期:一开始学习python是通过看书 第一本python的书叫《python核心编程》美:wesley j.chun第二本是C语言的书叫《C primer plus》看了一半又停了,学习曲线太陡,没什么兴奋感, 看完就忘了,因为光看不做, 一年又一年还是不会,但我想学变成的心没变

现在:于是在前几天2016/8/5,我开始直接上手做,不会的查书,搜google、百度

英语方面,一直在看英文小说,每天一章的进展,现在差不多看完6/7本的样子 如果有人想通过看书学英文,我看过的英文书单可以以后更新出来 都是简单但需要坚持的

开始写博客记录学习

项目(一) 如何开始,从有趣经常用的地方开始,那不就是网络了,和网络相关的不就是爬虫(就是如何把网上好玩的信息copy到自己的文件夹里)了吗?

于是搜索 python 爬虫 第一个http://www.cnblogs.com/fnng/p/3576154.html就是虫师的博客园

上手复制,改动 而不是看书把每一个地方弄清,首先培养兴趣

于是直接把虫师的内容复制下来,在python上运行观察学习(因为我觉得写得还是有点难,所以我加了很多注释帮助大家,复制的时候注释去不去掉随你,不影响运行)

1 #coding=utf-8

2 importurllib #urlib模块,一个标准库,接受url请求等3

4 defgetHtml(url): #自定义一个函数用来获取html代码5 page =urllib.urlopen(url) #urllib的一个方法,用来打开url6 html =page.read() #read方法用来读取7 returnhtml #读取的内容存入html,并返回到getHtml8

9 html1 = getHtml("http://tieba.baidu.com/p/4590525889?da_from=ZGFfbGluZT1EVCZkYV9wYWdlPTEmZGFfbG9jYXRlPXAwMDY0JmRhX2xvY19wYXJhbT0zJmRhX3Rhc2s9dGJkYSZkYV9vYmpfaWQ9MjM3MDYmZGFfb2JqX2dvb2RfaWQ9NDM3ODYmZGFfdGltZT0xNDcwNDg4MjM2&da_sign=58a0c29287d6df1817926ce918cd05eb&tieba_from=tieba_da")10 #主程序 返回的html内容存入html1中,并在接下来的print中打印下来 网址随便换

11 print html1 #输出html1内容

补充:urllib2与urllib 前者既可以通过request类设置headers(这个用来模拟也就是伪装成人浏览网页)也接受url,而后者只可以接受url不能伪装,比如糗事百科最近改版,以前直接把上面的网页一换就可以弄下来html的代码,现在需要加入headers进行检验,urllib这个模块就束手无策了

项目(二)自动下载图片改名并存入本地

1 #coding=utf-8

2 importurllib3 import re #用到了正则表达式模块,用来筛选、、搜索、匹配的强大模块

4

5 defgetHtml(url):6 page =urllib.urlopen(url)7 html =page.read()8 returnhtml9

10 def getImg(html): #前面获得的html代码,在这里进行“清洗”,也就是找到代码中想要的(比如图片的地址等等)

11 reg = r'src="(.+?\.jpg)" pic_ext'

12 imgre = re.compile(reg) #上一句 正则表达式匹配 圆括号()代表我们想要(图片的地址),.+? 其中问号是懒惰模式,整个.+?匹配任何字符但尽可能地少,因为懒惰麻

13 imglist = re.findall(imgre,html) #上一句 进行预编译,反正就是要比较所以先编译一下,方便省时 这句返回正则表达式匹配的列表

14 x =015 for imgurl inimglist:16 urllib.urlretrieve(imgurl,'%s.jpg' %x) #存入和这个代码程序相同的目录下17 x+=1

18 returnimglist19

20

21

22

23 html = getHtml("http://tieba.baidu.com/p/2460150866")24

25 print getImg(html)

这几天一直想换电脑,买苹果,无奈钱包空空,怎么能用下班时间转到买苹果顶配的钱,这是一个问题

虫师 python_python学习虫师笔记 (一)相关推荐

  1. python神经结构二层_《python深度学习》笔记---8.3、神经风格迁移

    <python深度学习>笔记---8.3.神经风格迁移 一.总结 一句话总结: 神经风格迁移是指将参考图像的风格应用于目标图像,同时保留目标图像的内容. 1."神经风格迁移是指将 ...

  2. tensorflow学习函数笔记

    为什么80%的码农都做不了架构师?>>>    [TensorFlow教程资源](https://my.oschina.net/u/3787228/blog/1794868](htt ...

  3. CSDN技术主题月----“深度学习”代码笔记专栏

    from: CSDN技术主题月----"深度学习"代码笔记专栏 2016-09-13 nigelyq 技术专题 Hi,各位用户 CSDN技术主题月代码笔记专栏会每月在CODE博客为 ...

  4. 深度学习-最优化笔记

    深度学习-最优化笔记 作者:杜客 链接:https://zhuanlan.zhihu.com/p/21360434 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 译 ...

  5. 深度学习入门教程UFLDL学习实验笔记三:主成分分析PCA与白化whitening

     深度学习入门教程UFLDL学习实验笔记三:主成分分析PCA与白化whitening 主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通 ...

  6. 深度学习入门教程UFLDL学习实验笔记一:稀疏自编码器

     深度学习入门教程UFLDL学习实验笔记一:稀疏自编码器 UFLDL即(unsupervised feature learning & deep learning).这是斯坦福网站上的一篇 ...

  7. 学习LOAM笔记——特征点提取与匹配

    学习LOAM笔记--特征点提取与匹配 学习LOAM笔记--特征点提取与匹配 1. 特征点提取 1.1 对激光点按线束分类 1.2 计算激光点曲率 1.3 根据曲率提取特征点 2. 特征点匹配 2.1 ...

  8. 学习MSCKF笔记——后端、状态预测、状态扩增、状态更新

    学习MSCKF笔记--后端.状态预测.状态扩增.状态更新 学习MSCKF笔记--后端.状态预测.状态扩增.状态更新 1. 状态预测 2. 状态扩增 3. 状态更新 学习MSCKF笔记--后端.状态预测 ...

  9. 学习MSCKF笔记——真实状态、标称状态、误差状态

    学习MSCKF笔记--真实状态.标称状态.误差状态 学习MSCKF笔记--真实状态.标称状态.误差状态 1. 连续时间系统 1.1 真实状态运动学公式 1.2 标称状态运动学公式 1.3 误差状态运动 ...

最新文章

  1. android自定义数组,如何在android中的自定义采用者中使用json数组列表?
  2. 2014编程之美初赛第二场
  3. ASP.NET知识结构
  4. linux查看显卡核心数,linux查看硬件信息,linux查看硬盘信息,linux查看CPU信息,linux查看显卡,硬件型号信息 | 帮助信息-动天数据...
  5. linux 百度地图离线sdk,Android开放百度地图集成
  6. Maven实战(四)——基于Maven的持续集成实践
  7. 【SQL Server】 SQL Server Management Studio不允许保存更改,组织保存要求解决方案
  8. 数值分析期末考试复习(逼近问题)
  9. 固态硬盘测试软件有哪些,手把手教你测试固态硬盘!硬盘测试软件大汇总
  10. 建议更新IE浏览器的版本
  11. 打工宣言“我选择打工”走红,网友:言之有理,不得不赞同!
  12. 【前端】HTML标签(下)
  13. 2021年美赛MCM赛题C题翻译
  14. 突然断电对oracle的影响吗,当ORACLE突然断电,重新启动过程发生了哪些事?
  15. 函数极限:函数在一点处的极限
  16. CSS3前端开发中需要用到的变换矩阵
  17. VS2008+VP5开发环境配置
  18. C语言成绩统计源代码,C语言课程设计学生成绩管理系统+源码
  19. 织梦网站巧用标签实现图片自动Alt功能,强化织梦seo效果
  20. 【学习总结】MFC(CImagelist)(重绘)(双缓冲)

热门文章

  1. Python 数据结构之队列的实现
  2. android Textview 功能,Android:TextView的常用功能
  3. 12V将路由器网口烧了
  4. PPT怎么添加到公众号文章
  5. openlayers绘制箭头线
  6. 计算机毕业设计springboot+vue+elementUI高考填报志愿综合参考系统
  7. 记录单极性归零码控制LED,GD32F330+SPI+DMA方式
  8. 示波器的 带宽、采样率、存储深度
  9. 4G来临,短视频社交分享应用或井喷
  10. 江南大学计算机考研招生人数,江南大学考研人数+调剂人数+录取人数+被刷人数+保研人数...