前言

在某天,老妹给我发了一个截图,百度飞桨举办小白入门到大神的python,而且还有奖品。最近玩拼多多的多多消游戏第133关卡了一个星期废话(建议体验  前期智商碾压游戏 后期靠游戏眷顾) ,回归主题,肤浅的我被奖品吸引(CSDN带着陶瓷杯的目标重在参与的抽奖),被“小白”二字扣住。于是,当天我进入了直播,选择性失明的略过了开始计时时间。看完直播第一天,发现类似于一个启动仪式。

背景

本人将近3年的纯C后端开发者,大学期间的比较重大的毕设项目和源码基本在CSDN的博客这边了。(C#,JAVAEE,MATLAB,C++)这些语言前二者有B/S的web开发工程,MATLAB是毕设带UI工程(其中运用到百度api的tts<吐槽一下,当年还是看网友才知道那个平台,当年百度搜索云平台开发排得老后面了>+本地微软tts库),C++界面的就是那个课设的三维镂垫。这四个的巅峰状况都在大学时代,现在基本忘了,设计界面和图像的基本没怎么涉猎。

资源

中文的找文档 英文的找documentattion(格式怎么调的距离这么宽,我也不知道为什么这样子)

百度AIstudio https://aistudio.baidu.com/aistudio/index

matplotlib   https://matplotlib.org/index.html

飞桨官网 https://www.paddlepaddle.org.cn/

飞桨github https://github.com/paddlepaddle/paddle

python体验

针对这门语言,结合自己的经验,基本也是属于有个通性概念,入手来说基本逻辑基本一致。设计的数据结构比较特殊。和matlab相比类型多,设计到计算的话需要许多方法和转换,对于英语差的而且python初步接触的需要各种涉猎相关方法。通过块对齐,退格设置这类型检查严格,冒号使用,经常性被遗忘,携带参数可以有个前面的标签指[命名关键字参数]。简单说,一门语言要用得好,先把基础掌握好。掌握不好的我,在完成此活动的作业,连加减都要百度一下类型变换和使用。总结<基础不好> 等于 <类型难点,变换难点,获取难点,计算难点>

Aistudio体验

由于我是没有设置相关的本地python环境的,因此直接在改平台上面编码,操作相对简单,涉及的可能最多的是网络问题,本地掉线。上传文件功能和下载也很简便-拖拉-窗口均支持。在一次网速差的情况下,我先使用的是火狐的进行上传,短的上传成功4MB左右的失败,需要提一下的是,我该电脑的火狐可能是3年前的版本了。十几次失败后,我改成360浏览器上传,浏览器自己和对端通讯,最终成功。因此,如果遇到网速问题,可以看看换换大文件有没有其他版本较好的且策略更好的浏览器尝试。对于Aistudio,他有设计到词语联想之类的,关键字也是都有提醒,上面还有linux终端可操作。由于网络问题(这估计是我住的地段问题,公司的网络也是迷之龟速)或者我这台10年之久的老设备问题,会有linux终端卡主的现象,有我这种问题,建议在前面创建文本,shell类型的加个感叹号,操作相对快速。

该平台在载入中文相关的.ttf,经过停止重启,相关的数据有恢复正常。

七日体验所得

除了以上涉及前端经验,我可以说没怎么涉猎html javascript。这7日中有共5份的作业任务。

在day1简单类型操作后,在day2通过简单的跟着直播学习研究分析html标签进而设计抓取条件,这对我来说是第一次体验爬虫的系列操作,这次在此七日中,这份数据是个开端。相对来说是学习工具的简单实用(就是依样画葫芦,难的:师傅领进门,修行靠个人)

day3是在二的基础上进行相关的数据分析,以及相关图表的制作,数据分析就涉及到我这python小白的盲区了,有种东西叫做直播中都讲过numpy和dataframe,但是我的脑袋没有记住,于是消耗了大量的时间在搜索类型转换和统计方法。另一个图表绘制即matplotlib 这个官网样例相当齐全,鉴于我毕设有matlab的语谱图绘制经验,相对来说难度较少,但是如果要更高端的,肯定要啃文档了。这里给个我利用官网的两个柱上增加数字的例子day5的例子

def drawcounts(counts,topN):'''绘制词频统计表参数 counts: 词频统计结果 num:绘制topNreturn:none''' iterms=list(counts.items())iterms.sort(key=lambda x:x[1],reverse=True)#上面的代码我其实还不是很懂,是csdn找到的反正就是排序#函数sort我认识,那个lamdba还不懂if len(iterms)>topN:endnum=topNelse:endnum=len(iterms)#print(iterms)#显示matplotlib生成的图形x_list=[]y_list=[]%matplotlib inlinefor i in range(endnum):x,y = iterms[i] x_list.append(x)y_list.append(y)print(x_list)print(y_list)# 设置显示中文plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体plt.figure(figsize=(10,6))fig2,ax=plt.subplots(figsize=(10,6))rects=plt.bar(range(len(y_list)),y_list,0.6,color='r',tick_label=x_list,facecolor='#9999ff',edgecolor='white')plt.xlabel("/词语",fontsize=12)plt.ylabel("/个数",fontsize=12)# 这里是调节横坐标的倾斜度,rotation是度数,以及设置刻度字体大小plt.xticks(rotation=45,fontsize=12)plt.yticks(fontsize=12)#ax.legend()##绘制柱状上数字def autolabel(rects):for rect in rects:h=rect.get_height()ax.annotate('{}'.format(h),xy=(rect.get_x()+rect.get_width()/2,h),xytext=(0,3),textcoords="offset points",ha='center',va='bottom')autolabel(rects)plt.title('''词频统计图''',fontsize = 24)plt.savefig('/home/aistudio/work/cicicicici.jpg')#看着这个函数是把图和柱子紧密结合,取消变成一个画布两张图fig2.tight_layout()plt.show()print(x_list)return

day4 根据人脸图像训练,以构建识别模型,开始懵懵懂懂的,作为数据集的图片我是手动截图的,尝试使用的是通过-数据集-利用模型训练,再有一个-验证集 测试集,标签即模型实现目标。四种输入数据,这些当前为学习应用为主。

day5大作业,爱奇艺的评论爬虫,这里是带有javascript触发的爬虫分析,一个Get方法去掉jsonp_xxx()这个是其他人说的,这个对我没有接触过这个类型的还是知识盲区。以防图片问题,这里记录下相关只是要点。

jsonp跨域问题。
jsonp_xxx后面xxx为随机生成的。
[Browser:script]--GET xx?xxx&callback=jsonfun-->[Server]
[Browser:script]<--jsonfun({...}) -[Server]
[Browser:script use jsonfun({...})]

有点高点的爬虫。我404了一整天(除去白天上班),我就不明白浏览器可以爬下来,我带入代码怎么就不行了。后来我用了浏览器的请求头才可以。对比了一下,发现访问首页的Host不一样,这个Host是http的协议里面有写的。以前有浏览过http的RFC文档,类型重定向。更深层次的暂时没有了解。"keep-alive\r\n"这个我以前研究libghttp里面有看过,在libghttp里面如果接收到"Connection: close\r\n",链路会掐断无应答了。写博文弄完发现这里当时还涉及另一个问题,就是续行符号 反斜杠'\',由于拼接的那个GET请求串太长,然后我使用续行符了,错误退格失败。续航符使用的话要顶格。如果使用多行的串连接就要严格python的退格处理的。初级使用者各种违法语法规则操作。

 headers = { 'Host': 'sns-comment.iqiyi.com','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:75.0) Gecko/20100101 Firefox/75.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate, br','Connection': 'keep-alive','Upgrade-Insecure-Requests': '1'  }  

针对正则表达式,他们和各种编码、协议、字符集和语言是一个大家族。前不久我工作遇到ascii(0)用法,这个应该是C语言和这类型的有区别的c语言单引号为一个char因此单引号'\0'位空;二双引号位串"\000"这个时候就要解释三个零的第一个为八进制的意思。目前遇到的shell脚本语言类型的使用的是串"\000";

#正则表达式子
#在很多的语言中这个单个字匹配的基本符合这个框
#C语言也有,C语言高端用法可学习sscanf()的匹配
#这里面涉及到一个知识要点'\001'是由0开头的,因此为8进制,'\x20'为x开头的因此为十六进制
#但是C中的十六进制有范围限制,具体的我还没有懂
s=re.sub('[\001-\x20]','',s)

在此次大作业中还有分词jieba 、词频统计、以及绘制词云wordcloud,paddlehub语义分析之类的。由于有直播中讲的和示范,基本算是比较轻松的,奈何遇到敲代码敲错词,然后各类函数还不熟悉的,遇到一对报错,比如image打错Imag等,打字出错徒增难度。

感受:学习一门新语言,实践是比较有用的,阅读源码也是提升知识的途径,在没有低级错误的时候,使用还是相对方便的。7天大部分白天上班,晚上看直播做作业。整个阶段还是非常紧张的。尤其是遇到工作项目遇到未知BUG还是非常烦躁的,还好后面都找到原因。话说拼多多的113关运气的过了哈哈哈。以后想可能会再看看尝试python和这些库其他算法的应用。但是基础我还要先掌握好,不然一个矩阵转置都要查一下单词。这影响我的应用技术。

百度Aistudio飞桨七日游体验python爬虫和分析数据相关推荐

  1. python基础入门大作业怎么做_【百度飞桨】零基础Python课程大作业

    转眼间百度飞桨的零基础python课程马上就要结束了,所谓年前学python,年后来上号,通过本次课程可以对python有一个基础的认知和掌握,以下是大作业的个人代码,仅供参考. [作业一] #创建S ...

  2. 百度飞桨七日深度学习手势识别

    百度飞桨七日深度学习手势识别,paddlepaddle免费GPU算力,以及很好的封装,对初学者灰常友好~~~~. 下面是其中的手势识别作业,采用LeNet网络,初步感受了调参的魅力(雾

  3. 百度BML飞桨训练营(五)商品种类识别

    百度BML&飞桨训练营(五)商品种类识别 文章相关内容资料已经取得百度BML允许,仅用与交流学习,请不要用于商业传播. 这一期继续来手把手教学如何进行视觉上对商品饮料分类. 下载商品识别模板( ...

  4. 百度BML飞桨训练营(六)公共场所火焰烟雾检测--PP-YOLOv2算法

    百度BML&飞桨训练营(六)公共场所火焰烟雾检测 文章相关内容资料已经取得百度BML允许,仅用与交流学习,请不要用于商业传播. 这一期继续讲解视觉在现实场景中的应用,PP-YOLOv2算法在火 ...

  5. 百度BML飞桨训练营(十一)paddle-OCR车牌识别

    百度BML&飞桨训练营(十一)paddle-OCR车牌识别 第一步:配置Notebook 1.创建Notebook任务,点击配置 开发语言:Python3.7 AI框架:PaddlePaddl ...

  6. 百度BML飞桨训练营(十)面部表情迁移PaddleGAN--蒙娜丽莎在微笑

    百度BML&飞桨训练营(十)面部表情迁移PaddleGAN–蒙娜丽莎在微笑 (1).蒙娜丽莎动态表情迁移 第一步:配置Notebook 1.创建Notebook任务,点击配置 开发语言:Pyt ...

  7. python百度云盘搜索引擎_2016百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    品牌: 其他 语言: PHP 数据库: Mysql 源文件: 完全开源(含全部源文件) 授权: 免授权 规格: 整站源码 移动端: 无移动端 安装服务: 收费安装(另补差价) 操作系统: Window ...

  8. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  9. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

最新文章

  1. Xampp安装PHPUnit
  2. 学习JNI一些基础知识
  3. Shell函数详解(函数定义、函数调用)
  4. 委托与事件代码详解与(Object sender,EventArgs e)详解
  5. 058_JavaScript函数arguments对象
  6. android 辅助服务 简书,Android AccessibilityService使用
  7. 二 用标准c语言实现hanoi塔问题,天大2016年1二月《数据结构》期末大作业考核要求.doc...
  8. centOs 7.2*64 ECS nginx安装教程
  9. 前端学习(2844):ui另一种按需加载
  10. 如何用c 语言编写贪吃蛇,刚学C语言,想写一个贪吃蛇的代码
  11. 年仅 5 岁的 Rust 如何成为最受欢迎的编程语言?
  12. 视频过大怎么压缩变小
  13. Rsyslog的模板template详解
  14. 详解大型分布式电商系统架构
  15. 柳传志的回复:联想集团大裁员:公司不是家
  16. svchost是什么程序
  17. 读书笔记 - 《移山之道:VSTS软件开发指南》中的软件测试介绍
  18. 根据url读取html文件
  19. 【Metasploit】MSF常用命令
  20. 唯有硬核,方显本色丨云和恩墨五位数据库专家即将亮相openGauss Developer Day

热门文章

  1. 北师大数据结构期末考试复习
  2. 微软Windows CEO梅尔森跟全体员工告别
  3. 又一起“删库”:链家程序员怒删公司 9TB 数据,被判 7 年!
  4. spring security http.rememberMe()使用和原理解析
  5. WorkFlow .Net 流程撤回
  6. 读《任正非在2012实验室的讲话》总结
  7. AutoJs学习-实现扫雷
  8. pytorch获取模型的中间层输出结果
  9. webpack打包工具学习(前端构建工具)
  10. 67 个拯救前端开发者的工具、库和资源