1、HTML基础学习时,感觉很懵,无从下手,打开W3school网站IT教程网站学习看不太明白,最后百度了好多资料才渐渐清晰。
2、Xpath、CSS学习时,同样是W3school网站,老师布置了一个用Xpath和CSS定位网站内容,由于不知道怎么验证,写了好多种的定位方式提交,最后老师教我们用浏览器检验定位方式正确性,验证完后发现只有小部分正确。于是发现好多定位方式不适用,最好用的是css与xpath里的ID定位和属性定位。
3、Request库和Beautifulsoup库学习时,使用Request和Beautifulsoup写一个爬取学校新闻中2020年的所有新闻,但是我写的无限循环的爬取2020中的新闻链接就出现了问题,百度无果,问同学无果,问老师只是知道了位置,还是没有解决,最后我发现是我用request爬取时模仿的 selenium webdriver来写的,但是request与bs4不是模拟浏览器的行为实现爬取任务的,最终另辟蹊径找到了新闻链接中的规律与特点,按页爬取了14页,第14页有2019的新闻,用if date.find(‘2020’)==0的语句进行筛选,最终得到结果。
4、京东商城爬取商品评价时,模仿的 selenium webdriver写的爬虫,xpath定位时总是出错,最终尝试ID定位正确。还出现数据处理不合适问题。最后结合百度解决数据处理问题。
5、学习scarpy框架结合selenium爬取股票信息时,网站结构的观察不仔细、对scarpy框架的不理解,多次试错,然后还是错了,最终百度得知scarpy项目中有一处的中文字符出现错误,改正,最终成功。
6、对大数据职业信息分析过程中借鉴了前面对京东商城评论爬取、相似案例的爬取与处理方式。在表单登录时,根据页面有一个点击登录按钮弹出登录窗口进行模拟输入登录的动作,当弹窗出现后就无法进行下一步,尝试百度,发现应该有一个frame窗口需要转换的动作,但是对这方面的知识知之甚少,自学后仍然显示窗口转换还是不对,所以选择改变初始网址,直接进入到弹窗后界面,再次运行成功。
7、同一个任务中进行数据处理的中文分词时,出现添加自定义词时失败问题:最终选择直接将新词写入自定义字典(文件),以jieba的本地字典的方式传入结巴,成功分词。(jieba.load_userdict(“newdict.txt”))

网络大数据采集与整理课程学习中遇到的主要问题及解决相关推荐

  1. 复旦大学python教程_复旦大学大数据学院本科生课程学习手册.PDF

    复旦大学大数据学院本科生课程学习手册 目录 第一章 前言 2 第二章 大数据学院本科生培养模式3 2.1 培养理念 3 2.2 数据科学与大数据技术 "2+2"培养模式 4 第三章 ...

  2. MBA国际贸易课程学习中的一些收获

    MBA 国际贸易课程学习中的一些收获 自大学毕业之后,已经很少有兴趣认真听课了:听了曹老师的一天半课程,感觉受益匪浅,也希望以下观点能够给大家带来点启发. 一.关于即兴发言或演讲的口诀 1.    眼 ...

  3. 《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...

    基于特征学习的文本大数据内容理解及其发展趋势 袁书寒,向 阳,鄂世嘉 (同济大学计算机科学与技术系 上海 201804) 摘要:大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类 ...

  4. java大数据最全课程学习笔记(6)--MapReduce精通(二)--MapReduce框架原理

    目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages MapReduce精通(二) MapReduce框架原理 MapReduce工作流程 流程示意图 流程详解 上面的流程 ...

  5. 【空间描述与位姿变换】(台大林沛群课程学习笔记)持续更新~

    目录 Word Text: **rotation matrix:旋转矩阵** **identity matrix:单位阵** **orthogonal matrix:正交矩阵** 位姿:位置和姿态的组 ...

  6. 强化学习中Sparse Reward问题该怎么解决?

    Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说: 假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去 ...

  7. linux学习中遇到的各种故障与解决方法

    一.nginx 二.apache 三.mysql 四.tomcat 五.oracle 六.python python安装mysqldb(mysql-devel包)出现错误: error: comman ...

  8. 万字长文带你看尽深度学习中的各种卷积网络

    来源:AI科技评论 摘要:深度学习中的各种卷积网络大家知多少? 深度学习中的各种卷积网络大家知多少?对于那些听说过却又对它们没有特别清晰的认识的小伙伴们,这篇文章非常值得一读.Kunlun Bai 是 ...

  9. 基于Android智能手机的微课程学习系统设计与实现 毕业设计源码100909

    摘 要 随着现在网络的快速发展,网络的应用在各行各业当中它很快融入到了许多学校的眼球之中,他们利用网络来做这个微课程学习系统的网站,随之就产生了"智能手机的微课程学习系统 ",这样 ...

最新文章

  1. time since epoch
  2. php大文件上传php.ini配置
  3. mysql5.1 mysiam_MySQL 数据库清理MyISAM Innodb表(支持MySQL5.1.6以上的版本)
  4. Unity性能优化-遮挡剔除
  5. pycharm设置anaconda并运行helloworld
  6. 分享几个路由器设置小技巧,总有用得到的一天!
  7. 02 jmeter 简单发送http请求
  8. spring boot建立项目 git推送giteee
  9. 升级nginx,查看已经安装的模块,并隐藏或者修改版本号
  10. redis——对项目的一些优化方案
  11. (39)System Verilog线程停止(disable)
  12. bandizip专业版
  13. 时间管理的十一条金律
  14. 深入理解设计模式-建造者模式(生成器模式)
  15. 干货:怎么提高科技成果转移转化成效?
  16. Excel 电子表格文件格式剖析
  17. 概率论与数理统计,基础知识、公式、定理、概念(一)
  18. 构建栅格地图matlab代码
  19. 【J2EE】J2EE简介
  20. 微信查看谁删除了4种方法

热门文章

  1. Win应用 - 有哪些好用的 PC 平台安卓模拟器?
  2. 职场人要远离的各种“负能量”
  3. 二次元卡通角色渲染技术概述
  4. CEVA-X16自由式编程-3-破译指令编码
  5. Lab: Exploiting cross-site scripting to steal cookies:利用XSS窃取Cookie
  6. 麦肯锡咨询公司与计算机培训机构
  7. Python 使用7z压缩解压 安装、使用、报错
  8. 用友r9怎样启动应用服务器,保会通软件接收用友R9数据转换说明
  9. Premiere Pro之效果控件(七)
  10. ML基础教程:线性建模fitlinear