2018/11/05
1.所思所想:
今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navicat的文本导入功能,整体没有太大问题。另,发现自己对零碎时间利用不足,很是惭愧,明天起开始带一些文学、经理或管理等书过来,中午可花半小时认真看看,而不是刷手机。

2.工作:
[1].吉林省
没找到

[2].黑龙江省
2.1 哈尔滨    内容为图片    http://www.hrbhbj.gov.cn/art/2018/8/10/art_263_20640.html
2.2 齐齐哈尔    无内容
2.3 鸡西市    无内容
2.4 鹤岗市    信用信息为空
2.5 双鸭山市    无搜索框,人眼搜索未找到
2.6 大庆市    爬取成功,保存在JilinProvince数据库里    http://hbj.daqing.gov.cn/Journalism_Read.aspx?id=7281
2.7 宜春市    未找到网站,或网站瘫痪
2.8 佳木斯市    内容为图片,需下载    http://www.jmshb.gov.cn/shownews.php?id_5294
2.9 七台河市    未找到
2.10 牡丹江市    未找到
2.11 黑河市    爬取成功 保存在JilinProvince数据库里  http://www.hhshjbhj.gov.cn/about.asp?DonforKenbest=82&DonforListId=2913
2.12 绥化市    未找到
2.13 大兴安岭地区 未找到

2018/11/06
1.所思所想:今天上午很早就到,然后就开始看python简单分布式爬虫这一章,怎么说呢,虽然听学长说有Scrapy等已经封装好的框架,但自己仍然要把这一块敲一下代码,深入理解这里面的处理流程,以及如何提升稳健性等性能的技巧。中午吃饭吃到馊饭,在想馊饭馊菜如何才能检测,我觉得这个值得好好研究下,如果有比较便宜的产品,那一定会畅销吧。下午大抵没有做什么,参加了一个讨论,感觉讨论确实能产生成果。考试在即,加油嘞~

2.工作:
16河南    152郑州    
行政处罚:post请求  需要注意的是headers里要添加Cookie信息,否则网页信息取不出。
环评:
信用评价:

2018/11/07
1.所思所想:今天心情很好,因为之前在后端脚本中遇到的URL绝对路径生成问题得到了解决,我觉得,这是脚本通用性的很重要的一步。此外,和学长的交流过程中,我发现自己还有很多地方需要琢磨,不仅包括Python语法,且爬虫需要把Scrapy都搞精通的地步。自然语言处理、数据挖掘等知识需要后期跟进。昨晚看了别人的面经,觉得在到大厂工作的距离里,还有很多地方需要学习,不仅包括网络编程部分,还有数据库,还有C++语法和STL库的运用,要看的书还有很多,这些书能帮助我对后端知识有深入理解。

2.工作:
行政处罚:152郑州  153开封   
以下message搞定:
154洛阳(未) http://www.lyhbj.gov.cn/tongji/list_5864_1.html
155平顶山市(未) http://www.pdshb.gov.cn/channels/11268.html
156安阳市(未) http://www.ayhbj.gov.cn/front/news/list_FfmMFf_1.chtml

2018/11/08
1.所思所想:
软件设计师考试加油!倒数第二天!

2.工作:
154洛阳    完成
155平顶山市 完成
156安阳市 完成
157鹤壁市 完成 http://www.hbhb.gov.cn/zhengwugongkai/zhengcefagui/index.html
159焦作市 完成 http://www.jzshb.gov.cn/html/list-543-1.html
160濮阳市 未完成
delete FROM `tasks` where city_id = 156;

2018/11/09
1.所思所想:
软件设计师考试加油!倒数最后一天!
2.工作:
160濮阳市 完成

Python爬虫实习笔记 | Week4 项目数据爬取与反思相关推荐

  1. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

  2. Python爬虫-CSDN博客排行榜数据爬取

    文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...

  3. python爬虫,g-mark网站图片数据爬取及补坑

    应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...

  4. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  5. python爬虫学习笔记(一)—— 爬取腾讯视频影评

    前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...

  6. Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思

    2018/11/12 1.所思所想: 今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决. 下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本& ...

  7. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  8. 知乎python练手的_Python—爬虫之初级实战项目:爬取知乎任一作者的文章练手

    爬虫之初级实战项目:爬取知乎任一作者的文章练手 在正式上代码之前,先过一遍之前所学知识的框架内容,温故而知新!!! 接下来我们直接上代码,一定要手敲代码.手敲代码.手敲代码!!! import req ...

  9. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

最新文章

  1. 判断均匀平面波的极化形式_化学选修3丨分子极性如何判断?四步就能搞定!...
  2. wps office oa控件 痕迹_WPS,Excel,哪个好用?其实真的好用的,是这个工具
  3. 树状数组c语言模板,【树状数组】Cows (POJ2481) PASCAL 解题报告
  4. [转] apache配置rewrite及.htaccess文件
  5. java 运行 .jar 文件乱码
  6. android 获取和设置屏幕亮度
  7. C++ static_cast dynamic_cast const_cast reinterpret_cast使用总结
  8. 上半年全国游戏市场销售收入近1400亿元 用户规模近6.6亿人
  9. ios笔记-单例文字代码详解
  10. Docker教程小白实操入门(21)--如何备份、恢复数据卷
  11. Sourcetree 看不了文件内容 Diff was suppressed because of file size or pattern
  12. 抢小米软件html版(简单有效)
  13. 扫码点单系统介绍,源码
  14. 便便教你玩转流程引擎Snaker
  15. py征途3之填坑(pagerank个人详解)
  16. 数字媒体技术 计算机类 专业大学排名,2019年全国数字媒体技术专业大学排名(20强)...
  17. 指数爆炸问题的基本思路
  18. 360度全景图可以手动旋转的怎么制作?
  19. win7计算机无法连接投影仪,win7系统无法连接投影仪的解决方法
  20. TP真阳性, FP假阳性, FN假阴性, TN真阴性

热门文章

  1. comments添加_如何使用De:comments改善WordPress评论
  2. 三种形式能量最值解析
  3. malloc 底层实现
  4. 一键拼出你的微信好友图片墙
  5. CUDA总结1——OpenCV与CUDA简介
  6. 策略模式 - 这波不亏
  7. Mysql的MVCC
  8. 华为终打破美国垄断,夺取5G信道25%的控制权!
  9. OSChina 周三乱弹 —— 看二哈如何制霸汪星人
  10. PPT 插入的视频如何下载下来