Python爬虫实习笔记 | Week4 项目数据爬取与反思
2018/11/05
1.所思所想:
今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navicat的文本导入功能,整体没有太大问题。另,发现自己对零碎时间利用不足,很是惭愧,明天起开始带一些文学、经理或管理等书过来,中午可花半小时认真看看,而不是刷手机。
2.工作:
[1].吉林省
没找到
[2].黑龙江省
2.1 哈尔滨 内容为图片 http://www.hrbhbj.gov.cn/art/2018/8/10/art_263_20640.html
2.2 齐齐哈尔 无内容
2.3 鸡西市 无内容
2.4 鹤岗市 信用信息为空
2.5 双鸭山市 无搜索框,人眼搜索未找到
2.6 大庆市 爬取成功,保存在JilinProvince数据库里 http://hbj.daqing.gov.cn/Journalism_Read.aspx?id=7281
2.7 宜春市 未找到网站,或网站瘫痪
2.8 佳木斯市 内容为图片,需下载 http://www.jmshb.gov.cn/shownews.php?id_5294
2.9 七台河市 未找到
2.10 牡丹江市 未找到
2.11 黑河市 爬取成功 保存在JilinProvince数据库里 http://www.hhshjbhj.gov.cn/about.asp?DonforKenbest=82&DonforListId=2913
2.12 绥化市 未找到
2.13 大兴安岭地区 未找到
2018/11/06
1.所思所想:今天上午很早就到,然后就开始看python简单分布式爬虫这一章,怎么说呢,虽然听学长说有Scrapy等已经封装好的框架,但自己仍然要把这一块敲一下代码,深入理解这里面的处理流程,以及如何提升稳健性等性能的技巧。中午吃饭吃到馊饭,在想馊饭馊菜如何才能检测,我觉得这个值得好好研究下,如果有比较便宜的产品,那一定会畅销吧。下午大抵没有做什么,参加了一个讨论,感觉讨论确实能产生成果。考试在即,加油嘞~
2.工作:
16河南 152郑州
行政处罚:post请求 需要注意的是headers里要添加Cookie信息,否则网页信息取不出。
环评:
信用评价:
2018/11/07
1.所思所想:今天心情很好,因为之前在后端脚本中遇到的URL绝对路径生成问题得到了解决,我觉得,这是脚本通用性的很重要的一步。此外,和学长的交流过程中,我发现自己还有很多地方需要琢磨,不仅包括Python语法,且爬虫需要把Scrapy都搞精通的地步。自然语言处理、数据挖掘等知识需要后期跟进。昨晚看了别人的面经,觉得在到大厂工作的距离里,还有很多地方需要学习,不仅包括网络编程部分,还有数据库,还有C++语法和STL库的运用,要看的书还有很多,这些书能帮助我对后端知识有深入理解。
2.工作:
行政处罚:152郑州 153开封
以下message搞定:
154洛阳(未) http://www.lyhbj.gov.cn/tongji/list_5864_1.html
155平顶山市(未) http://www.pdshb.gov.cn/channels/11268.html
156安阳市(未) http://www.ayhbj.gov.cn/front/news/list_FfmMFf_1.chtml
2018/11/08
1.所思所想:
软件设计师考试加油!倒数第二天!
2.工作:
154洛阳 完成
155平顶山市 完成
156安阳市 完成
157鹤壁市 完成 http://www.hbhb.gov.cn/zhengwugongkai/zhengcefagui/index.html
159焦作市 完成 http://www.jzshb.gov.cn/html/list-543-1.html
160濮阳市 未完成
delete FROM `tasks` where city_id = 156;
2018/11/09
1.所思所想:
软件设计师考试加油!倒数最后一天!
2.工作:
160濮阳市 完成
Python爬虫实习笔记 | Week4 项目数据爬取与反思相关推荐
- Python爬虫《自动化学报》数据爬取与数据分析
Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...
- Python爬虫-CSDN博客排行榜数据爬取
文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...
- python爬虫,g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
- (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
- python爬虫学习笔记(一)—— 爬取腾讯视频影评
前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...
- Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思
2018/11/12 1.所思所想: 今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决. 下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本& ...
- python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
- 知乎python练手的_Python—爬虫之初级实战项目:爬取知乎任一作者的文章练手
爬虫之初级实战项目:爬取知乎任一作者的文章练手 在正式上代码之前,先过一遍之前所学知识的框架内容,温故而知新!!! 接下来我们直接上代码,一定要手敲代码.手敲代码.手敲代码!!! import req ...
- python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程
爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...
最新文章
- 判断均匀平面波的极化形式_化学选修3丨分子极性如何判断?四步就能搞定!...
- wps office oa控件 痕迹_WPS,Excel,哪个好用?其实真的好用的,是这个工具
- 树状数组c语言模板,【树状数组】Cows (POJ2481) PASCAL 解题报告
- [转] apache配置rewrite及.htaccess文件
- java 运行 .jar 文件乱码
- android 获取和设置屏幕亮度
- C++ static_cast dynamic_cast const_cast reinterpret_cast使用总结
- 上半年全国游戏市场销售收入近1400亿元 用户规模近6.6亿人
- ios笔记-单例文字代码详解
- Docker教程小白实操入门(21)--如何备份、恢复数据卷
- Sourcetree 看不了文件内容 Diff was suppressed because of file size or pattern
- 抢小米软件html版(简单有效)
- 扫码点单系统介绍,源码
- 便便教你玩转流程引擎Snaker
- py征途3之填坑(pagerank个人详解)
- 数字媒体技术 计算机类 专业大学排名,2019年全国数字媒体技术专业大学排名(20强)...
- 指数爆炸问题的基本思路
- 360度全景图可以手动旋转的怎么制作?
- win7计算机无法连接投影仪,win7系统无法连接投影仪的解决方法
- TP真阳性, FP假阳性, FN假阴性, TN真阴性