Python爬虫实习笔记 | Week4 项目数据爬取与反思

2018/11/05
1.所思所想：
今天我把Python爬虫实战这本书Chapter6看完，很有感触的一点是，书本中对爬虫实现的模块化设计很给我灵感，让我对项目中比较无语的函数拼接有了解决之道，内省还是比较兴奋。此外，在吃饭问题上需要认真思考下，是否应注意合理的膳食，是否应对要吃的进行好好考究。下午主要是做项目的东西，信用评价这一块很少用到技术性的手段，只写了个格式化脚本，另外了解并运用Navicat的文本导入功能，整体没有太大问题。另，发现自己对零碎时间利用不足，很是惭愧，明天起开始带一些文学、经理或管理等书过来，中午可花半小时认真看看，而不是刷手机。

2.工作：
[1].吉林省
没找到

[2].黑龙江省
2.1 哈尔滨   内容为图片   http://www.hrbhbj.gov.cn/art/2018/8/10/art_263_20640.html
2.2 齐齐哈尔   无内容
2.3 鸡西市   无内容
2.4 鹤岗市   信用信息为空
2.5 双鸭山市    无搜索框，人眼搜索未找到
2.6 大庆市   爬取成功，保存在JilinProvince数据库里   http://hbj.daqing.gov.cn/Journalism_Read.aspx?id=7281
2.7 宜春市   未找到网站，或网站瘫痪
2.8 佳木斯市   内容为图片，需下载   http://www.jmshb.gov.cn/shownews.php?id_5294
2.9 七台河市   未找到
2.10 牡丹江市   未找到
2.11 黑河市   爬取成功保存在JilinProvince数据库里 http://www.hhshjbhj.gov.cn/about.asp?DonforKenbest=82&DonforListId=2913
2.12 绥化市   未找到
2.13 大兴安岭地区未找到

2018/11/06
1.所思所想:今天上午很早就到，然后就开始看python简单分布式爬虫这一章，怎么说呢，虽然听学长说有Scrapy等已经封装好的框架，但自己仍然要把这一块敲一下代码，深入理解这里面的处理流程，以及如何提升稳健性等性能的技巧。中午吃饭吃到馊饭，在想馊饭馊菜如何才能检测，我觉得这个值得好好研究下，如果有比较便宜的产品，那一定会畅销吧。下午大抵没有做什么，参加了一个讨论，感觉讨论确实能产生成果。考试在即，加油嘞～

2.工作：
16河南 152郑州
行政处罚：post请求需要注意的是headers里要添加Cookie信息，否则网页信息取不出。
环评：
信用评价:

2018/11/07
1.所思所想：今天心情很好，因为之前在后端脚本中遇到的URL绝对路径生成问题得到了解决，我觉得，这是脚本通用性的很重要的一步。此外，和学长的交流过程中，我发现自己还有很多地方需要琢磨，不仅包括Python语法，且爬虫需要把Scrapy都搞精通的地步。自然语言处理、数据挖掘等知识需要后期跟进。昨晚看了别人的面经，觉得在到大厂工作的距离里，还有很多地方需要学习，不仅包括网络编程部分，还有数据库，还有C++语法和STL库的运用，要看的书还有很多，这些书能帮助我对后端知识有深入理解。

2.工作：
行政处罚：152郑州 153开封
以下message搞定：
154洛阳(未) http://www.lyhbj.gov.cn/tongji/list_5864_1.html
155平顶山市(未) http://www.pdshb.gov.cn/channels/11268.html
156安阳市(未) http://www.ayhbj.gov.cn/front/news/list_FfmMFf_1.chtml

2018/11/08
1.所思所想：
软件设计师考试加油！倒数第二天！

2.工作：
154洛阳完成
155平顶山市完成
156安阳市完成
157鹤壁市完成 http://www.hbhb.gov.cn/zhengwugongkai/zhengcefagui/index.html
159焦作市完成 http://www.jzshb.gov.cn/html/list-543-1.html
160濮阳市未完成
delete FROM `tasks` where city_id = 156;

2018/11/09
1.所思所想：
软件设计师考试加油！倒数最后一天！
2.工作：
160濮阳市完成

Python爬虫实习笔记 | Week4 项目数据爬取与反思相关推荐

Python爬虫《自动化学报》数据爬取与数据分析
Python爬虫<自动化学报>数据爬取与数据分析文章目录 Python爬虫<自动化学报>数据爬取与数据分析前言一.代码二.结果展示三.爬虫实现 1.准备 2.获取网页 ...
Python爬虫-CSDN博客排行榜数据爬取
文章目录前言网络爬虫搜索引擎爬虫应用谨防违法爬虫实战网页分析编写代码运行效果反爬技术前言开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...
python爬虫，g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
（python爬虫）新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统设计要求新浪新闻数据爬取与清洗基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
python爬虫学习笔记（一）—— 爬取腾讯视频影评
前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...
Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思
2018/11/12 1.所思所想: 今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决. 下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本& ...
python爬虫多久能学会-不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
知乎python练手的_Python—爬虫之初级实战项目：爬取知乎任一作者的文章练手
爬虫之初级实战项目:爬取知乎任一作者的文章练手在正式上代码之前,先过一遍之前所学知识的框架内容,温故而知新!!! 接下来我们直接上代码,一定要手敲代码.手敲代码.手敲代码!!! import req ...
python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程
爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

Python爬虫实习笔记 | Week4 项目数据爬取与反思

Python爬虫实习笔记 | Week4 项目数据爬取与反思相关推荐

最新文章

热门文章