利用excel与notepad++采集京东热门图书榜的清单
首先想到的是excel的网页采集功能,但是结果不太理想,只能整页地采,发现头尾都没有去掉,同时,对于每一本书而言,每一行的信息都采集了,有较多的无用行,不过仔细看了下,感觉有戏:去掉头尾内容是一次性的事,而中间的无用行比较规律,替换之后,想要的内容就比较清晰了,但还有几个小问题:类似“已有XXX人评价”,与“定价:XX元”这样的行不好替换,还有删除空行,替换可以采用正则表达式的替换来实现,我以前用过sublime,不错,但这次的新发现是notepad++7.1,以前我也尝试过notepad++5.X好多回,但一直没有真正地喜欢上它,原因是论轻便不如notepad2,论功能有时总还得麻烦UE,特别是它的界面,总觉得不是太好看,不过在这一次的试用中,这些观点都被推翻了,感觉认识了一个全新的notepad++:删除空行变成了内置菜单,太方便了,列模式功能完全不输UE,正则表达式替换比sublime更易使用且好用,换个皮肤,界面不输sublime,更不用说它的最大特征:开源免费了!
有了重新认识的notepad++,问题一个个就迎刃而解了,评论数目与价格不一的行直接替换,两行的合并也直接正则替换,空行的删除轻而易举,我要的4个字段很方便地以|号分隔在一整行,这样只要通过excel的导入文本,就轻松变成格式良好的excel了。
虽然手工操作多了点,但还是较快的,大约花了1个小时,整理出了300本想要买的书,呵呵,够图书管理员吃一斤了。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/13365316/viewspace-2126965/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/13365316/viewspace-2126965/
利用excel与notepad++采集京东热门图书榜的清单相关推荐
- 采集京东网数据的10个经典方法
京东网数据采集全网抓取网页数据.商品销量.全网搜索.网页爬虫.采集网站数据.网页数据采集软件.python爬虫.HTM网页提取.APP数据抓包.APP数据采集.一站式网站采集技术.BI数据的数据分析. ...
- php 采集 京东 图片,京东商品图片采集详细教程
本文介绍采集使用八爪鱼7.0采集京东商品图片的方法:首先将京东商品搜索结果网页中图片的URL采集下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中. 采集网 ...
- Excel:Excel使用技巧经验总结之(利用Excel自带功能统计各个字段不同类别及其个数并进行图表可视化+非编程实现)图文教程之详细攻略
Excel:Excel使用技巧经验总结之(利用Excel自带功能统计各个字段不同类别及其个数并进行图表可视化+非编程实现)图文教程之详细攻略 目录 利用Excel自带筛选功能统计各个字段不同类别及其个 ...
- Excel:利用Excel内置功能实现对某列表格按照条件进行升降序排列
Excel:利用Excel内置功能实现对某列表格按照条件进行升降序排列 目录 实现功能 实现方法 实现功能 利用Excel内置功能实现对某列表格按照设置条件进行升降序排列 实现方法
- python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
- 动态给a标签赋值_怎样利用Excel制作抖音上的心形动态函数图像?
最近在抖音上看到有用Excel制作心形动态函数图像,感觉很新奇,闲来无事,准备自己动手做做,遂网上搜了教程,按照教程一步步做,前面都很顺利,但到最后一部确卡壳,问了公司Excel大牛也未找到原因,知道 ...
- 人工智能热门图书(深度学习、TensorFlow)免费送!
欢迎访问网易云社区,了解更多网易技术产品运营经验. 这个双十一,人工智能市场火爆,从智能音箱到智能分拣机器人,人工智能已逐渐渗透到我们的生活的方方面面.网易云社区联合博文视点为大家带来人工智能热门图书 ...
- 【视频教程】利用Excel轻松爬取网页上的数据
说到从网上抓取数据,大多数人马上想到的就是Python,但是有的时候不用Python也可以搞定.今天给大家分享一篇如何利用Excel抓取网站上我们所需要的多页数据. 如抓取新浪财经股票页面中的2019 ...
- wps 模拟分析 规划求解_【网友来稿】利用Excel求解线性规划问题
点击上方"运筹学小将",和小将一起学习运筹学把 提问 Qustions 解答 Answers 01 网友分享历年真题到公众号后台有现金收入吗? 没有. 02 分享历年真题到公众号后 ...
最新文章
- 给input type=color设置默认值
- Openldap配置TLS加密传输(完整版——shell脚本实现[即在客户端执行代码,即可实现TLS加密])
- Windows 技巧篇-点开头的文件夹名创建方法。如何创建点开头的文件夹?
- Keras之MLPR:利用MLPR算法(3to1【窗口法】+【Input(3)→(12+8)(relu)→O(mse)】)实现根据历史航空旅客数量数据集(时间序列数据)预测下月乘客数量问题
- [转]sudoers设置
- 【AVR ASF4库函数学习笔记】一、使用Microchip Studio图形化配置工程
- php 判断同时存在英文跟数字,php判断输入是否是纯数字,英文,汉字的方法
- python生成时间戳_Python 获取时间戳
- 2复数与复变函数(二)
- form的get与post方式的区别(转)
- Mac没有winnt格式_Mac视频格式转换工具-H265 Converter Pro
- MySQL练习题(经典50题)
- 苏轼眼里看到的技术世界(一)
- 万网(.net.cn)域名注册查询代码
- node配置邮箱发送验证码
- pause容器作用_kubernetes中的Pause容器如何理解?
- 2.Hadoop 生态圈及核心组件简介
- 如何把视频写在博客里?
- 使用if/else方式的三个数找最大
- 网络空间安全-密码学