部门搞图书馆要大家提供需要采购的图书清单,我觉得京东某种类型(数据或开发语言)的综合排序第一天列出的书就是我想要买的,但如何得到这样一份图书清单(主要包含书名、作者、出版社,出版日期)呢?手工搞当然不合适,python或者scrapy不是挺适合干这事嘛,但是发现,要突然切换到python采集的上下文环境,还真不是那么一两下的事情,三天不用手生,切换上下文让人头疼,所以还是找个不那么费脑筋的体力活吧;
      首先想到的是excel的网页采集功能,但是结果不太理想,只能整页地采,发现头尾都没有去掉,同时,对于每一本书而言,每一行的信息都采集了,有较多的无用行,不过仔细看了下,感觉有戏:去掉头尾内容是一次性的事,而中间的无用行比较规律,替换之后,想要的内容就比较清晰了,但还有几个小问题:类似“已有XXX人评价”,与“定价:XX元”这样的行不好替换,还有删除空行,替换可以采用正则表达式的替换来实现,我以前用过sublime,不错,但这次的新发现是notepad++7.1,以前我也尝试过notepad++5.X好多回,但一直没有真正地喜欢上它,原因是论轻便不如notepad2,论功能有时总还得麻烦UE,特别是它的界面,总觉得不是太好看,不过在这一次的试用中,这些观点都被推翻了,感觉认识了一个全新的notepad++:删除空行变成了内置菜单,太方便了,列模式功能完全不输UE,正则表达式替换比sublime更易使用且好用,换个皮肤,界面不输sublime,更不用说它的最大特征:开源免费了!
      有了重新认识的notepad++,问题一个个就迎刃而解了,评论数目与价格不一的行直接替换,两行的合并也直接正则替换,空行的删除轻而易举,我要的4个字段很方便地以|号分隔在一整行,这样只要通过excel的导入文本,就轻松变成格式良好的excel了。
      虽然手工操作多了点,但还是较快的,大约花了1个小时,整理出了300本想要买的书,呵呵,够图书管理员吃一斤了。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/13365316/viewspace-2126965/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/13365316/viewspace-2126965/

利用excel与notepad++采集京东热门图书榜的清单相关推荐

  1. 采集京东网数据的10个经典方法

    京东网数据采集全网抓取网页数据.商品销量.全网搜索.网页爬虫.采集网站数据.网页数据采集软件.python爬虫.HTM网页提取.APP数据抓包.APP数据采集.一站式网站采集技术.BI数据的数据分析. ...

  2. php 采集 京东 图片,京东商品图片采集详细教程

    本文介绍采集使用八爪鱼7.0采集京东商品图片的方法:首先将京东商品搜索结果网页中图片的URL采集下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中. 采集网 ...

  3. Excel:Excel使用技巧经验总结之(利用Excel自带功能统计各个字段不同类别及其个数并进行图表可视化+非编程实现)图文教程之详细攻略

    Excel:Excel使用技巧经验总结之(利用Excel自带功能统计各个字段不同类别及其个数并进行图表可视化+非编程实现)图文教程之详细攻略 目录 利用Excel自带筛选功能统计各个字段不同类别及其个 ...

  4. Excel:利用Excel内置功能实现对某列表格按照条件进行升降序排列

    Excel:利用Excel内置功能实现对某列表格按照条件进行升降序排列 目录 实现功能 实现方法 实现功能 利用Excel内置功能实现对某列表格按照设置条件进行升降序排列 实现方法

  5. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  6. 动态给a标签赋值_怎样利用Excel制作抖音上的心形动态函数图像?

    最近在抖音上看到有用Excel制作心形动态函数图像,感觉很新奇,闲来无事,准备自己动手做做,遂网上搜了教程,按照教程一步步做,前面都很顺利,但到最后一部确卡壳,问了公司Excel大牛也未找到原因,知道 ...

  7. 人工智能热门图书(深度学习、TensorFlow)免费送!

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 这个双十一,人工智能市场火爆,从智能音箱到智能分拣机器人,人工智能已逐渐渗透到我们的生活的方方面面.网易云社区联合博文视点为大家带来人工智能热门图书 ...

  8. 【视频教程】利用Excel轻松爬取网页上的数据

    说到从网上抓取数据,大多数人马上想到的就是Python,但是有的时候不用Python也可以搞定.今天给大家分享一篇如何利用Excel抓取网站上我们所需要的多页数据. 如抓取新浪财经股票页面中的2019 ...

  9. wps 模拟分析 规划求解_【网友来稿】利用Excel求解线性规划问题

    点击上方"运筹学小将",和小将一起学习运筹学把 提问 Qustions 解答 Answers 01 网友分享历年真题到公众号后台有现金收入吗? 没有. 02 分享历年真题到公众号后 ...

最新文章

  1. 给input type=color设置默认值
  2. Openldap配置TLS加密传输(完整版——shell脚本实现[即在客户端执行代码,即可实现TLS加密])
  3. Windows 技巧篇-点开头的文件夹名创建方法。如何创建点开头的文件夹?
  4. Keras之MLPR:利用MLPR算法(3to1【窗口法】+【Input(3)→(12+8)(relu)→O(mse)】)实现根据历史航空旅客数量数据集(时间序列数据)预测下月乘客数量问题
  5. [转]sudoers设置
  6. 【AVR ASF4库函数学习笔记】一、使用Microchip Studio图形化配置工程
  7. php 判断同时存在英文跟数字,php判断输入是否是纯数字,英文,汉字的方法
  8. python生成时间戳_Python 获取时间戳
  9. 2复数与复变函数(二)
  10. form的get与post方式的区别(转)
  11. Mac没有winnt格式_Mac视频格式转换工具-H265 Converter Pro
  12. MySQL练习题(经典50题)
  13. 苏轼眼里看到的技术世界(一)
  14. 万网(.net.cn)域名注册查询代码
  15. node配置邮箱发送验证码
  16. pause容器作用_kubernetes中的Pause容器如何理解?
  17. 2.Hadoop 生态圈及核心组件简介
  18. 如何把视频写在博客里?
  19. 使用if/else方式的三个数找最大
  20. 网络空间安全-密码学

热门文章

  1. 愚人节入职的新手程序员的踩坑经历
  2. FlashGUI测试笔记
  3. 平行时空 平行宇宙 多元宇宙
  4. Macsome iTunes Converter for Mac(DRM移除和音乐转换器)3.5.0
  5. 企业级 Selenium 刷 其他平台 博客访问(学习使用 )
  6. 吐血整理,20个计算机保研常见问题及回答模板
  7. 被封杀4年的看片神器终于解禁了,要跟百度网盘抢生意?(末尾送书)
  8. Matlab中的snr
  9. 虚拟机设置成U盘PE启动方法
  10. Android 面试文档分享