最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。

还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。

想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如

等), 将这些标签删除之后,就能够得到纯文本,从而得到人可读的内容。

但是,有一个问题在于python没有办法登陆账号,所以我最后直接把acm kdd 的网页html代码复制下来,扔在一个txt里面,然后打开txt进行读取。

其实整段python的代码函数非常简单,如下:

1 importre2 file = open('kdd2013.txt','r')3 s1 =file.read()4 re_h = re.compile('?\w+[^>]*>')5 s = re_h.sub('',s1)6 blankline = re.compile('\n+')7 s = blankline.sub('',s)8 expand = re.compile('expand')9 s = expand.sub('\n', s)10 blankline = re.compile('\n+')11 s = blankline.sub('\n',s)12

13 fp = open(r'kdd2013_pure.txt','w')14 fp.write(s)15 fp.close()

View Code

其实在这里,主要是记录一下python里面去除html标签正则表达式的编写,利用python有的re模块进行正则表达式的规则设置,compile为设定一个规则,可以看出,compile中的?\w+[^>]*>,个人理解中,这段代表的就是说,匹配到开头中,如果是<开头,>结尾的语句,则直接删除,因为毕竟acm的页面写的还是相对非常工整的,所以能够很轻松的删除每一个html的标签,然后,再删除多余的空行,利用#2.通过#2可以实现对多个空行的删除,匹配的就是\n+,代表多个空行。

最后,利用上面的python程序,我将kdd中的字段全部拿下来了,得到的都是几个txt,是最近几年的kdd的文章title和摘要,这里也贴出来跟大家分享一下~

由于博客园似乎不能上传附件,我就扔在百度云里边儿了,链接如下:http://pan.baidu.com/s/1jGDUNqA

python论文题目_有关利用python获取网页, 以及KDD近几年论文标题与摘要链接相关推荐

  1. python的论文图表_如何利用Python绘制学术论文图表方法

    论文中图表形式多样,常用的处理工具有excel.MATLAB以及Python等,excel自处理的方法有两个缺陷: 1.当数据较多时,容易出现excel"翻白眼"的现象: 2.需要 ...

  2. ios安装python的步骤_如何利用 Python 爬虫实现给微信群发新闻早报?(详细)

    点击上方"AirPython",选择"加为星标" 第一时间关注 Python 技术干货! 1. 场景 经常有小伙伴在交流群问我,每天的早报新闻是怎么获取的? 其 ...

  3. 用python做头像_如何利用python制作微信好友头像照片墙?

    这个不难,主要用到itchat和pillow这2个库,其中itchat用于获取微信好友头像照片,pillow用于拼接头像生成一个照片墙,下面我简单介绍一下实现过程,代码量不多,也很好理解,实验环境wi ...

  4. python epub 精品_如何利用Python打包HTML页面为epub?

    最近沉迷于将各种博客和官方文档html转化成pdf,结果用手机看还是不太方便,所以想到将html转化成epub格式的电子书,要用os,re,requests,lxm,zipfile,五个库,在这里分享 ...

  5. 利用python进行数据分析_资料 | 利用Python进行数据分析

    下载地址:https://www.yanxishe.com/resourceDetail/1443?from=leiphonecolumn_res0518 以下内容节选自豆瓣: 内容简介 · · · ...

  6. python求加速度_如何利用Python 为自然语言处理加速度

    自去年发布 Python 的指代消解包(coreference resolution package)之后,很多用户开始用它来构建许多应用程序,而这些应用与我们最初的对话应用完全不同. 利用 spaC ...

  7. python绘制太阳系_如何利用Python动态模拟太阳系运转

    前言 提到太阳系,大家可能会想到哥白尼和他的日心说,或是捍卫.发展日心说的斗士布鲁诺,他们像一缕光一样照亮了那个时代的夜空,对历史感兴趣的小伙伴可以深入了解一下,这里就不多说了. 太阳以巨大的引力使周 ...

  8. python画四角星_如何利用Python|对多角星的绘制

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:编程与算法之美. 1 前言 在初步学习python的过 ...

  9. python基金筛选_如何利用python挑选基金?

    前几天有位朋友向我求助,想让我写个爬虫帮他爬取基金的数据.乐于助人的我怎么会袖手旁观呢? 首先捋一捋思路:获取网页→获取一条数据→获取全部数据→把数据保存为文件.有了思路就开干喽~朋友需要获取的数据来 ...

  10. python刷新页面_小伙利用Python制作浏览器,网友点评这小伙将来要进腾讯

    导语 好久以前看到有人做过(CSDN上?)..今天心血来潮..就想自己试试..仅此而已..用的PyQt版本是5.10...网上关于PyQt5.10的中文教程=None..所以最后做出来的效果一般(毕竟 ...

最新文章

  1. 如果让学生轻松过关,他们就对老师心存轻蔑
  2. 两个ListBox的相互操作
  3. 运用ajax技术写联动的效果
  4. mysql降级导入_mysql 升级和降级
  5. Java并发编程之——并发集合
  6. nginx配置文件结构
  7. 《编码规范和测试方法——C/C++版》作业 ·008——编写一个符合依赖倒置原则的简单学生管理系统
  8. hyper-v ubuntu 图形界面不流畅_ubuntu简单美化教程
  9. python免费领取视频-quot;免费领取Python资源”
  10. Cocos2d-x基础概念详情篇
  11. 信息处理技术员下午考试试题分析
  12. android 获取签名的md5值,获取Android MD5签名
  13. 关于Linux性能调优中系统CPU监测信息统计的一些笔记
  14. 巴西电商olist store订单数据分析
  15. Android NVidia Tegra2平台Camera架构浅析
  16. 小米摄像头 rtmp_如何使用外部摄像头进行AmazonLive_wotobuy
  17. 物联网技能大赛lora开发
  18. Win11打不开本地组策略编辑器怎么办
  19. 新浪微博Android客户端开发之OAuth认证篇
  20. map和multimap的用法详解

热门文章

  1. css实现在一行显示多余部分显示省略号
  2. [转载]数据层的多租户浅谈(SAAS多租户数据库设计)
  3. 在本地测试一次成功的AJAX请求
  4. c语言:新颖的进制灵活应用
  5. Silverlight 5 RC新特性探索系列:15.Silverlight 5 RC 对OpenType字体属性的支持
  6. jQuery - animate(滑块滑动)
  7. Kafka中Producer与Broker之间的交互
  8. fescar(Seata)详解
  9. zookeeper集群节点为什么是奇数个
  10. PCB设计常见的有那些问题