对icourse、学堂在线等网页中的大学名称进行爬取:

# to clean data from icourses
fi = open("icourses.txt","r",encoding="utf-8")
ls = []
for line in fi:if "alt" in line:tokens = line.split('"')uname = tokens[-2]if "大学生" in uname:continueif "大学" in uname or "学院" in uname:ls.append(uname)
print("".join(ls))
print(len(ls))
fi.close()#to claean  data from xuetangx
fi = open("xuetangx.txt","r",encoding="utf-8")
U = set()  #使用集合去重
for line in fi:if "慕课" in line:continueif "大学" in line or "学院" in line:U.add(line.strip("\n"))
print("".join(U))
print(len(U))
fi.close()# to claen data from cnmooc
fi = open("cnmooc.txt","r",encoding="utf-8")
U = set()
for line in fi:if "大学" in line or "学院" in line:U.add(line.strip("/n"))
print("".join(U))
print(len(U))
fi.close()#汇总结果
ic = '''          '''
xt = '''          '''
cm = '''          '''
U =set()
U |= set(ic.split())
U |= set(xt.split())
U |= set(cm.split())
ls = list(U)
ls.sort()
print("",join(ls))
print(len(ls))

python Demo 01 爬取大学名称相关推荐

  1. python实例,python网络爬虫爬取大学排名!

    源代码: import requests from bs4 import BeautifulSoup import bs4def getHTMLText(url):try:r = requests.g ...

  2. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  3. python爬电影_使用Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

  4. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  5. python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章

    下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...

  6. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  7. Python之数据爬取数据可视化

    前言 临近中秋,月饼的销量持续增长,然而不仅仅是中秋节,非旺季也有很多月饼爱好者在电商平台购买月饼.本文利用淘宝上的公开数据,应用 python 对月饼非旺季的销售状况进行分析,并对统计结果进行数据可 ...

  8. python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜

    利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...

  9. 基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息

    基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息 注意:仅供学习交流,任何非法使用与作者无关! 目录 基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息 一.背景与取材 二. ...

最新文章

  1. 计算机硬盘冒烟了,电脑硬盘冒烟损坏了怎么办?
  2. 阿里云容器服务发布 Knative 托管服务 | 云原生生态周报 Vol. 49
  3. cookie和session之会话机制:   http 协议  ---》 无状态协议
  4. Django - 中间件
  5. python用一行代码画个迷宫_用 Python 制作一个迷宫游戏
  6. php7 configure 参数,PHP编译参数configure配置详解
  7. 魅族16s Pro细节曝光:骁龙855plus 未上Flyme 8
  8. 什么是隐形门? 隐形门安装要注意什么
  9. 用 pre-commit hook 解决 Python 项目编码规范
  10. java贪吃蛇客户端服务器_java Socket套接字TCP编程开发服务端和客户端之间的通信 - 贪吃蛇学院-专业IT技术平台...
  11. Hive学习之Metastore及其配置管理
  12. java equals重写原则_如何正确的重写equals方法(避免各种陷阱)
  13. STM32之字模软件的使用
  14. wincc vbs mysql_WinCC 如何访问数据库(VBS)
  15. TFS2010学习之一
  16. Web 全栈大会:万维网之父的数据主权革命
  17. 腾讯元老、上市公司CTO辞职后,每天对着200亩地发呆
  18. 正太分布函数 oracle,Oracle随机函数
  19. 跨境电商面临“寒冬”考验,如何转型升级入局新赛道(Starday)
  20. 【小狗钱钱】—— 送人生一份理财

热门文章

  1. code block怎样导入整个文件夹_一文就能get!带你了解Python模块导入的真相,拿走不谢...
  2. 用php求n个分数的和,php关于数组n个随机数分成x组,使每组值相近的算法
  3. Hadoop报错:All specified directories are failed to load.
  4. 判定两个tensor维度相同_Tensorflow源码解析5 -- 图的边 - Tensor
  5. maven 排除pom依赖_Maven依赖排除 禁止依赖传递 取消依赖的方法
  6. PHP域名查墙代码,怎么查看域名是否被墙检测(教你一招域名被墙解决办法)
  7. python动态规划图解_动态规划案例之python实现(一)
  8. python调用shell用什么类_python脚本中调用shell命令
  9. uniapp对象怎么获取值_第65p,关于:生成器、迭代器与迭代对象(上)
  10. react 原生html 插件,纯原生JS的瀑布流插件Macy.js,前端必备插件