#__author : "J"#date : 2018-03-06

#导入需要用到的库文件

importurllib.requestimportreimportpymysql#创建一个类用于获取学校官网的十条标题

classGetNewsTitle:#构造函数 初始化

def __init__(self):

self.request= urllib.request.Request("http://www.sict.edu.cn/") #需要爬取的网址

#利用正则表达式筛选数据

self.my_re =re.compile(

r'学校要闻.*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'"a2" >(.*?).*?' +r'院部简讯')#创建一个方法

defget_html(self):try:

response=urllib.request.urlopen(self.request)#获取目标网页源码

my_html = response.read().decode('GB2312').replace("\r\n", "")returnmy_htmlexcepturllib.request.HTTPError as e:print(e.code)print(e.reason)return

#创建一个函数,利用正则获取指定标题

defget_titles(self, my_html):

news_titles=re.findall(self.my_re, my_html)returnnews_titles#创建一个方法,把获取到的标题存入mysql数据库

definto_mysql(self, titles):for num in range(10):

connection= pymysql.connect(host='127.0.0.1', port=3306, user='root', password='******', db='school',

charset='utf8')

cursor=connection.cursor()

sql= "INSERT INTO `newsTitles` (`title`) VALUES ('" + titles[0][num] + "')"cursor.execute(sql)

connection.commit()

cursor.close()

connection.close()#执行函数的入口

defstart(self):

self.into_mysql(self.get_titles(self.get_html()))print("存储成功!")#实例化类

s =GetNewsTitle()#调用方法开始执行

s.start()

python爬取学校题库_利用Python网络爬虫爬取学校官网十条标题相关推荐

  1. python爬取学校题库_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!

    大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

  2. python爬取学校题库_如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

  3. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  4. Python 数据采集-爬取学校官网新闻标题与链接(进阶)

    Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...

  5. python爬取学校题库_Python爬虫实战-获取某网站题库

    爬取*网站题库 import requests import re import time import html headers = { 'User-Agent':'Mozilla/5.0 (Win ...

  6. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  7. python爬取大众点评数据_利用Node.js制作爬取大众点评的爬虫

    前言 Node.js天生支持并发,但是对于习惯了顺序编程的人,一开始会对Node.js不适应,比如,变量作用域是函数块式的(与C.Java不一样):for循环体({})内引用i的值实际上是循环结束之后 ...

  8. python爬取外文文献翻译_利用Python爬取翻译网站的翻译功能

    现在我想分享一个利用Python技术,爬取一个翻译网站的翻译功能的小代码. 首先隆重介绍我们今天将要爬取的网站:http://fy.iciba.com/ 咱们用Python中的urllib模块的功能进 ...

  9. python爬取百度翻译视频_利用python爬取百度翻译内容

    利用python可以实现对百度翻译内容的爬取,具体过程如下: 前期工作 本程序的测试环境为python3.5,Chrome浏览器.进入百度翻译的页面,点开F12进入开发者调试工具,点击network, ...

  10. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

最新文章

  1. oracle存储换硬盘,Oracle 10g RAC 数据存储更换
  2. typeof操作符的返回值
  3. 离散型随机变量及其分布列习题
  4. thinkphp5 异步调用方法_thinkphp5 swoole 执行异步任务
  5. 安卓BLE开发教程(二) BLE开发流程
  6. spring技术内幕——深入解析spring架构与设计原理
  7. js 操作vuex数据_vue中使用vuex(超详细)
  8. Android中LayoutInflater()方法
  9. MySQL 忘记Root密码
  10. 503小组第三章编程作业
  11. Linux下查看网卡实时流量工具
  12. 推荐 几个神级 Java 开源学习项目
  13. Android ——游戏开发之文字冒险游戏
  14. 弘辽科技:电商壹周大事
  15. gie拉取Can‘t update master has no tracked branch
  16. ios更新了系统无服务器,苹果手机的iOS系统没法更新怎么办?
  17. FineReport程序网络报表 - Hello,World
  18. maxima安装使用
  19. MATLAB 生成均匀分布、正态分布、对数正态分布随机数
  20. 基于机智云平台的智能花盆

热门文章

  1. 工具使用-----Jmeter-脚本的录制
  2. AppCan入门教程
  3. javascript之奇淫技巧
  4. 解决安装多个Xcode出现的PBXProjectWizardChooserWizard问题
  5. 查看系统信息msinfo32工具的使用
  6. 七种程序员的基本技能
  7. mysql.sock文件丢失的一个原因
  8. Java 11 究竟比 8 快了多少?
  9. MapXtreme2004鹰眼程序
  10. [译] 为什么需要在 React 类组件中为事件处理程序绑定 this