蚌埠学院官网综合新闻条目抓取

蚌埠学院综合新闻

import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import jsondef get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef page_parser(html):soup = BeautifulSoup(html,'lxml')for td in soup.find_all(name='td',attrs={'height':24}):# 超链接href = 'http://www.bbc.edu.cn' + td.find(name='td').a.attrs['href']# 标题title = td.find(name='td').a.font.string# 发布时间postTime = td.find(class_='postTime').stringyield {'href':href,'title':title,'postTime':postTime}def get_pages(url):html = get_one_page(url)soup = BeautifulSoup(html,'lxml')# 获取总页码pages = soup.find(name='a',attrs={'title':'进入尾页'}).attrs['href']# 将总页码提取出来pages = pages.split('/')[8]if pages :return pagesreturn Nonedef write_to_file(content):with open('result.txt','a',encoding='utf-8') as f:f.write(json.dumps(content,ensure_ascii=False) + '\n')def main(num=0):pages = get_pages('http://www.bbc.edu.cn/s/21/t/267/p/22/i/1/list.htm')pages = int(pages)if num:pages=numfor page in range(1,pages):url = 'http://www.bbc.edu.cn/s/21/t/267/p/22/i/'+str(page)+'/list.htm'html = get_one_page(url)for item in page_parser(html):print(item)print('抓取了： '+str(pages)+'页综合新闻')if __name__ == '__main__':main(20)

蚌埠学院官网综合新闻条目抓取相关推荐

【小程序源码】uni-app云开发的网盘助手抓取网盘资源
这是一款uni-app开发的一款网盘小助手小程序源码安装教程: 我们首先使用HBuilderx导入您的源码,然后点击manifest.json基础配置然后重新获取一下uni-app应用标识然后我们 ...
东方财富网 python_Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: 请求数据未入库处理,其中数据只存入数据文本,未做存入数据库处理请求样例数据结果: jQuery112406092635132097686_1569674756779( ...
Python爬虫 | 斗图网表情包抓取
Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码声明 1.数据来源分析打开斗图吧的主页,发现网址非常有 ...
python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
内网渗透之抓取隔壁小姐姐上网图片
arp欺骗,利用中间人攻击原理, 对内网的用户实施欺骗,从而到达目的. 中间人攻击原理:两边通信的要经过黑客才能把信息转发给对方, 从而导致信息泄露. 实验工具: kali linux nmap ar ...
Python爬虫新手教程：微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
java 爬取百度云盘,百度网盘资源抓取爬虫
[实例简介] 简要实现了百度网盘资源的抓取,以及定时抓取,百度分享用户的抓取以及资源抓取,booststrap 页面 [实例截图] [核心代码] da0a5e77-e599-4f8f-829f-edb ...
医生学python_Python微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

蚌埠学院官网综合新闻条目抓取

蚌埠学院官网综合新闻条目抓取相关推荐

最新文章

热门文章