1)⑤爬取搜狗旅游部分新闻
1 __author__ = 'minmin' 2 #coding:utf-8 3 import re,urllib,sgmllib 4 5 #根据当前的url获取html 6 def getHtml(url): 7 page = urllib.urlopen(url) 8 html = page.read() 9 page.close() 10 return html 11 12 #根据html获取想要的文章内容 13 def func(str): 14 result = re.findall(r"<p.*?>([^<>]*)</p>",getHtml(url),re.M) 15 artical ='' 16 17 for j in result: 18 if len(j)<>0: 19 j = j.replace("<strong>"," ") 20 j = j.replace("</strong>"," ") 21 j = j.replace("<br>"," ") 22 j = j.replace(" "," ") 23 j = j.replace("“"," ") 24 j = j.replace("”"," ") 25 j = j.replace("·"," ") 26 artical = artical + j + '\n' 27 return artical 28 29 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。 30 class URLPaser(sgmllib.SGMLParser): 31 def reset(self): 32 sgmllib.SGMLParser.reset(self) 33 self.urls = [] 34 35 def start_a(self,attrs): 36 href = [v for k,v in attrs if k == 'href'] 37 if href: 38 self.urls.extend(href) 39 40 IParser = URLPaser() 41 socket = urllib.urlopen("http://travel.sohu.com/lvyouxinwen.shtml")#打开这个网页 42 43 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中 44 IParser.feed(socket.read())#分析啦 45 46 reg = 'http://travel.sohu.com/2015.*'#这个是用来匹配符合条件的链接,使用正则表达式匹配 47 48 pattern = re.compile(reg) 49 i = 0 50 url2 = [] 51 for url in IParser.urls:#链接都存在urls里 52 if pattern.match(url): 53 if url not in url2: 54 url2.append(url) 55 print url 56 artical = func(url) 57 print artical 58 if len(artical)<>0: 59 i = i + 1 60 f = open("sougou/Travel/"+str(i) + '.txt','a+') 61 f.write(artical) 62 f.close()
转载于:https://www.cnblogs.com/minmsy/p/4962745.html
1)⑤爬取搜狗旅游部分新闻相关推荐
- Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...
- 第一个爬虫-爬取搜狗的一整张网页
爬取搜狗的一整张网页 import requests url='https://www.sogou.com/' response= requests.get(url=url) page_text =r ...
- 创新实训【5】——爬取搜狗资讯
爬取内容 本周用selenium+chromeDriver爬取了搜狗资讯中有关山东大学的新闻,包括新闻标题,链接,时间和来源,一共爬取了100页,获得数据380多条,在链接中改变页数page={}爬取 ...
- python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
- 爬虫 spider08——爬取腾讯娱乐新闻【使用redis去重】
根据 爬虫 spider07--爬取腾讯娱乐新闻 https://blog.csdn.net/qq_41946557/article/details/102566143 进行修改! 代码: impor ...
- 九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
- 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...
这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...
- Python 数据采集-爬取学校官网新闻标题与链接(基础)
Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
- python爬虫今日头条_python 简单爬取今日头条热点新闻(
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
- python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
最新文章
- luogu P3393 逃离僵尸岛(点权最短路 + 多源BFS)
- python在化学方面的应用-python化学库
- JSP具体条款——response对象
- [YTU]_2617( B C++时间类的运算符重载)
- 解决STM32 SPI 半残废 NSS无法拉高
- 从零开始学 Web 之 Ajax(七)跨域
- iOS中TextView显示HTML文本
- padding不显示背景色_PS常用快捷键有哪些?小白职场必备快捷键,再也不担心被难到...
- “21天好习惯”第一期-16
- GridView 中如何给删除按钮添加提示
- windows基础知识总结
- 杜比服务器系统安装教程,win10杜比音效如何安装?win10安装杜比音效的详细教程...
- Log4j.properties 属性详解以及 LOG4J日志级别详解
- 一分钟教会你固态硬盘数据恢复方法
- RGB配色表,CMYK配色表
- matlab 周期性边界,PID控制器阶跃响应的分析(基于MATLAB仿真的实验):
- 怎么出家ajax假死状态,Ajax如何解决假死?
- jekyll-paginate 缺失
- 啊,这该死的天气和路况,让我特靠谱爱车失灵了《打工人的那些事》
- 【Android多屏适配】动态改变Listview item高度