1 __author__ = 'minmin'
 2 #coding:utf-8
 3 import re,urllib,sgmllib
 4
 5 #根据当前的url获取html
 6 def getHtml(url):
 7     page = urllib.urlopen(url)
 8     html = page.read()
 9     page.close()
10     return html
11
12 #根据html获取想要的文章内容
13 def func(str):
14      result =   re.findall(r"<p.*?>([^<>]*)</p>",getHtml(url),re.M)
15      artical =''
16
17      for j in result:
18          if len(j)<>0:
19              j = j.replace("<strong>","    ")
20              j = j.replace("</strong>","    ")
21              j = j.replace("<br>","   ")
22              j = j.replace("&nbsp;"," ")
23              j = j.replace("&ldquo;"," ")
24              j = j.replace("&rdquo;"," ")
25              j = j.replace("&middot;"," ")
26              artical = artical + j + '\n'
27      return  artical
28
29 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。
30 class URLPaser(sgmllib.SGMLParser):
31     def reset(self):
32         sgmllib.SGMLParser.reset(self)
33         self.urls = []
34
35     def start_a(self,attrs):
36         href = [v for k,v in attrs if k == 'href']
37         if href:
38             self.urls.extend(href)
39
40 IParser = URLPaser()
41 socket = urllib.urlopen("http://travel.sohu.com/lvyouxinwen.shtml")#打开这个网页
42
43 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中
44 IParser.feed(socket.read())#分析啦
45
46 reg = 'http://travel.sohu.com/2015.*'#这个是用来匹配符合条件的链接,使用正则表达式匹配
47
48 pattern = re.compile(reg)
49 i = 0
50 url2 = []
51 for url in IParser.urls:#链接都存在urls里
52     if pattern.match(url):
53         if url not in url2:
54             url2.append(url)
55             print url
56             artical = func(url)
57             print artical
58             if len(artical)<>0:
59                   i = i + 1
60                   f = open("sougou/Travel/"+str(i) + '.txt','a+')
61                   f.write(artical)
62                   f.close()

转载于:https://www.cnblogs.com/minmsy/p/4962745.html

1)⑤爬取搜狗旅游部分新闻相关推荐

  1. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  2. 第一个爬虫-爬取搜狗的一整张网页

    爬取搜狗的一整张网页 import requests url='https://www.sogou.com/' response= requests.get(url=url) page_text =r ...

  3. 创新实训【5】——爬取搜狗资讯

    爬取内容 本周用selenium+chromeDriver爬取了搜狗资讯中有关山东大学的新闻,包括新闻标题,链接,时间和来源,一共爬取了100页,获得数据380多条,在链接中改变页数page={}爬取 ...

  4. python编程100例头条-python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  5. 爬虫 spider08——爬取腾讯娱乐新闻【使用redis去重】

    根据 爬虫 spider07--爬取腾讯娱乐新闻 https://blog.csdn.net/qq_41946557/article/details/102566143 进行修改! 代码: impor ...

  6. 九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...

    封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...

  7. 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...

    这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...

  8. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  9. python爬虫今日头条_python 简单爬取今日头条热点新闻(

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  10. python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

最新文章

  1. luogu P3393 逃离僵尸岛(点权最短路 + 多源BFS)
  2. python在化学方面的应用-python化学库
  3. JSP具体条款——response对象
  4. [YTU]_2617( B C++时间类的运算符重载)
  5. 解决STM32 SPI 半残废 NSS无法拉高
  6. 从零开始学 Web 之 Ajax(七)跨域
  7. iOS中TextView显示HTML文本
  8. padding不显示背景色_PS常用快捷键有哪些?小白职场必备快捷键,再也不担心被难到...
  9. “21天好习惯”第一期-16
  10. GridView 中如何给删除按钮添加提示
  11. windows基础知识总结
  12. 杜比服务器系统安装教程,win10杜比音效如何安装?win10安装杜比音效的详细教程...
  13. Log4j.properties 属性详解以及 LOG4J日志级别详解
  14. 一分钟教会你固态硬盘数据恢复方法
  15. RGB配色表,CMYK配色表
  16. matlab 周期性边界,PID控制器阶跃响应的分析(基于MATLAB仿真的实验):
  17. 怎么出家ajax假死状态,Ajax如何解决假死?
  18. jekyll-paginate 缺失
  19. 啊,这该死的天气和路况,让我特靠谱爱车失灵了《打工人的那些事》
  20. 【Android多屏适配】动态改变Listview item高度

热门文章

  1. 编译Libgdiplus遇到的问题
  2. js操作多选框checkBox
  3. biztalk中架构验证、实例生成和验证
  4. java中的Date类
  5. MUI框架-11-MUI前端 +php后台接入百度文字识别API
  6. tensorflow学习之(十一)RNN+LSTM神经网络的构造
  7. CCF - 201604-2 - 俄罗斯方块
  8. iOS之UI--CAShapeLayer
  9. Qwtpolar的编译
  10. 微信电脑版真的要来了 微信Windows版客户端1.0 Alpha推出