1)⑤爬取搜狗旅游部分新闻

 1 __author__ = 'minmin'
 2 #coding:utf-8
 3 import re,urllib,sgmllib
 4
 5 #根据当前的url获取html
 6 def getHtml(url):
 7     page = urllib.urlopen(url)
 8     html = page.read()
 9     page.close()
10     return html
11
12 #根据html获取想要的文章内容
13 def func(str):
14      result =   re.findall(r"<p.*?>([^<>]*)</p>",getHtml(url),re.M)
15      artical =''
16
17      for j in result:
18          if len(j)<>0:
19              j = j.replace("<strong>","    ")
20              j = j.replace("</strong>","    ")
21              j = j.replace("<br>","   ")
22              j = j.replace("&nbsp;"," ")
23              j = j.replace("&ldquo;"," ")
24              j = j.replace("&rdquo;"," ")
25              j = j.replace("&middot;"," ")
26              artical = artical + j + '\n'
27      return  artical
28
29 #html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。
30 class URLPaser(sgmllib.SGMLParser):
31     def reset(self):
32         sgmllib.SGMLParser.reset(self)
33         self.urls = []
34
35     def start_a(self,attrs):
36         href = [v for k,v in attrs if k == 'href']
37         if href:
38             self.urls.extend(href)
39
40 IParser = URLPaser()
41 socket = urllib.urlopen("http://travel.sohu.com/lvyouxinwen.shtml")#打开这个网页
42
43 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中
44 IParser.feed(socket.read())#分析啦
45
46 reg = 'http://travel.sohu.com/2015.*'#这个是用来匹配符合条件的链接，使用正则表达式匹配
47
48 pattern = re.compile(reg)
49 i = 0
50 url2 = []
51 for url in IParser.urls:#链接都存在urls里
52     if pattern.match(url):
53         if url not in url2:
54             url2.append(url)
55             print url
56             artical = func(url)
57             print artical
58             if len(artical)<>0:
59                   i = i + 1
60                   f = open("sougou/Travel/"+str(i) + '.txt','a+')
61                   f.write(artical)
62                   f.close()

转载于:https://www.cnblogs.com/minmsy/p/4962745.html

1)⑤爬取搜狗旅游部分新闻相关推荐

Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流 ...
第一个爬虫-爬取搜狗的一整张网页
爬取搜狗的一整张网页 import requests url='https://www.sogou.com/' response= requests.get(url=url) page_text =r ...
创新实训【5】——爬取搜狗资讯
爬取内容本周用selenium+chromeDriver爬取了搜狗资讯中有关山东大学的新闻,包括新闻标题,链接,时间和来源,一共爬取了100页,获得数据380多条,在链接中改变页数page={}爬取 ...
python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
爬虫 spider08——爬取腾讯娱乐新闻【使用redis去重】
根据爬虫 spider07--爬取腾讯娱乐新闻 https://blog.csdn.net/qq_41946557/article/details/102566143 进行修改! 代码: impor ...
九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...
这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...
Python 数据采集-爬取学校官网新闻标题与链接（基础）
Python 爬虫爬取学校官网新闻标题与链接一.前言二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
python爬虫今日头条_python 简单爬取今日头条热点新闻(
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

1)⑤爬取搜狗旅游部分新闻

1)⑤爬取搜狗旅游部分新闻相关推荐

最新文章

热门文章