注:

正则表达式在线检测工具:http://tool.oschina.net/regex/

进程:

1.源代码HTML

  #将url转换为HTML源码
def getHtml(url):
    try:
        page = urllib.request.urlopen(url)
        html = page.read()
    except:
        print("failed to geturl")
        return ''
    else:
        return html

  #通过正则表达式获取该网页下每本书的title(换行符没去掉)
def getTitle(html):
    nameList = re.findall(r'<a href="https.*?".*?target="_blank">(.*?)</a>',html,re.S)
    newNameList = [];
    global topnum
    for index,item in enumerate(nameList):
        if item.find("img") == -1:#通过检测img,只保留中文标题
            #item.replace('\n','')
            #item.strip()
            #item.splitlines()
            #re.sub('\r|\n', '', item)
            if topnum%26 !=0:
                #newNameList.append("Top " + str(topnum) + " " + item);
                newNameList.append(item);
            topnum += 1;
    return newNameList

  #通过正则表达式获取该网页下每本书的图片链接
def getImg(html):
    imgList = re.findall(r'img.*?width=.*?src="(http.*?)"',html,re.S)
    newImgList = []
    for index,item in enumerate(imgList):
        if item.find("js") == -1 and item.find("css") == -1 and item.find("dale") == -1 and item.find("icon") == -1 and item.find("png") == -1:
            newImgList.append(item);

return newImgList;

  
for page in range(0,450,25):
    url = "https://www.douban.com/doulist/1264675/?start={}".format(page)
    html = getHtml(url).decode("UTF-8");
    if html == '':
        namesUrl.extend('none');
        imgsUrl.extend('none')
        scoresUrl.extend('none')
        commentsUrl.extend('none')
        introductionsUrl.extend('none')
    else:
        namesUrl.extend(getTitle(html))
        imgsUrl.extend(getImg(html))
        scoresUrl.extend(getScore(html))
        commentsUrl.extend(getComment(html))
        introductionsUrl.extend(getDetail(html))

暂时完成以上的模块

遇到的问题:

1.通过观察爬取的结果,发现每一页都会多出一个内容(并不是我需要的数据,确符合正则表达式,所以通过简单的处理将其剔除掉)。这项有个小瑕疵:爬取的标题前后带着换行符,试了几种方法还是没去掉!!!

2.因为页面中符合条件的数据各式各样,所以需要将其中不是我们需要的剔除掉(判断条件有点暴力,暂时没想到更好的办法)

转载于:https://www.cnblogs.com/z-xx/p/7670133.html

团队-爬虫豆瓣top250项目-项目进度相关推荐

  1. 团队-爬虫豆瓣top250项目-模块开发过程

    项目托管平台地址:https://gitee.com/ningshuyoumeng/TuanDui-PaChongDouBantop250XiangMu-MoKuaiKaiFa 开发模块功能: 功获取 ...

  2. 《Forward团队-爬虫豆瓣top250项目-设计文档》

    队长博客:http://www.cnblogs.com/mazhuangmz/ 成员:马壮,李志宇,刘子轩,年光宇,邢云淇,张良 设计方案: 1.能分析HTML语言: 2.提取重要数据,并保存为文本文 ...

  3. Forward团队-爬虫豆瓣top250项目-模块开发过程

    项目托管平台地址:https://github.com/xyhcq/top250 开发模块功能: 写入文件功能 开发时间:3小时 实现将爬取到的信息写入到文件中的功能 实现过程: # 打开文件 f=o ...

  4. Forward团队-爬虫豆瓣top250项目-设计文档

    组长地址:http://www.cnblogs.com/mazhuangmz/p/7603594.html 成员:马壮,李志宇,刘子轩,年光宇,邢云淇,张良 设计方案: 1.能分析HTML语言: 2. ...

  5. 爬虫豆瓣top250项目-开发文档

    项目托管平台地址:https://github.com/gengwenhao/GetTop250.git 负责内容:1.使用python的request库先获取网页内容下来 2.再使用一个好用的lxm ...

  6. 爬虫-豆瓣top250,东方财富网动态数据

    ~满满干货分享 一.豆瓣top250爬取过程 (学习视频:Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析_哔哩哔哩_bilibili) 1.爬取网页 def askUR ...

  7. 爬虫豆瓣TOP250电影数据

    今天是开通博客的第一天 目的 记录 爬取豆瓣TOP250电影数据 目的 我写博客的目的很简单,主要是想记录一些自己学习python的历程,后期包括一些其他方面的学习,目前在看唐松老师写的<Pyt ...

  8. 爬虫——豆瓣top250电影爬取实验

    1.获取头部 我们首先需要去到目标网址豆瓣top250上,点开'检查'选项,获取头部信息,具体见下图: 我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法. 于是有以下代码: h ...

  9. 简单团队-爬虫豆瓣top250-项目总结

    代码托管平台: https://gitee.com/w789369/PaChong/blob/master/test.py 1. 豆瓣抓站流程 分析url特征 对需要抓取的数据设计正则表达式 处理HT ...

最新文章

  1. python php区别-JAVA、PHP、Python这3种编程语言有什么区别?
  2. 用webBrowser打开网页出现脚本错误怎么办
  3. await,async 我要把它翻个底朝天,这回你总该明白了吧
  4. 【UOJ549】序列妙妙值【异或】【根号分治】
  5. 编程面试题之——简答题(持续更新...)
  6. 【深度】从朴素贝叶斯到维特比算法:详解隐马尔科夫模型
  7. 双十一提前预热,这款耳机直降80元!
  8. shell脚本触发java程序支持传参补跑 +crontab定时器_02
  9. [ES6] 细化ES6之 -- 数组的扩展
  10. IAR环境中实现数据或函数的定位
  11. DPM灾难切换应用场景
  12. SQLAlchemy create_engine
  13. Pytorch——过拟合
  14. openCV中sobel边缘增强
  15. 一块蛋清皂,把毛孔洗得一干二净
  16. 如何提高服务器并发能力
  17. 项目开发过程中的管理规范
  18. Proteus电路图绘制与CubeMX生成框架下填充Keil 5代码的联调仿真
  19. 易语言魔兽世界怀旧服自动钓鱼源码
  20. SQL在MySQL中是如何执行的

热门文章

  1. python使用界面-python 可视化界面
  2. python运行非常慢的解决-python执行太慢
  3. python小程序-第一个python小程序——即时动态时钟(代码解读)
  4. python就业前景-Python就业前景分析
  5. python输出乘法口诀-【每日一练】python输出 9*9 乘法口诀表
  6. 怎么检查python是否安装成功-检查python以及django是否安装配置成功
  7. python是基于什么语言开发-2.python是什么编程语言。
  8. java和python哪个好就业2020-java和python哪个的前途更好?
  9. python软件下载免费还是收费-为什么python最强大的IDE是收费的PyCharm?
  10. python叫什么-什么叫Python运算符重载