随笔写一个简单的爬虫
目标:爬取damai网上即将上演的信息
1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import requests, re 5 from bs4 import BeautifulSoup 6 7 DOWNLOAD_URL = "http://www.damai.cn/bj/" 8 9 #获取url页面内容 10 def download_page(url): 11 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 12 'Chrome/51.0.2704.63 Safari/537.36'} 13 data = requests.get(url, headers = headers).content 14 return data 15 #解析html 16 def x_page(url): 17 soup = BeautifulSoup(url, 'html.parser') 18 li_lst = soup.find('div', class_='index-con').next_sibling.next_sibling.find_all('li') 19 titles = [i.find('dt').find('a').string for i in li_lst] 20 prices = map(lambda x: x.find('p',class_='price').find('strong').text if x.find('p',class_='price').find('strong') is not None else 'none',li_lst) 21 time = [i.find('p',class_='time').string for i in li_lst] 22 places = [i.find('p',class_='place').string for i in li_lst] 23 return titles,prices,time,places 24 25 if __name__ == '__main__': 26 url = download_page(DOWNLOAD_URL) 27 titles, prices, time, places = x_page(url) 28 info_lst = zip(titles,prices,time,places) 29 #写入文件 30 with open('damai.txt','w+') as f: 31 for j in info_lst: 32 f.write(' '.join(j)+'\r\n\r\n')
转载于:https://www.cnblogs.com/fuzzier/p/5929453.html
随笔写一个简单的爬虫相关推荐
- 用python写一个简单的爬虫保存在json文件中
学习python没多久,所以只能写一个很简单的爬虫啦~~ 我使用annacada 自带的spyder来写爬虫的,这次我们要爬取得网站是http://www.drugbank.ca/drugs, 主要是 ...
- 用python写一个简单的爬虫_Python实现简易Web爬虫详解
编辑推荐: 本文主要介绍了Python实现简易Web爬虫详解,希望对大家有帮助. 本文来自于脚本之家 ,由火龙果软件Alice编辑,推荐. 简介: 网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照 ...
- Python爬虫不会?戳一下,小编一步步教你写一个简单的爬虫
写在前面 网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序.众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容. 优先申明:我们使用的py ...
- 用python写一个简单的爬虫_用Python编写一个简单的爬虫
作者信息: Author : 黄志成(小黄) 博客地址: 博客 呐,这是一篇福利教程.为什么这么说呢.我们要爬取的内容是美图网站(嘿嘿,老司机都懂的) 废话不多说.开始今天的表演. 这个图集网站不要问 ...
- 写一个简单的爬虫来批量爬取新浪网的新闻
如标题,学习爬虫也有一段时间了,今天来爬取一下新浪网的新闻(其实之前自己爬过,但是隔了好久发现新浪网的网页结构有一些变化导致之前的爬虫失效了,这两天进行了一下代码更新),话不多说,进入正题. 工具:A ...
- python写一个简单的爬虫程序(爬取快手)(附源码)
快手是一个有意思的视频应用,但是它有一些视频不让下载,我们今天就用爬虫来实现爬取不让下载的视频: 首先右键点击检查,我们可以看见找到了视频的src,访问这个src就可以得到视频的下载网址,如下: 右键 ...
- 使用selenium写一个简单的爬虫登录邮箱
零.前言 selenium使用过程比较简单,完整代码在最后 一.安装selenium 参考:http://www.testclass.net/selenium_python/install-selen ...
- 写一个简单的爬虫 - 如何模拟登录网站
设置Developer Tools 以查看完整的登录过程 如 chrome 的 Developer Tools.firefox 的 httpfox 插件等 推荐 chrome 的 Developer ...
- 用python写一个简单的爬虫_用Python从零开始写一个简单爬虫
import requests from bs4 import BeautifulSoup url = "https://tieba.baidu.com/f?kw=王者荣耀&fr=h ...
最新文章
- golang 解析html
- ARM指令集、Thumb指令集、Thumb-2指令集
- linux命令--cp
- Exchange 2007 安裝(-)
- 随机生成1024个数,存入一段内存,用指针实现获取1024个数的最大数地址,最小数地址
- 开启真我新格调 期待绚丽的未知
- 用android做用户管理中心,Android 如何设计用户Session管理?
- (228)FPGA岗位有哪些?
- Broken Keyboard (a.k.a. Beiju Text) UVA - 11988 (链表)
- JWT实现Token认证
- 最小二乘法和极大似然估计
- 用计算机探索奥秘规律例题,计算器指法练习题.doc
- mac Axure下载并汉化
- IntelliJ IDEA For Mac 的破解方法
- 前端JSON转excel下载
- 如何进行邮件营销,邮件营销群发是否有效?
- 论文阅读《High-Definition Map Generation Technologies For Autonomous Driving: A Review》2
- SPDK/NVMe存储技术分析之用户态ibv_post_send()源码分析(一)
- python实现MACD策略背离点的判断
- 某程序员吐槽:刚过试用期就被辞退,理由竟是不转发朋友圈!
热门文章
- 前端就业怎么样?学习前端都有哪些优势?
- java hibernate 包_java – Hibernate映射包
- Linux添加rose不能交互式登录,常见问题及注意事项 - Linux下环境安装配置Rose HA全攻略(图)_数据库技术_Linux公社-Linux系统门户网站...
- mysql 忘记密码处理方式
- mysql数据库标识符大小写_SQL语法区分大小写吗?
- python 近期用到的基础知识汇总(八)
- Ubuntu环境搭建二:搭建samba服务器
- 吴恩达深度学习2.1练习_Improving Deep Neural Networks(Initialization_Regularization_Gradientchecking)
- C语言结构体内存布局问题
- Bzoj1034 [ZJOI2008]泡泡堂BNB