python爬虫运行不出结果_请问这个为什么就是爬不到,运行之后电脑卡的不行,求大佬指导...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
import requests
from multiprocessing import Pool
import re
import json
from requests.exceptions import ConnectionError
def get_to_html(url):
try:
headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
response = requests.get(url,headers=headers)
# print(response)
if response.status_code ==200:
return response.content.decode("utf-8")
return None
except ConnectionError:
return None
def parse_index(html):
pattern = re.compile('
.*?board-index.*?>#(\d+).*?.*?data-src="(.*?)".*?name">(.*?)'
+'.*?start">(.*?)
releasetime">(.*?).*?integer">(.*?).*?fracion">(.*?).*?',re.S)
items=re.findall(pattern,html)
for item in items:
yield {
"index":item[0],
"image":item[1],
"name":item[2],
"actor":item[3].strip()[3:],
"releasetime":item[4].strip()[5:],
"count":item[5]+item[6]
}
def write_to_file(content):
with open("maoyan.txt","a") as f:
content = json.dumps(content,ensure_ascii=False)+'\n'
f.write(content,encoding ="utf-8")
def main():
url="https://maoyan.com/board/4"
html=get_to_html(url)
items=parse_index(html)
for item in items:
write_to_file(item)
if __name__ =="__main__":
# pool=Pool()
# pool.map(main)
main()
python爬虫运行不出结果_请问这个为什么就是爬不到,运行之后电脑卡的不行,求大佬指导...相关推荐
- python爬虫动态加载页面_如何爬动态加载的页面?ajax爬虫你有必要掌握
通过前面几期Python爬虫的文章,不少童鞋已经可以随心所欲的爬取自己想要的数据,就算是一些页面很难分析,也可以用之前介绍的终极技能之「Selenium」+「Webdriver」解决相关问题,但无奈这 ...
- 零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
- Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称 这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询 这一个案例体现的点主要是xpat ...
- 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
- 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
- python爬虫面试自我介绍范文_走过路过不容错过,Python爬虫面试总结
Python爬虫面试总结 1. 写一个邮箱地址的正则表达式?[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈一谈你对 ...
- python爬虫软件安装不了_为编写网络爬虫程序安装Pytho
一. 下载Python3.5.1安装包 1.进入python官网,点击menu->downloads,网址:Download Python 2. 根据系统选择32位还是64位,这里下载的可执行e ...
- python爬虫实验报告怎么写_[Python]新手写爬虫全过程(转)
今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x.数据存放?这个是一个练手的玩具,就写在tx ...
- python爬虫需要调用什么模块_适合新手练习的Python项目有哪些?Python爬虫用什么框架比较好?...
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. Python爬虫一般用什么框架比较好?一般来讲,只有在遇到比较大型的需求时 ...
最新文章
- 图像低频高频区域分离 小波变换
- java万法_Java内省机制和 BeanUtils实现
- MySQL高级最左前缀法则
- [算法][算法复杂度]常用算法复杂度速查表
- 如何:通过现有代码创建 C++ 项目
- 你家的饮水机,到底可以有多脏?
- java em算法_python em算法的实现
- 2.13.JavaScript--条件语句
- QQ炫舞新上线紫钻Lv9和皇冠贵族Lv11 QQ炫舞紫钻9级图标上线
- eclipse导入项目jsp页面报错完美解决
- UBUNTU——启动栏图标问号?异常
- ESXI VM快照删除卡在99%
- PDF怎么编辑?如何设置页面?
- 车载通信——CAN收发器选型(低功耗)
- html5实现窗帘,纯 CSS3 实现的窗帘菜单 Accordion
- R语言中quantmod金融分析包的实践
- 妄想山海采矿/自动精灵
- EPICGAMES-导入游戏,只能导入本就是EPIC中下载的游戏,用于EPIC不识别的情况
- 金字塔原理--第一篇读后感(第三章)
- android原型图工具下载,xiaopiu原型工具