很零碎的知识点,有的是踩过的坑,不成系统,但是绝对很有用,知道的可以回顾下,不太了解的可以多学习下

1、Python连接MySQL加编码

记得加charset,没加的话部署Linux服务器运行可能有中文乱码,已踩坑

2、最好用utf8mb4

很多时候我会用sqlalchemy创建连接数据库引擎,charset用的utf8mb4,原因在于爬取的文本中有表情,utf8不行,同时,数据库、表,编码也都要保持一致

3、好用的网页解析库PyQuery

from pyquery import PyQuery as py

觉得好用的原因:

1、语法类似JQuery,好记

2、可以增删改查html元素,然后下载网页,这点xpath就比较弱了,下面是我最近用到的一些方法,其他方法可以网上查查

# 爬虫下载网页each_res = requests.get(url).content.decode("utf-8")

# 转为pyquery文档doc = py(each_res)

# 支持Class选择器,remove用来删除元素doc(".site-navbar ul")("li").remove()

# 支持ID选择器doc("#search-form").remove()

# 获取属性href的值doc(".pagemenu")("li:first-child")("a").attr["href"]

# 设置属性href的值doc(".pagemenu")("li:first-child")("a").attr("href", "./")

# 遍历对象images_src = doc("img")for img in images_src:  if py(img).attr["src"]:   print(py(img).attr["src"])

# 添加元素doc("head").append('\n')

# 清空后在添加doc(".page-right .item").empty().append("")

# 完美匹配jquery的eq()选择方法doc(".article-content")("div:last-child").eq(-1).remove()

# 大招来了,可以将上面增删改查的文档,直接写入html文件,就下载好网页了res = doc.outer_html().encode("utf-8")with open("index.html", "wb") as f:# 写文件用bytes而不是str,所以要转码   f.write(res)

4、Linux配置python3环境、pip软链接

下方分别为解压安装,配软连接,注意配python3和pip的时候,与/usr/bin下面的原本的python2和pip命名区分,一般情况下别去动python2的软链接,会导致centos包管理工具yum命令出问题

ln -s /usr/local/py365/bin/python3.6 /usr/bin/python3 ln -s /usr/local/py365/bin/pip3 /usr/bin/pip3

5、网站地图、robots协议

robots.txt可以告诉搜索引擎网站哪些数据能爬,如果你想利于网站排名,尽量少disallow,sitemap.xml网站地图则是直接提交让搜索引擎增加收录,这两个文件/路径一般配在网站根目录下,可以直接写到nginx加两个路径指向就行了,主要用来优化网站,利于各加搜索引擎抓取网站信息,增加收录和网站排名

location /sitemap.xml {   alias /var/www/chengxuyuan_12_10/sitemap.xml;}location /robots.txt {   alias /var/www/chengxuyuan_12_10/robots.txt;}

6、Django orm查询values

比如下方,我在查询时候只需要文章的id和title数据,则直接values查这两个字段就行,这样可以提高查询效率

Article.objects.values("id","title")

Q对象进行逻辑查询,也很常用

filter(Q(is_delete=0)&(Q(title__contains=a)|Q(title__contains=b)))

7、直接将一个字典保存mysql(键和列名一致)

dic = {"title": title, "time": arttime, "auth": auth, "con": con}df = pd.DataFrame.from_dict(dic, orient='index').Tconn = get_local_engine("centos_test")df.to_sql("这里是表名", conn, if_exists='append', index=False)

get_local_engine是我定义的一个获取engine的方法

def get_local_engine(dbname):db_flag = "mysql"host_ip = "127.0.0.1" host_port = 3306db_instance = dbnameuser = "root"pawd = "*************" charset = "utf8"engine_config = '%s%s%s%s%s%s%s%s%s%s%s' % ('mysql+pymysql://', user, ':', pawd, '@', host_ip, ':', host_port, '/', db_instance, '?charset=utf8')engine = create_engine(engine_config, encoding=charset, max_overflow=10)return engine

8、django admin站点引入富文本编辑器Kindeditor

1、kindeditor安装包直接放在项目static下面

2、在admin.py中加入这段js

3、kindeditor中config.js改成原本admin文本域的id,如下方截图圈到的

class Media:# 在管理后台的HTML文件中加入js文件, 每一个路径都会追加STATIC_URL/ js = (    'kindeditor/kindeditor-all.js',    'kindeditor/lang.zh_CN.js',    'kindeditor/config.js', )

编辑器效果图

python爬虫人工智能大数据公众号

linux python wps doc 转 txt_耗时一周尝试踩坑,整理了一些Python实用知识点相关推荐

  1. 耗时一周尝试踩坑,整理了一些Python实用知识点!

    去年底北大保安"神仙打架"的新闻,让本来就火得一塌糊涂的Python又上了把热搜. 资料来源 @北大官微 不过,最吸引我的不是这条微博本身,而是一条"学会Python,可 ...

  2. Python兼职搞副业,月入10K+不踩坑

    " 当下什么编程语言最靠谱或者比较适合搞副业?" -- 答案肯定是:Python " 人生苦短,我用Python ",Python 能大受欢迎,就是因为它可能是 ...

  3. Tensorrt踩坑日志—YOLOv5使用python的Tensorrt依赖包直接加速

    1.用python版的tensrrt实现 1.1安装依赖包 需要注意的是这个方法只在linux环境下可行 pip install -U nvidia-tensorrt --index-url http ...

  4. python每周小测验答案_python第一周小测验答案Centos下更新Python版本

    Centos下更新Python版本,有需要的朋友可以参考下. 注意:更新python千万不要把老版本的删除!新老版本是可以共存的,很多基本的命令.软件包都要依赖预装的老版本python的,比如yum. ...

  5. Linux阿里云服务器Tomact从部署到放弃(踩坑系列)

    最近在学后台,想一想应该在自己服务器做点什么,然后就去部署这个tomcat试试水! 不就是部署个tomcat吗,分分钟的事,然后就... 弄了我2小时(一直在踩坑),可能是因为我菜吧 1.首先在Lin ...

  6. cmd 系统找不到指定路径的问题(Python编程从入门到实践1.5.1踩坑)

    对于系统找不到指定路径的问题 大同小异 啊 我是一名Python初学者 在学习Python编程从入门到实践(第二版) 1.5.1在Windows系统中从终端运行Python程序 遇到了这种问题 我是按 ...

  7. g++ linux 编译开栈_方舟编译器编译hello world踩坑全记录

    闲来无事,看到方舟编译器完整开源,于是打算拿来试着编译一个东西来,接下来把踩过的一些坑记录一下. 参考文档 方舟编译器的官网是 OpenArkCompiler​www.openarkcompiler. ...

  8. 2021(接近2022)linux(ubuntu16.04)安装cuda跑深度学习步骤以及踩坑过程(ELF标头无效、导入torch后torch.cuda.is_available()为False等等)

    ------------------------------------------------更新分界线----------------------------------------------- ...

  9. python交互式程序设计导论答案第五周_学堂在线_计算机科学与Python编程导论_章节测试答案...

    学堂在线_计算机科学与Python编程导论_章节测试答案 更多相关问题 素描的三种表现形式是:(). 运行下列程序:Private Sub form_Click()For i = 1 To 2x = ...

最新文章

  1. 【Java】监听jframe窗口大小改变函数:addComponentListener
  2. BufferedInputStream与BufferedOutputStream用法简介
  3. Linux下的权限掩码umask,Linux下的权限掩码umask
  4. AGG第二课 代码框架以及命名规则
  5. 计算机系统结构结构相关实验报告,计算机系统结构实验报告(中南民族大学).doc...
  6. 识别产品外观的合格软件_你还在犹豫?外观检测设备使用已成主流!
  7. MySQL数据库(九) 一一 处理重复和SQL注入
  8. 腾讯看点多维实时分析系统架构大曝光!
  9. Cesium:显示一个3D地球
  10. mmdetection学习之anchor_generator
  11. 如何区分虚拟网卡和物理网卡
  12. Vue.js使用Blob的方式实现excel表格的下载(流文件下载)
  13. UG曲面造型——手机壳
  14. 读刘润《底层逻辑》摘录
  15. 实验十 学生成绩管理(二进制文件读写)byHNU信息院2020小毕
  16. 全球名校AI课程库(2)| 吴恩达 · 机器学习专项课程『Machine Learning』
  17. 计算机设备管理主要内容,计算机设备管理方案范本.doc
  18. 音视频开发 文章列表
  19. u8、u16、u32分别是什么
  20. 如何解决Chrome首页被流氓网站劫持的问题

热门文章

  1. 微信公众平台开发—利用OAuth2.0获取微信用户基本信息
  2. 转:[Asp.net]常见数据导入Excel,Excel数据导入数据库解决方案,总有一款适合你!...
  3. 再Repeater模板中,如何获取里面的控件 客户端ID ??
  4. JavaScript计算两个文本框内数据的乘积(四舍五入保留两位小数)
  5. 不要为框架作过多的假设
  6. B+Tree索引为什么可以支持千万级别数据量的查找——讲讲mysql索引的底层数据结构
  7. 反思应对焦虑:尽人事 听天命
  8. Wechat的支付逻辑流程
  9. BCrypt加密怎么存入数据库_第6天 密码加密与微服务鉴权JWT(下)
  10. php自定义表单怎么导入excel,织梦dedeCMS将自定义表单数据导入到excel文档实现方法...