这个系列快结束了,后面会有一到两篇文章介绍,如何用AI实实在在的应用在工业生产研发,如何指导化工分子合成,如何做DNA的研究预测,合成。

背景

最近chatpdf在各媒体传的风风火火,从效果上是很震撼的。原因大概分析有三:

1.pdf在大家印象中是一种保存性文档,很不容易做二次数据处理

2.可以对pdf中内容做问答,还可以顺带做翻译,做长文章的摘要观点生成

3.可以找到某个观点出现在哪

但其实如果是做nlp的同学又稍微熟悉办公自动化的同学,应该知道上面几点都不难。

1.pdf其实是可以想word一样的方便操作的。

2.文章摘要有难度,但是chatgpt对知识整理能力是可以的,调api就好

3.把自动化能力+chatgpt做个整合就可以实现

复现

python如何读取pdf

用python读取并处理pdf文件,把文件保存成csv,按文本内容、行、页数。用PyPDF2抽取pdf数据,把每行内容、页数、行数用pandas存成cvs,具体操作如下,结果如右。

代码如下:

import PyPDF2
import pandas as pd# 打开PDF文件
with open('大模型综述-李飞飞等.pdf', 'rb') as pdf_file:# 创建PdfFileReader对象pdf_reader = PyPDF2.PdfReader(pdf_file)# 获取PDF文件的总页数num_pages = len(pdf_reader.pages)# 创建空列表存储数据data = []# 循环遍历每一页PDF文件for page in range(num_pages):# 获取页面对象pdf_page = pdf_reader.pages[page]  #pdf_reader.getPage(page)# 提取页面文本内容text = pdf_page.extract_text()# 分割文本内容为行lines = text.split('\n')#data.append([line, page+1] + columns)# 循环遍历每一行文本i = 0for line in lines:i = i+1# 分割行为列#columns = line.split(',')# 添加行、页码和列到数据列表中data.append([line, page+1, i])# 将数据列表转换为Pandas DataFrame对象
df = pd.DataFrame(data, columns=['text', 'page'] + [f'col_{i}' for i in range(len(data[0])-2)])# 将DataFrame对象保存为CSV文件
df.to_csv('example.csv', index=False)

pdf信息如何送给chatgpt

如何抽取摘要

将论文输入到ChatGPT中,让模型生成摘要。可以使用以下代码将论文输入到ChatGPT中,并让模型生成摘要:

#每次prompt有限制,可以分批输入,要抽取的好,有些拼接技巧,各位看官自己动动脑动动手试试
import openai
openai.api_key = "你的apitoken"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "Please generate a summary of the given article: {}\n\n ARTICLE TEXT HERE".format(' '.join(df['text'][0:200]))}]
)

效果如下:

如何提问找到原文

代码如下:

import openai
openai.api_key = "你的api token"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "Please analyze the given article {article} and list the key {key} topics discussed: \n\n ARTICLE TEXT HERE".format(article =' '.join(df['text'][0:200]),key = 'where ia content?')}]
)

效果如下:

行号和页数,因为我没把前面处理好存在csv里的数据带上,所以没显示,这个各位看官可以自己动试试效果,不难。

如何翻译
import openai
openai.api_key = "你的api token"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "把输入的英文{article} 翻译成中文 : \n\n ARTICLE TEXT HERE".format(article =' '.join(df['text'][0:20]))}]
)

结果如下:

utf-8转成中文

让AI帮你工作(2)-如何阅读pdf论文相关推荐

  1. AI帮你解读基因检测结果?任重道远,未来可期

    AI帮你解读基因检测结果?任重道远,未来可期 依赖于测序技术的发展,越来越多的基因检测产品应用于临床诊疗,可以辅助临床医生进行生育相关遗传病诊断.肿瘤精准诊疗与早期预防和感染病因查找等.但是,测序结果 ...

  2. 苏宁回应股权质押给淘宝;日本政府用 AI 帮民众找对象;魅族回应 “暗中给手机植入木马” | EA周报...

    EA周报 2020年12月11日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 周报看点 1.阿里云发布冷链食品追溯系统解决方案,食品用上"电子身份证&qu ...

  3. 万丈高楼平地起 AI帮你做自己

    AI的自我介绍 AI是人工智能(Artificial Intelligence)的英文缩写,是一种通过计算机技术模拟和延伸人类智能的技术和应用.AI可以被看作是一种智能化的计算机程序或系统,它能够自动 ...

  4. AI一分钟 | 苹果在自动驾驶领域苦追谷歌,测试车增至27辆;比尔盖茨:AI代替人类工作是件好事

    一分钟AI 微软董事长比尔·盖茨表示:AI代替人类工作对世界的影响是积极的 金融家乔治·索罗斯抨击Facebook和谷歌:已成为创新的绊脚石,应严格监管 苹果在自动驾驶领域苦苦追赶谷歌脚步:测试车数量 ...

  5. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

  6. copilot 让AI帮你编程(人工智能自动完成)

    copilot 让AI帮你编程(人工智能自动完成) 官方地址 前不久,GitHub和OpenAI联合为程序员们送上了编程神器--GitHub Copilot. 但是,Copilot目前不提供公开使用, ...

  7. 【AI生产力工具】ChatPDF:将 PDF 文档转化为交互式阅读体验的利器

    文章目录 简介 一.ChatPDF 是什么? 二.ChatPDF 的优势 三.ChatPDF 的应用场景 四.如何使用 ChatPDF? 五.结语 简介 随着数字化时代的发展,PDF 文件已经成为了日 ...

  8. 聊聊找AI算法岗工作

    聊聊找AI算法岗工作 https://mp.weixin.qq.com/s/OUSwYzjcJD2ARhHDkqWhJw 首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗位的 ...

  9. AI设计小能手:选个颜色让AI帮你生成logo

    文章来源:ATYUN AI平台 生成对抗网络(GAN)已被用于发现新药物,创建令人信服的汉堡和蝴蝶照片,并产生脑癌的合成扫描.而荷兰马斯特里赫特大学(Maastricht University)发表的 ...

最新文章

  1. 每周一荐: Google Dictionary,The Polar Express
  2. 总结一些通用的处理方法
  3. 脚本示例 (Reporting Services)Microsoft Visual Basic .NET
  4. 在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境
  5. linux+平均磁盘请求数量_Linux 查看磁盘IO并找出占用IO读写很高的进程
  6. 【PMP学习笔记】:二、项目运行环境
  7. 有了IDEA中的这款插件,流程图、类图轻松搞定,简直神器!
  8. mysql dml原理_InnoSQL/MySQL DML Flashback功能简介
  9. ps命令,性能监控,grep命令
  10. t470键盘拆解_Thinkpad 二手T470笔记本拆解|支持双硬盘|拆机教程
  11. 【浏览器强制360网页导航】360导航被强制设成首页如何取消?
  12. 数学建模暑期集训24:机器学习与Classification Learner工具箱实操
  13. luoguP4188 [USACO18JAN]Lifeguards S
  14. 地图附近名片流量主小程序开发
  15. JSP基本语法、3个编译指令、7个动作指令、9个内置对象
  16. shell脚本一键安装jdk(三台)
  17. JAVA_反射机制(照镜子)
  18. python使用matplotlib可视化、自定义设置X轴刻度标签字体的大小( setting axis ticks size in matplotlib x axis)
  19. java quartz下载_下载、设置和运行Quartz(GUI)图形界面程序----Quartz Web
  20. n!的任意质因数的个数

热门文章

  1. scipy 插值重采样
  2. MATLAB程序设计之循环结构入门详解
  3. 计算机网卡接口类型,无线上网卡接口有哪些类型 无线上网卡接口类型介绍【详解】...
  4. 关于电脑自带的微软拼音输入法变成繁体的操作方法
  5. aida64使用方法_最基础!AIDA64怎么用?AIDA64使用教程
  6. vue中如何去掉空格
  7. 神经网络训练的一般步骤,神经网络是怎么训练的
  8. 求介绍一款实用的工作任务管理软件,具有进度管理、自动提醒等功能
  9. eclipse如何汉化,把eclipse改成中文版
  10. 【无标题】中国电信5G技术大规模天线技术