让AI帮你工作(2)-如何阅读pdf论文
这个系列快结束了,后面会有一到两篇文章介绍,如何用AI实实在在的应用在工业生产研发,如何指导化工分子合成,如何做DNA的研究预测,合成。
背景
最近chatpdf在各媒体传的风风火火,从效果上是很震撼的。原因大概分析有三:
1.pdf在大家印象中是一种保存性文档,很不容易做二次数据处理
2.可以对pdf中内容做问答,还可以顺带做翻译,做长文章的摘要观点生成
3.可以找到某个观点出现在哪
但其实如果是做nlp的同学又稍微熟悉办公自动化的同学,应该知道上面几点都不难。
1.pdf其实是可以想word一样的方便操作的。
2.文章摘要有难度,但是chatgpt对知识整理能力是可以的,调api就好
3.把自动化能力+chatgpt做个整合就可以实现
复现
python如何读取pdf
用python读取并处理pdf文件,把文件保存成csv,按文本内容、行、页数。用PyPDF2抽取pdf数据,把每行内容、页数、行数用pandas存成cvs,具体操作如下,结果如右。
代码如下:
import PyPDF2
import pandas as pd# 打开PDF文件
with open('大模型综述-李飞飞等.pdf', 'rb') as pdf_file:# 创建PdfFileReader对象pdf_reader = PyPDF2.PdfReader(pdf_file)# 获取PDF文件的总页数num_pages = len(pdf_reader.pages)# 创建空列表存储数据data = []# 循环遍历每一页PDF文件for page in range(num_pages):# 获取页面对象pdf_page = pdf_reader.pages[page] #pdf_reader.getPage(page)# 提取页面文本内容text = pdf_page.extract_text()# 分割文本内容为行lines = text.split('\n')#data.append([line, page+1] + columns)# 循环遍历每一行文本i = 0for line in lines:i = i+1# 分割行为列#columns = line.split(',')# 添加行、页码和列到数据列表中data.append([line, page+1, i])# 将数据列表转换为Pandas DataFrame对象
df = pd.DataFrame(data, columns=['text', 'page'] + [f'col_{i}' for i in range(len(data[0])-2)])# 将DataFrame对象保存为CSV文件
df.to_csv('example.csv', index=False)
pdf信息如何送给chatgpt
如何抽取摘要
将论文输入到ChatGPT中,让模型生成摘要。可以使用以下代码将论文输入到ChatGPT中,并让模型生成摘要:
#每次prompt有限制,可以分批输入,要抽取的好,有些拼接技巧,各位看官自己动动脑动动手试试
import openai
openai.api_key = "你的apitoken"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "Please generate a summary of the given article: {}\n\n ARTICLE TEXT HERE".format(' '.join(df['text'][0:200]))}]
)
效果如下:
如何提问找到原文
代码如下:
import openai
openai.api_key = "你的api token"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "Please analyze the given article {article} and list the key {key} topics discussed: \n\n ARTICLE TEXT HERE".format(article =' '.join(df['text'][0:200]),key = 'where ia content?')}]
)
效果如下:
行号和页数,因为我没把前面处理好存在csv里的数据带上,所以没显示,这个各位看官可以自己动试试效果,不难。
如何翻译
import openai
openai.api_key = "你的api token"
openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"},{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},{"role": "user", "content": "把输入的英文{article} 翻译成中文 : \n\n ARTICLE TEXT HERE".format(article =' '.join(df['text'][0:20]))}]
)
结果如下:
utf-8转成中文
让AI帮你工作(2)-如何阅读pdf论文相关推荐
- AI帮你解读基因检测结果?任重道远,未来可期
AI帮你解读基因检测结果?任重道远,未来可期 依赖于测序技术的发展,越来越多的基因检测产品应用于临床诊疗,可以辅助临床医生进行生育相关遗传病诊断.肿瘤精准诊疗与早期预防和感染病因查找等.但是,测序结果 ...
- 苏宁回应股权质押给淘宝;日本政府用 AI 帮民众找对象;魅族回应 “暗中给手机植入木马” | EA周报...
EA周报 2020年12月11日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 周报看点 1.阿里云发布冷链食品追溯系统解决方案,食品用上"电子身份证&qu ...
- 万丈高楼平地起 AI帮你做自己
AI的自我介绍 AI是人工智能(Artificial Intelligence)的英文缩写,是一种通过计算机技术模拟和延伸人类智能的技术和应用.AI可以被看作是一种智能化的计算机程序或系统,它能够自动 ...
- AI一分钟 | 苹果在自动驾驶领域苦追谷歌,测试车增至27辆;比尔盖茨:AI代替人类工作是件好事
一分钟AI 微软董事长比尔·盖茨表示:AI代替人类工作对世界的影响是积极的 金融家乔治·索罗斯抨击Facebook和谷歌:已成为创新的绊脚石,应严格监管 苹果在自动驾驶领域苦苦追赶谷歌脚步:测试车数量 ...
- 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)
谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...
- copilot 让AI帮你编程(人工智能自动完成)
copilot 让AI帮你编程(人工智能自动完成) 官方地址 前不久,GitHub和OpenAI联合为程序员们送上了编程神器--GitHub Copilot. 但是,Copilot目前不提供公开使用, ...
- 【AI生产力工具】ChatPDF:将 PDF 文档转化为交互式阅读体验的利器
文章目录 简介 一.ChatPDF 是什么? 二.ChatPDF 的优势 三.ChatPDF 的应用场景 四.如何使用 ChatPDF? 五.结语 简介 随着数字化时代的发展,PDF 文件已经成为了日 ...
- 聊聊找AI算法岗工作
聊聊找AI算法岗工作 https://mp.weixin.qq.com/s/OUSwYzjcJD2ARhHDkqWhJw 首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗位的 ...
- AI设计小能手:选个颜色让AI帮你生成logo
文章来源:ATYUN AI平台 生成对抗网络(GAN)已被用于发现新药物,创建令人信服的汉堡和蝴蝶照片,并产生脑癌的合成扫描.而荷兰马斯特里赫特大学(Maastricht University)发表的 ...
最新文章
- 每周一荐: Google Dictionary,The Polar Express
- 总结一些通用的处理方法
- 脚本示例 (Reporting Services)Microsoft Visual Basic .NET
- 在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境
- linux+平均磁盘请求数量_Linux 查看磁盘IO并找出占用IO读写很高的进程
- 【PMP学习笔记】:二、项目运行环境
- 有了IDEA中的这款插件,流程图、类图轻松搞定,简直神器!
- mysql dml原理_InnoSQL/MySQL DML Flashback功能简介
- ps命令,性能监控,grep命令
- t470键盘拆解_Thinkpad 二手T470笔记本拆解|支持双硬盘|拆机教程
- 【浏览器强制360网页导航】360导航被强制设成首页如何取消?
- 数学建模暑期集训24:机器学习与Classification Learner工具箱实操
- luoguP4188 [USACO18JAN]Lifeguards S
- 地图附近名片流量主小程序开发
- JSP基本语法、3个编译指令、7个动作指令、9个内置对象
- shell脚本一键安装jdk(三台)
- JAVA_反射机制(照镜子)
- python使用matplotlib可视化、自定义设置X轴刻度标签字体的大小( setting axis ticks size in matplotlib x axis)
- java quartz下载_下载、设置和运行Quartz(GUI)图形界面程序----Quartz Web
- n!的任意质因数的个数