基于bert特征提取的FAQ问答系统构建

faq的问答系统是目前用的比较广泛的问答系统，由于它落地简单，并且大部分场景都需要，构建一个faq问答系统可以作为一个baseline快速应用到实际场景中。下面就介绍如何快速构建一个faq问答的baseline。

一、环境的搭建

faq的核心技术是信息检索，信息检索的常用工具则是es，es既可以对faq知识库存储，又可以快速查询文本。同时也有配套的可视化工具kibana，方便数据查询和管理。此外，es的社区也很活跃，文档和讨论的问题也方便使用。

elasticsearch+kibana安装

使用docker容器拉取镜像文件，注意elasticsearch和kibana的版本要一致，本人使用的版本均为7.8.1的版本。

启动容器，根据官网的教程启动docker容器，选用单个节点

docker run -p 9200:9200 -p 9300:9300 --name es7.8\
-e "discovery.type=single-node" \
-e ES_JAVA_OPS="-Xms512m -Xmx512m" \
-d elasticsearch:7.8.1

如果是中文检索，需要安装中文分词器，先到GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.上下载对应版本的ik分词器，然后进入容器解压到对应文件夹。

安装完es后再安装kibana

docker run --link es7.8.1:elasticsearch -p 5601:5601 -d kibana:7.8.1

二、python操作es

创建索引

es = Elasticsearch('http://127.0.0.1:9200')
base_info_index_mappings = {"settings":{"index.analysis.analyzer.default.type": "ik_max_word"},"mappings":{"properties": {"id": {"type": "keyword"},"standard_question": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"sim_question": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"answer": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"query_vector": {"type": "dense_vector","dims": 768},"update_date": {"type": "date","format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd"},"create_time": {"type": "date","format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd"},}}
}

批量插入数据

def insert_data(index_name, items, batch_size=100):'''批量插入数据到索引中:param index_name::param items::param batch_size::return:'''batch = []err_count = 0for i, columns in enumerate(items):[sim_question, std_question, answer, vector] = columnsid = uuid.uuid1()update_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')create_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')try:body = {'_index': index_name,'_source': {'id': id,'standard_question': std_question,'sim_question': sim_question,'answer': answer,'query_vector': vector,'update_time': update_time,'create_time': create_time}}except Exception as e:err_count += 1print(e)if len(batch)<batch_size:batch.append(body)cur_id = idelse:helpers.bulk(es, batch)print('总共有{}条数据，存储到第{}条数据'.format(len(batch), i))if len(batch)>0:helpers.bulk(es, batch)print('最终id是{}'.format(cur_id))print('err_count:{}'.format(err_count))return '插入数据完成'

其中的query_vector通过bert模型提前计算出768维向量并存入es的dense_vector格式数据字段中。关于bert向量计算可参考下部分代码

    def extract_vectors(self, model, text):'''抽取句子向量:param text::return:'''batch_token_ids, batch_segment_ids, batch_mask = [], [], []word_ids, segment_ids, word_mask = encode(text)batch_token_ids.append(word_ids)batch_segment_ids.append(segment_ids)batch_mask.append(word_mask)inputs = dict(input_word_ids=batch_token_ids,input_mask=batch_mask,input_type_ids=batch_segment_ids,)infer_input = {"input_word_ids": tf.convert_to_tensor(inputs['input_word_ids']),"input_mask": tf.convert_to_tensor(inputs['input_mask']),"input_type_ids": tf.convert_to_tensor(inputs['input_type_ids']),}outputs = model(infer_input)encoder_outputs = outputs[0]last_encoder = encoder_outputs[-1]mean_vecor = tf.reduce_mean(last_encoder[:, 1:len(text) + 1, :], axis=1)print(mean_vecor.shape)mean_vecor_norm = tf.norm(mean_vecor, ord=2, axis=0)mean_vecor = mean_vecor / mean_vecor_normprint(mean_vecor.numpy()[0].shape)return mean_vecor.numpy()[0].tolist()

三、查询

es可以计算向量的余弦相似度，通过向量检索的形式可以找出最相近的问题，检索代码如下：

script_query = {"script_score": {"query": {"match_all": {},},"script": {"source": "cosineSimilarity(params.query_vector, 'query_vector') + 1.0","params": {"query_vector": query_vector}}}
}
body = {"_source": ["standard_question", "sim_question", "answer"],"size": 5,"query": script_query,
}
res = search_data_by_body('faq_test_index', body)

其中query_vector为实时用bert抽取的查询文本向量。该方法速度很快，满足上线要求。

四、总结

以上就是一个faq问答系统的baseline，有一个比较重要的步骤是在之前就做好了，就是知识库的构建，需要某一业务场景的常用的faq问题及答案的总结。在baseline的基础上，后续可以不断丰富知识库，也可以通过精排、意图分类等方法提高查询的准确率。

基于bert特征提取的FAQ问答系统构建相关推荐

基于深度学习的FAQ问答系统
| 导语问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库.知识图谱或问答知识库返回简洁.准确的匹配答案.相较于搜索引擎,问答系统能更好地理解用户提问的真 ...
基于Bert的知识库智能问答系统
项目完整地址:https://github.com/1105425455/Bert/tree/master 有训练好的模型可以先看一下Bert的介绍. Bert简单介绍一.系统流程介绍. 知识库是 ...
基于BERT的数据库的问答系统
目录一. 知识图谱的介绍 1. 知识库与三元组 2. 知识库问答 3. 知识库问答的主流方法 4. 基于深度学习的KQ问答二. 本项目介绍 1. 项目数据集 2. 处理数据集 2.1 构造命名实体 ...
基于bert的语义匹配_构建基于BERT的语义搜索系统…针对“星际迷航”
基于bert的语义匹配 If you read my previous article on Towards Data Science you'll know I'm a bit of a Star ...
百度开源 FAQ 问答系统—AnyQ【使用语义匹配技术 SimNet】
近年来,随着人工智能技术的发展,人机对话技术得到越来越多的关注,人机对话产品也不断涌现.其中,智能客服作为人机对话的一个典型场景表现出极大的商业潜力和很强的研究价值,各企业也争先恐后的推出自己的智能客 ...
基于深度学习的FAQ检索式问答系统
问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库.知识图谱或问答知识库返回简洁.准确的匹配答案.相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, ...
基于Bert论文构建Question-Answering模型
摘要本文拜读了提出 Bert 模型的论文,考虑了在 Bert 中算法模型的实现.比较了 Bert 与其他如 Transformer.GPT 等热门 NLP 模型.BERT 在概念上很简单,在经验上也 ...
基于文本语义的智能问答系统以及数据格式应用
基于文本语义的智能问答系统以及数据格式应用 NLP: 基于文本语义的智能问答系统应用场景: 智能语音交互,在线客服,知识获取,情感类聊天等常见的分类:生成型,检索型问答系统: 单论问答,多轮问答系 ...
NLP: 基于文本语义的智能问答系统
向AI转型的程序员都关注了这个号???????????? 人工智能大数据与深度学习公众号:datayx 问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛 ...

基于bert特征提取的FAQ问答系统构建

基于bert特征提取的FAQ问答系统构建相关推荐

最新文章

热门文章