随着互联网技术的快速发展,智能问答系统在各行各业得到了广泛的应用, 例如智能客服、智能语音助手等领域,但是现存于市面上的智能问答系统对于中文古诗词领域的应用与研究却很匮乏。随着“坚持文化自信”这一目标的提出,古诗词作为具有鲜明中国传统文化特色更是受到越来越多关注,人们对中文古诗词这一文化瑰宝的学习越来越热爱。古诗词问答系统是互联网时代的产物,通过网络技术实现了一对一提问与答题模式,在该系统中实现人机交互的方式进行古诗词知识的问答,从而提高其对历史文化和传统知识了解程度以及学习效率;同时还能提供一些具有特定主题的问题供读者们自己阅读查找答案。在参考国内外相关研究结果基础上结合自己的思路设计一套基于Neo4j图数据库的古代诗词答题系统设计方案,该方案主要以Python语言为工具编写而成。
1.1 研究背景
随着互联网的高速发展,网络信息量的不断增加,各种搜索引擎已经成为了人们获取知识和学习资源最常用、最快捷有效方式。在这种环境下我们需要的是更加方便快捷地搜索自己所需要的系统来进行答题服务,同时还应该能够满足用户对检索结果查询需求等方面的要求,这就为信息时代提供了巨大契机和广阔前景。而现在的网络信息时代,人们对搜索引擎更加依赖,同时也提出了更高要求。因此在这种环境下需要一个便捷高效、快速准确查询结果以及能实时更新数据的工具。[1]本文所提出的基于Neo4j图数据库系统是一个非常好的解决方案,它可以有效地解决上述问题。
1.2 研究目的及内容
本文的主要研究目的是将传统文本问答系统中存在的问题进行信息化,以提高古诗词信息检索效率,并为广大用户提供一个方便快捷、高效便捷且等优点。本文主要内容是从基于互联网技术发展背景下提出了一种互联网+古诗词平台来解决古诗词答题模式滞后现状。[2]该体系利用图数据库实现数据共享以及文本内容分析与查询功能,通过对现有的文献资料进行整合分类及整理,设计出一种基于图数据库的古诗词问答系统,实现对网络上各种信息资源进行有效整合,帮助用户快速了解古诗词相关知识。
3 古诗词问答系统结构设计
3.1 网络爬虫
随着工业互联网的飞速发展,互联网已经成为许多信息的载体。如何有效地提取和利用这些信息已经成为一个巨大的挑战。为了解决这些问题,网络爬虫技术应运而生。网络爬虫可以根据一定的规则自动或半自动地对互联网上的各种数据进行爬取。[3]根据系统结构和实现技术,网络爬虫大致可以分为两类:通用网络爬虫和聚焦网络爬虫。在本系统中使用的是聚焦网络爬虫,使用lxml模块对古诗文网的相关诗词进行爬取,lxml使用的是 Xpath 语法,相比于BeautifulSoup是效率比较高的解析方法。
3.2 古诗词问答系统总体架构
(1)数据采集和预处理:通过Chrome的开发者工具查看“古诗文网”的网页结构,利用 Python 脚本获取网站中所需要信息,然后将爬取的数据以提前设置的属性字段存入excel表格。(2)知识图谱构建:本系统知识图谱构建采用自底向上的设计方式,对 excel表格数据进行实体、关系以及属性信息提取,根据获取的信息构建古诗词知识图谱,同时将内容保存到 Neo4j 图数据库中,可以便捷的查看医药知识图谱,有利于更好的查询和分析。(3)问答系统构建过程:将问答系统的构建作为研究的重点,基于语义分析和模板匹配相结合的方式构建古诗词问答系统。