基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点
创始人
2024-03-31 20:34:23
0

摘要

古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。

0 引言

中华文明源远流长,流传下很多古籍文本,涵盖了政治、历史、哲学、文学、医学等多方面内容。通过对古籍文本进行整理和学习,现代人能够了解并学习古人的智慧,更加准确地认识历史。中文古籍文本一般不添加标点符号[1]。韩愈在《师说》中云

相关内容

热门资讯

韩媒:韩检方对尹锡悦、金建希等... 中新网12月29日电 据韩国媒体报道,负责调查韩国前第一夫人金建希案件的特检组29日发布最终调查结果...
着力健全有利于“长钱长投“的制... 12月29日,A 股三大指数开盘后涨跌互现,沪指强势向上,冲击9连阳。截至10:23,A500ETF...
政策性农业保险的角色演变与制度... 本文字数:4989字 阅读时间:10分钟 作者简介:马彪,首都经济贸易大学金融学院副教授。 文章来...
推动楼市政策精准落地丨社评 明年着力稳定房地产市场的大政方针已定,抓好落实是关键。刚刚召开的全国住房城乡建设工作会议,重点列出了...
Adobe 因使用 SlimP... AIPress.com.cn报道 12月29日消息,作为全球创意软件巨头,Adobe 正面临其首起重...
伟星新材:竞争优势明显 保持积... 12月28日,伟星新材(002372)发布公告,伟星新材(002372)于2025年12月25日召开...
健全数据制度 释放乘数效应——... 来源:经济日报 党的二十届四中全会审议通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建...
海关出口退税律师张严锋:套用其... 2018年3月2日,B稽查局对A公司涉税事项进行检查。经检查,B稽查局认为A公司涉嫌通过套用他人出口...
哈尔滨权威刑事律师服务推荐:谷... 在哈尔滨,当人们遭遇刑事法律问题时,往往会困惑于刑事律师服务哪家权威刑事律师推荐哪些刑事辩护律师哪个...
原创 《... 2025年12月26日,《晋中市平遥牛肉保护和发展条例》新闻发布会在晋中举行。该条例经山西省人大常委...