近年来,生成式人工智能的快速发展为社会生产力注入强劲动能,并在司法等专业领域展现出巨大潜力。但随着技术的深度运用,伴生出数据伪造、信息失真等问题,不仅干扰正常的司法秩序,更对司法公信力造成潜在影响,亟须引起重视。经分析,主要存在以下原因:
一是信息质量良莠不齐。生成式人工智能大模型训练大都采用网络期刊、百科知识等互联网数据资料,数据源的具体内容和真实性未完全经过确认。尤其法律领域,同一词语在不同语境中的含义千差万别,而人工智能受限于法律术语解读上的技术瓶颈、专业知识与生活常识的“鸿沟”,难以精确把握专业术语的表述边界,在信息的筛选和输出环节失误率高,极容易误导非专业人员形成错误法律认识。
二是原生技术显存缺陷。生成式人工智能的数据加工是在没有人工监督的互联网应用环境中进行,缺乏专业领域知识图谱支撑,在通过海量数据训练进行概率统计预测形成文本的过程中,会创造性地填补看似合理却存在事实偏差的细节,并为其提供虚假的依据,或在检索过程中,优先使用已过时淘汰的数据资料,输出不合时宜的回答,形成“AI幻觉”。一旦AI加工的虚假信息与数据源交织,形成恶性循环,运用至实务中,后果不可预料。
三是技术信赖盲目过度。生成式人工智能拥有超越个体知识储备、逻辑推演能力的海量数据和卓越算力,在医学、法学等高门槛的专业领域也能侃侃而谈,具备创造性、拟人性的特点。相较于法官,以大数据大模型为支撑,且具有较低使用门槛的人工智能更易俘获用户信任,高估其智力。一旦其输出的错误内容误导群众,法官需要付出更多时间去纠错释法。
对此,笔者提出如下建议:
一是建立数据审核机制。利用爬虫工具定向抓取法律条文、司法案例、学术论文等司法专业领域数据资料,组织法律专家和数据团队对数据进行审阅筛查,剔除错误、过时的法律信息和废除的法律法规,同时更新最新颁布实施的法律法规,确保训练数据的权威性和真实性。
二是优化模型训练方式。通过将法律结构化知识嵌入模型,构建法律知识图谱,再采用对抗性训练的技术手段,提升生成式人工智能对无用和错误信息的敏感度,从而提高生成式人工智能输出内容的准确性。
三是探索专业场景模型。针对法律、医疗等低容错率领域开发“严谨模式”,强制人工智能模型在检索时优先引用最新法律法规和权威资料并标注来源。同时对生成内容中AI预测补充的部分运用下划线或者颜色标注说明,善尽提醒责任。
上一篇:相亲闪婚引纠纷 耐心调解化矛盾