中文 English

您当前所在位置:首页 > 新闻资讯

新闻资讯

新闻|“智慧审判技术装备”课程第四讲——《法律文本语义计算》

时间:2019-07-05

2019年7月2日下午16:00,“智慧审判技术装备”课程第四讲在四川大学江安校区综合楼B座308教室正式行课。本次课程由四川大学数学学院翁洋副教授主讲,围绕《法律文本语义计算》这一主题,分别从数据思维、语言模型、语义计算等三个方面进行讲解


blob.png

      翁洋副教授用简单的语言解释了什么是法律文本语义计算,即把文本语义模型化,通过建模的原理,用模型来描述法言法语。

数据思维

      首先,什么是数据思维?翁洋副教授从大家喜爱并熟悉的足球明星的球场数据切入,运用统计图,展示了数据的可视化,让同学们感受到数据的意义和魅力。通过大量形象的举例分析,同学们能够感受到数据是客观的,数据驱动已经成时代必要需求。


blob.png

      

      其次,如何从海量的大数据中抽取、挖掘所需要的信息呢?在大量裁判文书里蕴含的信息如何提取?哪些信息是对司法审判有意义的?为了回答这些问题,翁洋副教授通过两个简单生动的案例给同学们介绍了一个规则:极大似然原理。这是一个概率问题,也就是说在结果固定的情况下,根据概率大小,推测最可能导致其发生的原因。运用这个原理必须了解清楚其中三个要素:结果、概率、需要推断的目标。因此,在数据太少的情况下会发生样本偏移,很难准确估算。信息时代大数据的重要性不言而喻。

语言模

      语言模型,简而言之就是指用数学方法描述法律文本。建立语言模型的最终目标是想要估算每一个语言单元(词或句子)出现的概率,并且利用上下文的关系,建构简单的语言模型。

      语言模型可以分为统计语言模型和神经语言模型。翁洋副教授讲解到,现在常用的是神经语言模型(Neuron)。该模型的核心是要构建神经网络,例如在日常生活中,输入光信号,刺激大脑神经元,输出大脑图像。同样,也可以通过量化像素点,产生数值。在已经完成图像变成数字的情况下,关键在于能否解决把语言变成数字的问题。

blob.png


翁洋副教授解释说,通过已知词项,依据神经语言模型,通过极大似然原理,预测未知词项。也就是通过语料的整理训练,计算语料里词语出现的概率,这样就可以通过已经出现的词语,上下文之间的顺序,估测最可能出现的未知的词句。

语义计算

语义计算指的是通过向量计算,让机器理解语言之间的相关性。例如,如果法院认定事实部分可以让机器读懂,那么人工智能便可以自动解析裁判文书,这将极大提高司法效率。想要实现这一巨大突破,必须要学会把法言法语通过结构化图谱形式表达。但法官在表达时具有多样性,语言、语态识别也是需要解决的难点。翁洋副教授分别从标注系统、实体识别、关系抽取等三个方面重点讲解了如何构建案情知识图谱。

案情知识图谱分析的信息主要可以分为基于规则的方法的类结构化信息文本和基于深度学习的方法的非结构化案情文本。图谱化是指把文字语义变成图的结构,主要利用语言模型、把关系向量化来实现。案情知识图谱将会在语义检索、类案精准推送等方面发挥着关键的作用,助推智慧审判和智慧法院建设。

 

blob.png


      在课程的最后,翁洋副教授畅谈人工智能的发展历程。人工智能前三十年的研究重点在于数理逻辑和推理;但在这个过程中发现人的推理大于机器,机器的计算和存储大于人,人是演绎的逻辑,而机器是归纳的逻辑。最后翁洋副教授给同学们提出了启发性的问题:给机器赋予功能的背后,机器是否能形成人的思考?人工智能离真正的智能还有多远的距离?

      整场课程在同学们关于人工智能未来发展的思考中结束。

      更多精彩内容,敬请期待!“智慧审判技术装备”课程已采用同步录像,视频稍后整理后公开。欢迎大家分享学习!