PatViewer专利搜索
中国 发明 在审

【中文】一种用于法律文本信息挖掘的集成学习方法及系统
【EN】A kind of integrated learning approach and system for Law Text information excavating

申请(专利)号:CN201811511621.0国省代码:山东 37
申请(专利权)人:【中文】济南浪潮高新科技投资发展有限公司【EN】Ji'nan wave high and New Technology Investment Development Co., Ltd.
温馨提示:Ctrl+D 请注意收藏,详细著录项请首页检索查看。 Please note the collection. For details, please search the home page.

摘要:
【中文】本发明公开一种用于法律文本信息挖掘的集成学习方法,涉及信息挖掘和集成学习技术领域,通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确度更高。另外,本发明还公开一种用于法律文本信息挖掘的集成学习系统。
【EN】Paragraph:The present invention discloses a kind of integrated learning approach for Law Text information excavating, it is related to information excavating and integrated learning art field, extraction by carrying out different characteristic to pretreated Law Text constructs corresponding Feature Engineering model, the text vector obtained using Linear SVM classifier study different characteristic engineering model, and the Linear SVM classifier after study predicts pretreated Law Text, pass through Stacking method integration prediction result, training simultaneously simultaneously constructs integrated study model, for the more comprehensive and accurate higher prediction result of degree of Law Text to be processed output.This method can preferably integrate existing information, it is found that the association of context in information reduces extensive error so as to form stronger non-linear division ability, compared to the prediction of single model, accuracy is higher in the prediction of the contents such as charge, law article, prison term.In addition, invention additionally discloses a kind of integrated leaming systems for Law Text information excavating.

主权项:
【中文】1.一种用于法律文本信息挖掘的集成学习方法,其特征在于,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。【EN】1. a kind of integrated learning approach for Law Text information excavating, which is characterized in that firstly, collecting specialty legal work The processed Law Text of personnel pre-processes data source as data source, secondly, obtaining for pre-processed results training Different Feature Engineering models, the text vector that Linear SVM classifier study different characteristic engineering model obtains, then, linearly SVM classifier predicts pretreated data source according to learning outcome, by Stacking method integration prediction result, Prediction result is used for the training of integrated study model, the integrated study model that training is completed to be exported for Law Text to be processed The more comprehensive and accurate higher prediction result of degree.


相似专利
说明书

一种用于法律文本信息挖掘的集成学习方法及系统

技术领域

本发明涉及信息挖掘和集成学习技术领域,具体的说是一种用于法律文本信息挖

掘的集成学习方法及系统。

背景技术

机器学习领域中,集成学习本身不是一个单独的机器学习算法,它是通过构建多

个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的

选择和形式及将弱分类器组合为一个强分类器的方式。

集成学习有Adaboost,Bagging等著名的同源集成方法,即通过对多个同类、同质

的模型取平均、取多数票或多次训练取不同权重等方式进行集成学习。另外,还有Stacking

的异源集成学习。它将训练集分为几个部分,分别使用不同的基分类器进行训练和预测。这

些基分类器可以基于完全不同的思路和方法,具有更高的选择灵活性和结果差异性。然后

将这几个基分类器的预测结果建立特征,并输入下一层分类器进行学习。下一层分类器将

基分类器生成结果的组合模式作为特征进行进一步学习,从而获得更加泛化的学习能力。

该层的预测结果即视为最终结果。

Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征,

比起相互独立的预测模型,能够增强非线性的表述能力,降低泛化误差,提高预测准确度。

理论上,Stacking中的组合模型可以使用各种分类和回归模型。

大数据和互联网的应用给传统的各行各业都开拓了新的思路,在法学研究和法律

应用方面,法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据

相关的信息捕捉、管理、处理中,有助于提高数据处理的效率,将数据的价值充分的利用和

体现出来。

具体到司法和法律领域中,使用机器学习和数据挖掘旨在赋予机器理解和学习法

律文本并进行分析和判断的能力,以此来完成罪名预测、法条推荐、刑期或罚金预测等有实

际应用需求的任务中,有望辅助法官律师等相关人士高效的进行法律判决。全国各地每天

产生的法律文书是一个很好的数据挖掘和机器学习的数据源。法律文书往往有着规范的格

式、简洁的语言、清晰的逻辑、和明确的判决,经过处理之后辅以自然语言处理的技术,可以

用于机器学习和数据挖掘的领域中,做到如判定罪名或推荐法条,预测刑期等常见任务中。

在传统的机器学习中,通常只训练一个模型,通过选择合适的模型、调整参数和对

数据的处理来提高预测的准确度。但在实际的判决中,案件的侧重点各有不同,要考虑多种

因素;且各个因素间往往存在一定的上下文联系。因此,只通过单个模型往往很难具备广泛

的适用性,准确度也会受到影响。

发明内容

本发明针对目前技术发展的需求和不足之处,提供一种用于法律文本信息挖掘的

集成学习方法及系统。

本发明的一种用于法律文本信息挖掘的集成学习方法,解决上述技术问题采用的

技术方案如下:

一种用于法律文本信息挖掘的集成学习方法,首先,收集专业法律工作人员处理

过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特

征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器

根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结

果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面

和准确度更高的预测结果。

具体的,所涉及对数据源进行预处理的操作包括:采用jieba或thulac工具构建词

库,对数据源的法律文本进行分词和去除停用词处理。

具体的,利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立

分词词库和停用词词库。

具体的,将数据源的法律文本均分成三份,使用10-fold cross validation,然后

对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程

模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。当然,数据源的法律文本不

一定非得均分成三份,还可以均分成四份、五份、甚至更过分,同样的,还可以使用ELMo、

FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、

GloVe特征工程模型、WordRank特征工程模型。将数据源的法律文本均分成三份只是技术人

员的一个常规选择。

具体的,所涉及集成学习模型选用Logistic regression,Stacking方法将线性

SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行

Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输

入Logistic regression时,Logistic regression即可直接输出预测结果。

基于上述一种用于法律文本信息挖掘的集成学习方法,本发明还公开一种用于法

律文本信息挖掘的集成学习系统,其结构包括:

收集模块,用于收集专业法律工作人员处理过的法律文本作为数据源;

预处理模块,用于对数据源中的法律文本进行预处理;

特征提取模块,用于提取数据源中所有法律文本具有的不同特征;

训练构建模块,根据提取的不同特征训练并构建不同的特征工程模型;

线性SVM分类器模块,用于学习不同特征工程模型得出的文本向量,并根据学习结

果对预处理后的数据源进行预测;

集成模块,用于通过Stacking方法集成线性SVM分类器模块的预测结果;

学习训练模块,用于学习预测结果并根据预测结果训练集成学习模型;

集成学习模型,用于对待处理法律文本进行更加全面和准确度更高的预测。

可选的,所涉及预处理模块采用jieba或thulac工具,具体用于数据源的法律文本

进行分词和去除停用词处理。

可选的,所涉及集成学习系统还包括:

均分模块,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自然

数,使用10-fold cross validation,对N等份法律文本分别使用N个不同的特征工程模型

进行训练。

优选的,所涉及N为3,均分模块使用10-fold cross validation,然后对三份法律

文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、

Word2Vec特征工程模型、CountVectorizer特征工程模型。

可选的,所涉及集成学习模型选用Logistic regression,集成模块通过Stacking

方法将线性SVM分类器模块的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic

regression进行Logistic regression的训练,Logistic regression训练完成后,再有待

处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结

果。

本发明的一种用于法律文本信息挖掘的集成学习方法及系统,与现有技术相比具

有的有益效果是:

1)本发明的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建

相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学

习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,

同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测

结果;本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性

划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确

度更高。

2)本发明的集成学习系统通过收集模块收集专业法律人员处理的法律文本,通过

预处理模块对收集的法律文本进行预处理,通过特征提取模块、训练构建模块、线性SVM分

类器模块、集成模块、学习训练模块、集成学习模型依次完成特征提取、训练、预测、集合预

测结果、学习、再训练、再预测的过程,与集成学习方法相结合,都能更好的综合已有的信

息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,提高预测

准确度。

附图说明

附图1是本发明实施例一的流程框图;

附图2是本发明实施例二的连接框图。

附图中各标号信息表示:

1、收集模块,2、预处理模块,3、特征提取模块,

4、训练构建模块,5、线性SVM分类器模块,6、集成模块,

7、学习训练模块,8、集成学习模型,9、均分模块。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具

体实施例,对本发明的技术方案进行清查、完整的描述,显然,所描述的实施例仅仅是本发

明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做

出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。

实施例一:

结合附图1,本实施例提出一种用于法律文本信息挖掘的集成学习方法,首先,收

集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处

理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本

向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方

法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待

处理法律文本输出更加全面和准确度更高的预测结果。

所涉及对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数

据源的法律文本进行分词和去除停用词处理。在预处理操作过程中,我们可以利用现有开

源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。

通常,我们将数据源的法律文本均分成三份,使用10-fold cross validation,然

后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工

程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。在本实施例中需要补充

一点,将数据源的法律文本均分成三份只是技术人员的一个常规选择。数据源的法律文本

还可以均分成四份、五份、甚至更过分,同样的,还可以使用ELMo、FastText、GloVe、

WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、

WordRank特征工程模型。

在本实施例中,集成学习模型选用Logistic regression,Stacking方法将线性

SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行

Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输

入Logistic regression时,Logistic regression即可直接输出预测结果。

本实施例的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建

相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学

习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,

同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测

结果;本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性

划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确

度更高。

实施例二:

结合附图2,本实施例提出一种用于法律文本信息挖掘的集成学习系统,其结构包

括:

收集模块1,用于收集专业法律工作人员处理过的法律文本作为数据源;

预处理模块2,用于对数据源中的法律文本进行预处理;

特征提取模块3,用于提取数据源中所有法律文本具有的不同特征;

训练构建模块4,根据提取的不同特征训练并构建不同的特征工程模型;

线性SVM分类器模块5,用于学习不同特征工程模型得出的文本向量,并根据学习

结果对预处理后的数据源进行预测;

集成模块6,用于通过Stacking方法集成线性SVM分类器模块的预测结果;

学习训练模块7,用于学习预测结果并根据预测结果训练集成学习模型;

集成学习模型8,用于对待处理法律文本进行更加全面和准确度更高的预测。

在本实施例中,所涉及预处理模块2采用jieba或thulac工具,具体用于数据源的

法律文本进行分词和去除停用词处理。

在本实施例中,所涉及集成学习系统还包括:

均分模块9,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自

然数,使用10-fold cross validation,对N等份法律文本分别使用N个不同的特征工程模

型进行训练。

在本实施例中,所涉及N为3,均分模块9使用10-fold cross validation,然后对

三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模

型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

在本实施例中,所涉及集成学习模型8选用Logistic regression,集成模块6通过

Stacking方法将线性SVM分类器模块5的预测结果保存为三维向量矩阵,三维向量矩阵输入

Logistic regression进行Logistic regression的训练,Logistic regression训练完成

后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输

出预测结果。

本实施例的集成学习系统通过收集模块1收集专业法律人员处理的法律文本,通

过预处理模块2对收集的法律文本进行预处理,通过特征提取模块3、训练构建模块4、线性

SVM分类器模块5、集成模块6、学习训练模块7、集成学习模型8依次完成特征提取、训练、预

测、集合预测结果、学习、再训练、再预测的过程,与实施例一的集成学习方法相结合,都能

更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低

泛化误差,提高预测准确度。

图1
©2018 IPPH.cn   PatViewer·专利搜索
主办单位:知识产权出版社有限责任公司  咨询热线:01082000860-8588
浏览器:IE9及以上、火狐等  京ICP备09007110号 京公网安备 11010802026659号