PatViewer专利搜索
中国 发明 在审

【中文】一种基于朴素贝叶斯分类算法的电脑文件分类处理方法
【EN】Method for classifying computer files based on Naive Bayes Classifier algorithm

申请(专利)号:CN201610188308.2国省代码:广东 44
申请(专利权)人:【中文】国云科技股份有限公司【EN】G-Cloud Technology Co., Ltd.
温馨提示:Ctrl+D 请注意收藏,详细著录项请登录检索查看。 Please note the collection. For details, please search the home page.

摘要:
【中文】本发明涉及一种基于朴素贝叶斯分类算法的电脑文件分类处理方法。本发明用户首先创建完成自己的分类样本库,并且进行训练,配置相关阀值及其他相关参数;然后,选择文件分类类型,执行文件分类操作,实现文件分类;所述的分类包含简单文件分类和深度文件分类;简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理;深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的分类处理;由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特定特征属性及训练样本数据进行分类运算,文件分类处理器根据运算结果再将文件归类处理。本发明解决了电脑指定目录下的文件进行分类处理;可以用于文件的分类处理上。【EN】Paragraph:The invention relates to a method for classifying computer files based on the Naive Bayes Classifier algorithm. The method comprises the following steps: firstly, a user constructing a classifying sample database of his/her own and performing training, configuring relevant threshold values and other relevant parameters; then, selecting a file classification type, executing file classification operation to realize file classification; the classification including simple file classification and deep file classification; simple file classification mainly referring to classification in accordance to file name and file classification; deep file classification referring to conducting deep analysis classification in accordance to file contents on the basis of simple file classification; conducting classification calculation by a file classification analyzer which is based on the Naive Bayes Classifier algorithm in accordance to file name, file content specified feature attributes and training sample data, the file classification analyzer classifying files in accordance to operation results. According to the invention, the method classifies files under a designated content in a computer and can be applied to classification of the files.

主权项:
【中文】一种基于朴素贝叶斯分类算法的电脑文件分类处理方法,其特征在于:用户首先创建完成自己的分类样本库,并且进行训练;训练之后,配置相关阀值及其他相关参数;然后,选择文件分类类型,执行文件分类操作,实现智能文件分类;所述的分类包含简单文件分类和深度文件分类两种分类方式;简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理;深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的分类处理;由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特定特征属性及训练样本数据进行分类运算,文件分类处理器根据运算结果再将文件归类处理。【EN】1. a computer document classification processing method based on Naive Bayes Classification Algorithm, it is characterised in that: First user has created the classification samples storehouse of oneself, and is trained;After training, configure related valves Value and other relevant parameters;Then, select document classification type, perform document classification operation, it is achieved intelligence Document classification;


相似专利
【中文】临床试验文档管理系统及管理方法【EN】Clinical test document file management system and management method
【中文】移动终端多文件分类处理方法、移动终端及存储介质【EN】Mobile terminal multifile sorting processing method, mobile terminal and storage medium
【中文】一种文件分类方法和装置【EN】A kind of file classifying method and device
【中文】文本层叠分类器训练方法、分类方法、装置及计算机设备【EN】Classifier training method, classification method, device and computer equipment is laminated in text
【中文】一种文件分类、调用的方法及装置【EN】A kind of document classification, the method and device called
【中文】一种文件管理方法、系统及云平台【EN】File management method and system and cloud platform
【中文】一种文件分类批量上传的方法及系统【EN】The method and system that a kind of document classification batch uploads
【中文】一种数据类型自动化识别方法【EN】Automatic data type recognition method
【中文】文件分类方法、装置、计算设备及计算机存储介质【EN】File classifying method, device, computing device and computer-readable storage medium
【中文】大数据知识挖掘及精准跟踪方法与系统【EN】Big data knowledge excavation and accurate tracking and system
【中文】一种基于贝叶斯网络的缺陷数据自动文摘分类方法【EN】A kind of defective data automatic abstract sorting technique based on Bayesian network
【中文】一种基于新闻文本信息的多级分类系统及方法【EN】A kind of multiclass classification system and method based on newsletter archive information
【中文】一种便携式学习机及其资源检索方法【EN】Portable learning machine and resource retrieval method thereof
【中文】文件分类保存的方法、装置及终端【EN】File classification storage method and apparatus and terminal
【中文】一种知识产权分类管理系统【EN】A kind of intellectual property classification managing system
【中文】基于应用感知的重复数据删除存储系统中的数据重构方法【EN】Data reconstruction method in the data de-duplication storage system perceived based on application
【中文】桌面清理方法、装置、终端设备【EN】Desktop method for cleaning, device, terminal device
【中文】一种基于朴素贝叶斯分类算法的电脑文件分类处理方法【EN】Method for classifying computer files based on Naive Bayes Classifier algorithm
【中文】文件分类装置及方法【EN】File classification apparatus and method
【中文】一种改进朴素贝叶斯算法的安卓恶意程序检测方法【EN】A kind of Android malware detection methods improving NB Algorithm
说明书

一种基于朴素贝叶斯分类算法的电脑文件分类处理方法

技术领域

本发明涉及文件处理技术领域,具体涉及一种基于朴素贝叶斯分类算法的

电脑文件分类处理方法。

背景技术

目前,随着人类科技的飞速发展,计算机的使用也越来越广泛,人们的日

常生活也越来越离不开计算机。而在计算机的使用的过程中又会不断产生各类

文件资源或者文件垃圾,如果不对它们进行分类处理,用户很难清楚自己电脑

上的文件资源情况,也很不方便用户查找到自己想要的文件。因而快速、便捷、

智能、准确的帮助计算机用户对自己电脑文件进行分类也变得非常重要。

发明内容

本发明解决的技术问题在于提供一种基于朴素贝叶斯分类算法的电脑文

件分类处理方法;实现对电脑指定目录下的文件进行分类处理。

本发明解决上述技术问题的技术方案是:

用户首先创建完成自己的分类样本库,并且进行训练;训练之后,配置相

关阀值及其他相关参数;然后,选择文件分类类型,执行文件分类操作,实现

智能文件分类;

所述的分类包含简单文件分类和深度文件分类两种分类方式;

简单文件分类主要是根据文件名、文件类型这两个属性进行分类处理;

深度文件分类是在简单文件分类的基础上再根据文件内容进行深度分析的

分类处理;由基于贝叶斯分类算法的文件分类分析器根据文件名、文件内容特

定特征属性及训练样本数据进行分类运算,文件分类处理器根据运算结果再将

文件归类处理。

所述的文件分类分析器是对经过训练后的样本数据集,提取过滤需分类文

件目录下的文件名、文件内容文件属性,并创建hash表数据集,贝叶斯算法运

算器根据词句分割过滤器统计出来的词频、字频,及用户设定好的阀值,进行

分类运算处理;

所述的词句分割过滤器主要是一种根据已有字典对文本数据集进行词句分

割处理后建立相应hash表数据集并对词频、字频进行统计的中间件。

所述的样本库的训练是样本数据集经过词句分割器进行词句分割处理。

所述的方法涉及桌面UI端、文件分类分析器、词句分割过滤器、样本库等

部分;文件分类分析器核心部分是贝叶斯分类算法运算器;

用户通过程序端提供的桌面UI端,输入或者选择分类类型、源文件目录、

目标文件目录、阀值等相关参数值,选择自定义分类样本库或程序端默认的样

本库,点击分类操作按钮,开始执行文件分类操作;后端启动分类运算,并根

据分类结果智能将文件移到归类文件夹下,并将文件归类结果显示出来;用户

只需在目标文件目录下的相应归类文件夹下查找即可;

用户如需对文本文件进行更细致多样的文件分类,则首先自制分类样本库,

并对样本数据集进行训练操作。

常用的文本文件两种类型适用简单文件分类和深度文件分类,常用的图像、

视频、音频文件等非文本文件只能进行简单文件分类。

通过本发明的方法,用户可根据文件类型、文件名属性进行从源文件目录

到目标文件目录的简单文件分类处理,也可以对常用文本类型文件(如:txt、

word、excel、pdf格式文件)根据文件内容、名字、类型进行从源文件目录到

目标文件目录的深度文件分类处理。通过此方法用户不需要再花太多时间去查

找或者整理自己电脑上的文件资源,也不需要担心对自己计算机上文件资源的

情况不明晰而导致资源的浪费或者丢失。用户只需要定时用此方法提供的电脑

文件分类处理技术定时对电脑进行分类处理,便可以快速、便捷、智能、准确

的实现从源文件目录到目标文件目录的分类处理。

附图说明

下面结合附图对本发明进一步说明:

图1为实现本发明方法的整体流程图;

图2为朴素贝叶斯分类的原理与流程。

具体实施方式

本发明涉及的基于贝叶斯分类算法的电脑文件分类处理方法,此方法提供

对应的程序端,用户通过程序端提供的桌面UI端,输入或者选择相关参数值,

如分类类型、源文件目录、目标文件目录,阀值等,选择自定义分类样本库(可

不选,程序端存在默认样本库),点击分类操作按钮程序便开始执行文件分类操

作。用户如需对文本文件进行更细致多样的文件分类,还需首先自制分类样本

库,并对样本数据集进行训练操作。文件分类类型包括简单分类和深度分类两

种,常用的文本文件两种类型均适用,常用非文本文件(如,图像、视频、音

频文件等)只能进行简单分类,也就是只能根据文件名、文件类型等属性进行

分类。

该方法对应的程序主要由:桌面UI、文件分类分析器、词句分割过滤器、

样本库等部分构成,而文件分类分析器核心部分是贝叶斯分类算法运算器。用

户通过桌面UI端将参数传至程序后端,后端启动分类运算,并根据分类结果智

能将文件移到归类文件夹下,且会将文件归类结果显示出来,用户只需在目标

文件目录下的相应归类文件夹下查找即可。

整体流程如图1所示,其主要特征如下:

词句分割过滤器扫描源文件目录、样本库文件特征属性,如文件名、文件

类型、文件内容等,输出统计、检索出的词频、字频及相应数据集hash表,分

类分析器根据词句分割过滤器输出内容进行朴素贝叶斯分类运算,最后根据运

算结果将文件进行分类处理并移动至目标文件目录。

图2是本发明涉及的朴素贝叶斯分类的原理与流程。

朴素贝叶斯分类的正式定义如下:

1、设x={a1,a2,…,am}为一个待分类项,而每个a为x的一个特征

属性。

2、有类别集合C={y1,y2,…,yn}。

3、计算P(y1|x),P(y2|x),…,P(yn|x)。

4、如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},则x∈yk

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以

这么做:

1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

P(a1|y1),P(a2|y1),…,P(am|y1);P(a1|y2),P(a2|y2),…,P(am|y2);…;P(a1|yn),P(a2|yn),…,P(am|yn)


3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推

导:

<p><mrow> <p><mi>p</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>|</mo> <p><mi>x</mi> <p><mo>)</mo> <p></mrow> <p><mo>=</mo> <p><mfrac> <p><mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><mi>x</mi> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p></mrow> <p><mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><mi>x</mi> <p><mo>)</mo> <p></mrow> <p></mrow> <p></mfrac> <p></mrow> <p>


因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。

又因为各特征属性是条件独立的,所以有:

<p><mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><mi>x</mi> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mo>=</mo> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>a</mi> <p><mn>1</mn> <p></msub> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>a</mi> <p><mn>2</mn> <p></msub> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mn>...</mn> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>a</mi> <p><mi>m</mi> <p></msub> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><mo>=</mo> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</mo> <p></mrow> <p><munderover> <p><mo>&Pi;</mo> <p><mrow> <p><mi>j</mi> <p><mo>=</mo> <p><mn>1</mn> <p></mrow> <p><mi>m</mi> <p></munderover> <p><mi>P</mi> <p><mrow> <p><mo>(</mo> <p><msub> <p><mi>a</mi> <p><mi>j</mi> <p></msub> <p><mo>|</mo> <p><msub> <p><mi>y</mi> <p><mi>i</mi> <p></msub> <p><mo>)</m>...<br/><br/>=>>详细说明书全文请<style="color:red;">登录检索查看</style> </P> </div> <div class="col-md-3 imgbox" id="ftright"> <figure id="f0001" num="0001" figure-labels="图1"><a class="fancybox" rel="group"><img class="img-thumbnail img-responsive" src="http://www.patviewer.com:80//common/tu/normal.jpg" img-format="tif" /></a></figure><div style="text-align:center">图1</div> </div> </div> </div> </div> <!--tabsend--> </div> <!--底部展示--> <div style="height: 30px;"></div> <div class="container" style="font-size: 12px; color: #666666;"> <div class="row-fluid text-center"> ©2018 IPPH.cn&nbsp;&nbsp; PatViewer·专利搜索<br>主办单位:国家知识产权局知识产权出版社&nbsp;&nbsp;咨询热线:01082000860-8588<br> 浏览器:IE9及以上、火狐等&nbsp;&nbsp;京ICP备09007110号 <img src="image/gongan.png"> 京公网安备 11010802026659号<br> <br> </div> </div> <div style="height: 60px;"></div> </body> </html> <div class="hidden"> <script language="javascript" type="text/javascript" src="//js.users.51.la/19141689.js"></script> </div> <script type="text/javascript"> $(document).ready(function(){ $.ajax({ url:'findlook/GetRightsServlet', dataType:'json', type:'post', data:{ }, success:function(data){ if((data["an"].indexOf("data:image")>-1)&&data["an"].length<70){ $("#an1").html(""); }else{ $("#an1").html(data["an"]); } if((data["ad"].indexOf("data:image")>-1)&&data["ad"].length<70){ $("#ad1").html(""); }else{ $("#ad1").html(data["ad"]); } if((data["pnm"].indexOf("data:image")>-1)&&data["pnm"].length<70){ $("#pnm1").html(""); }else{ $("#pnm1").html(data["pnm"]); } if((data["pd"].indexOf("data:image")>-1)&&data["pd"].length<70){ $("#pd1").html(""); }else{ $("#pd1").html(data["pd"]); } if((data["pic"].indexOf("data:image")>-1)&&data["pic"].length<70){ $("#pic1").html(""); }else{ $("#pic1").html(data["pic"]); } if((data["co"].indexOf("data:image")>-1)&&data["co"].length<70){ $("#co1").html(""); }else{ $("#co1").html(data["co"]); } if((data["sic"].indexOf("data:image")>-1)&&data["sic"].length<70){ $("#sic1").html(""); }else{ $("#sic1").html(data["sic"]); } //setTimeout("remsess()","60000"); } }); }); function remsess(){ $.ajax({ url:'findlook/Removesess', type:'post', data:{ }, success:function(data){ } }); } function translate0(){ $("body").mask("正在翻译,请稍候..."); $.ajax({ type : "GET", url : "translate.do?timeStamp=" + new Date(), contentType : "application/json;charset=UTF-8", success : function(jsonresult) { var _arr = jsonresult.split("\\n"); if(_arr.length==1){ if($("#ti").html()!=''&&_arr[0]!=''){ $("#patent_name_en_0").html("译文:"+_arr[0]); }else if($("#ti").html()==''&&$("#ab").html()!=''&&_arr[0]!=''){ $("#patent_name_en_1").html("译文:\r\n"+_arr[0]); } }else if(_arr.length==2){ $("#patent_name_en_0").html("译文:"+_arr[0]); $("#patent_name_en_1").html("译文:\r\n"+_arr[1]); } $("body").unmask(); } }) } String.prototype.replaceAll = function(s1, s2) { return this.replace(new RegExp(s1, "gm"), s2); } function getPicURL() { } var sRoot = "http://www.patviewer.com:80/"; var tifServerURL = "http://pic.cnipr.com:8080/"; function MoveTo1(pageIndex) { document.detailSearchForm.action = "http://www.patviewer.com:80/detailSearch.do?method=detailSearch"; document.detailSearchForm.strSources.value = ""; document.detailSearchForm.target = "_self"; document.detailSearchForm.index.value = pageIndex - 1; document.detailSearchForm.submit(); } function MoveTo(pageIndex) { if (pageIndex > 5000000) { showexp("下一条已超过第500万条专利"); return; } $("#detailSearchForm #strWhere").val("##" + escape("null")); $("#detailSearchForm #strSources").val(""); $("#detailSearchForm #index").val(pageIndex - 1); $("#detailSearchForm").attr("target", "_self"); $("#detailSearchForm").attr("action", "http://www.patviewer.com:80/detailSearch.do"); $("#detailSearchForm").submit(); } function Download() { //document.downloadOrPrint.patentList.value = 'CN200720100225.X'; //0:Excel文件 //1:专利数据文件 var chrAdminMemo=$("#chrAdminMemo").val(); if(chrAdminMemo==0){ alert("无此权限"); return; } var an=$("#an").val(); var basepath=$("#basepath").val(); document.downloadOrPrint.patentList.value = an; var strDownFileType = 0; document.downloadOrPrint.downtype.value = strDownFileType; document.downloadOrPrint.downloadcol.value = "申请(专利)号,名称,主分类号,分类号,申请(专利权)人,发明(设计)人,公开(公告)日,公开(公告)号,专利代理机构,代理人,申请日,地址,摘要,国省代码"; document.downloadOrPrint.action = basepath+"/downloadAbstract.do"; document.downloadOrPrint.submit(); } function downloadPDF() { var tifInfos = $("#pdfurl").val(); var urll=$("#basepath").val(); //$("body").mask("正在生成下载文件,请稍候..."); $.ajax({ url : urll+'/createPDFZip.do', type : 'POST', data : { 'tifInfos' : tifInfos, 'pictype' : 0 }, success : function(jsonresult) { $("body").unmask(); $.dialog({ id : "winlogin", bgcolor : "#FFF", width : "200px", title : '下载', max : false, min : false, content : "<div style='line-height:22px;'>资源获取成功,<a href=" + urll+"/downloadZipfile.do?fileName=" + jsonresult + ">[这里]</a>进行下载 !</div>" }); }, error : function() { } }); } function viewPub(searchSource) { document.viewPubForm.action = "http://www.patviewer.com:80/search.do?method=detailSearch"; document.viewPubForm.strSources.value = searchSource; document.viewPubForm.strWhere.value = "申请号=" + jQuery.trim($("#appNo").html()); document.viewPubForm.sqFlag.value = "Y"; document.viewPubForm.action = "http://www.patviewer.com:80/search.do?method=detailSearch"; document.viewPubForm.target = "_blank"; document.viewPubForm.submit(); } function callbackShowFamily(msg) { if (msg != "") { var content = "<p><table>"; var arr = msg.split(","); for (var i = 0; i < arr.length; i++) { var channel = arr[i].substring(0, 2) + "patent"; content += "<tr><td>" + arr[i] + "</td></tr>"; } content += "</table>"; div_tzzl.innerHTML = content; } else { div_tzzl.innerHTML = "<p>本专利没有同族专利项"; } } </script> <script language="javascript"> var loadimg = 'http://www.patviewer.com:80/images/loading.gif'; //加载时的loading图片 loadimg = '<img src="'+loadimg+'">'; //加载时的loading图片 function showPage(tabId, url) { $('#maintab a[href="#' + tabId + '"]').tab('show'); //显示点击的tab页面 if ($('#' + tabId).html().length < 20) { // 当tab页面内容小于20个字节时ajax加载新页面 $('#' + tabId).html('<br>' + loadimg + ' 页面加载中,请稍后...'); //设置页面加载时的loading图片 var text = ""; var basepath=$("#basepath").val(); $.ajax({ type : "GET", url : basepath + "/" + url + "&" + new Date(), contentType : "application/json;charset=UTF-8", success : function(jsonresult) { $('#' + tabId).html($.trim(jsonresult)); } }); } } function show_FTXML(tabId) { alert("show_FTXML"); $('#maintab a[href="#' + tabId + '"]').tab('show'); // 显示点击的tab页面 alert("55555"); alert($('#' + tabId).html()); } function closewin(){ window.location.href="about:blank"; window.close(); } </script> <script language="javascript" type="text/javascript"> function click_a(divDisplay) { if (document.getElementById(divDisplay).style.display != "block") { document.getElementById(divDisplay).style.display = "block"; } else { document.getElementById(divDisplay).style.display = "none"; } } </script> <script language="javascript"> var loadimg = 'http://www.patviewer.com:80/images/loading.gif'; //加载时的loading图片 loadimg = '<img src="'+loadimg+'">'; //加载时的loading图片 function showPage11(tabId, url) { $('#maintab a[href="#' + tabId + '"]').tab('show');// 显示点击的tab页面 if ($('#' + tabId).html().length < 20) {// 当tab页面内容小于20个字节时ajax加载新页面 $('#' + tabId).html('<br>' + loadimg + ' 页面加载中,请稍后...');// 设置页面加载时的loading图片 $('#' + tabId).load(url);// ajax加载页面 } } </script>