PatViewer专利搜索
中国 发明 在审

【中文】一种文件分类方法及装置
【EN】A kind of file classifying method and device

申请(专利)号:CN201710138149.X国省代码:北京 11
申请(专利权)人:【中文】北京时间股份有限公司【EN】Beijing time Limited by Share Ltd
温馨提示:Ctrl+D 请注意收藏,详细著录项请登录检索查看。 Please note the collection. For details, please search the home page.

摘要:
【中文】本发明公开了一种文件分类方法及装置,涉及文件分类技术领域,该方法包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与图片信息相对应的图片分类结果;根据图片分类结果生成与文件相对应的文件特征向量;通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。由此可见,本发明解决了现有技术中无法根据图片内容对新闻分类的问题,取得了能够综合新闻中包含的文本和图片内容进行更加准确和更加精确的分类的有益效果。【EN】Paragraph:The invention discloses a kind of file classifying method and device, it is related to document classification technical field, the method to include:Obtain the pictorial information included in file;The picture classification result corresponding with pictorial information is determined by default picture classification model;The document characteristic vector corresponding with file is generated according to picture classification result;The document classification result corresponding with document characteristic vector is determined by default document classification model.As can be seen here, solve the problems, such as in the prior art cannot be according to image content to news category for the present invention, and achieving the text that can include in roundup news and image content carries out the beneficial effect of more accurate and more accurate classification.

主权项:
【中文】一种文件分类方法,包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;根据所述图片分类结果生成与所述文件相对应的文件特征向量;通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。【EN】1. a kind of file classifying method, including: Obtain the pictorial information included in file; The picture classification result corresponding with the pictorial information is determined by default picture classification model; The document characteristic vector corresponding with the file is generated according to the picture classification result; The document classification result corresponding with the document characteristic vector is determined by default document classification model.


相似专利
【中文】媒体信息分类方法、训练图片分类模型的方法及装置【EN】The method and device of media information classification method, training picture classification model
【中文】一种面向手机文档的自动分类方法【EN】A kind of automatic classification method towards mobile phone document
【中文】交流平台文本分类方法及装置【EN】Intercommunion platform file classification method and device
【中文】一种基于文本AI学习的考题自动生成方法和装置【EN】A kind of examination paper automatic generation method and device based on text AI study
【中文】文本分类方法和装置【EN】File classification method and device
【中文】基于机器学习的医疗数据分类方法、装置和计算机设备【EN】Medical data classification method, device and computer equipment based on machine learning
【中文】一种用于搜索引擎的文本信息规律分析方法与系统【EN】A kind of text information law analytical method and system for search engine
【中文】文本情感分类模型的构建方法、装置和计算机设备【EN】Construction method, device and the computer equipment of text emotion disaggregated model
【中文】一种文本分类特征提取方法、分类方法及装置【EN】A kind of text classification feature extracting method, sorting technique and device
【中文】文件分类方法、装置、计算设备及计算机存储介质【EN】File classifying method, device, computing device and computer-readable storage medium
【中文】一种基于新闻文本信息的多级分类系统及方法【EN】A kind of multiclass classification system and method based on newsletter archive information
【中文】文本分类方法及装置【EN】File classification method and device
【中文】文本分类方法和装置【EN】Text classification method and text classification device
【中文】XML文件分类方法及系统【EN】XML file classification method and system
【中文】一种基于信息检索的政府公文主题分类方法【EN】A kind of government document subject classification method based on information retrieval
【中文】域名分类方法和装置、域名识别方法和系统【EN】Domain name classification method and device, domain name recognition methods and system
【中文】一种基于卡方统计和SMO算法的文本分类方法【EN】Text classification method based on chi square statistics and SMO algorithm
【中文】图片分类方法、装置及计算机可读存储介质【EN】Picture classification method, device and computer readable storage medium
【中文】一种基于MPI和Adaboost.MH的中文文本分类方法【EN】A kind of Chinese Text Categorization based on MPI and Adaboost.MH
【中文】基于循环神经网络的文件碎片分类方法及装置【EN】File fragmentation sorting technique based on Recognition with Recurrent Neural Network and device
说明书

一种文件分类方法及装置

技术领域

本发明涉及文件分类技术领域,具体涉及一种文件分类方法及装置。

背景技术

新闻,是对通过报纸、电台、广播、电视台、互联网等媒体途径所传播的信息的一种

称谓,主要为对新近发生事实的报道或者新近事实变动的报道,因此,新闻的及时性显得尤

为重要。在日常生活中,为了便于读者能快速找到自己所关心的新闻,需要对新闻进行分

类。目前的分类一般为简单的文本筛选,或者再加入关键信息筛选,例如新闻出处、语言语

种等关键信息,然后根据上述信息对新闻进行分类。上述分类方式还可以广泛应用于除新

闻之外的各类文件中。

但是,发明人在实现本发明的过程中,发现在现有技术中至少存在如下问题:现有

技术仅能根据新闻等文件中的文本内容进行分类。而随着社会的发展,新闻中的图片内容

越来越多,而且在微博、微信等自媒体平台上,很多新闻是直接以图片形式(例如将整篇文

字新闻转换成图片形式添加在微博或微信朋友圈附图中)展示,或者在新闻中加入了二维

码等,而现有的新闻分类技术无法识别图片,无法根据图片内容进行新闻分类,降低了新闻

分类的准确性。由此可见,现有的文件分类方式存在着分类依据单一、适用范围狭窄等诸多

缺陷。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上

述问题的文件分类方法和相应的装置。

根据本发明的一个方面,提供了一种文件分类方法,该方法包括:获取文件中包含

的图片信息;通过预设的图片分类模型确定与图片信息相对应的图片分类结果;根据图片

分类结果生成与文件相对应的文件特征向量;通过预设的文件分类模型确定与文件特征向

量相对应的文件分类结果。

根据本发明的另一方面,提供了一种文件分类装置,该装置包括:获取模块,用于

获取文件中包含的图片信息;图片分类模块,用于通过预设的图片分类模型确定与图片信

息相对应的图片分类结果;特征向量模块,用于根据图片分类结果生成与文件相对应的文

件特征向量;文件分类模块,用于通过预设的文件分类模型确定与文件特征向量相对应的

文件分类结果。

根据本发明提供的文件分类方法及装置,能够通过预设的图片分类模型确定与文

件中包含的图片信息相对应的图片分类结果,并根据该图片分类结果对文件进行分类,由

此解决了现有的文件分类方式仅能根据单一的文本特征进行分类所导致的分类结果不准

确的问题,进而提升了分类结果的准确度,拓宽了本方案的适用范围。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,

而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够

更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通

技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明

的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例一提供的一种文件分类方法的流程图;

图2示出了本发明实施例二提供的一种文件分类方法的流程图;

图3示出了本发明实施例三提供的一种文件分类装置的结构示意图;

图4示出了本发明实施例四提供的一种文件分类装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开

的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例

所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围

完整的传达给本领域的技术人员。

本发明提供了一种文件分类方法及装置,至少能够解决现有技术中的文件分类方

式所存在的分类结果不准确、适用范围狭窄的技术问题。

实施例一

图1示出了本发明实施例一提供的一种文件分类方法的流程图,该方法包括:

步骤S110:获取文件中包含的图片信息。

图片信息的具体获取方式可结合文件中的图片嵌入方式灵活确定,本发明对具体

的获取方式不做限定,本领域技术人员可灵活采取各种方式实现。例如,若文件中的图片以

缩略图的图标形式嵌入文件中,可以先获取与缩略图相对应的完整图片,然后再根据完整

图片确定对应的图片信息。又如,若文件中的图片以超链接形式嵌入文件中,可以先根据超

链接获取对应的原始图片,然后再根据原始图片确定对应的图片信息。

另外,既可以直接将获取到的图片内容作为图片信息进行后续处理,也可以先对

获取到的图片内容进行预设的信息提取操作,并将提取出的重要信息作为图片信息进行后

续处理,从而一方面能够缩减后续处理时的工作量,提高处理速度;另一方面还能够滤除图

片内容中的无关信息,使后续的分类操作更具有针对性。本发明对信息提取操作的具体实

现方式以及图片信息的具体表示形式均不做限定。

步骤S120:通过预设的图片分类模型确定与图片信息相对应的图片分类结果。

在本发明实施例中,该预设的图片分类模型可以通过深度学习算法等各类机器学

习算法获得,也可以采用传统算法获得,本发明对此不作具体限定,本领域技术人员可以根

据具体情况设定。

另外,为了使获取到的图片分类结果便于统计和识别,本发明实施例中,可以灵活

通过图片特征向量、图片特征矩阵等各种方式来表示图片分类结果,本发明对图片分类结

果的具体表示形式不做限定。

步骤S130:根据图片分类结果生成与文件相对应的文件特征向量。

当待分类文件中仅包含图片内容时,可以直接将步骤S120得到的图片特征向量作

为该文件相对应的文件特征向量;当待分类文件中既包含图片内容又包含文本内容时,可

以先通过向量空间模型根据文本内容生成对应的文本特征向量,然后根据预设的规则将步

骤S120得到的图片特征向量与文本特征向量进行组合,并根据组合结果生成该待分类文件

对应的文件特征向量。上述对于文本特征向量的生成方法仅仅是一种举例,而非限制,在实

际运用中,本领域技术人员可以根据实际情况,灵活选择文本特征向量的生成方法,本发明

对此不作具体限定。

步骤S140:通过预设的文件分类模型确定与文件特征向量相对应的文件分类结

果。

其中,文件分类模型通过预设的机器学习算法确定,该机器学习算法可以是线性

分类算法,也可以是神经网络分类算法,还可以是深度学习算法。本发明对此不作具体限

定,本领域技术人员可以根据实际情况,灵活选择该机器学习算法。

具体地,将步骤S130中得到的文件特征向量输入到文件分类模型中,该文件分类

模型会根据相应的规则和算法,得出与该文件特征向量相对应的文件分类结果。

由此可见,本发明提供的文件分类方法可以识别文件中的文本内容和图片内容,

并根据识别出的文本和图片内容,通过文件分类模型对文件进行分类,由此解决了现有技

术中无法根据图片内容对新闻分类的问题,取得了能够综合新闻中包含的文本和图片内容

进行更加准确和更加精确的分类的有益效果。

实施例二

图2示出了本发明实施例二提供的一种文件分类方法的流程图,该方法包括:

步骤S210:通过机器学习算法对预先获取到的图片训练集进行机器学习,根据学

习结果生成预设的图片分类模型。

具体地,先根据图片分类所需的类别设置具有针对性的图片训练集,然后通过机

器学习算法对图片训练集进行机器学习,从而根据学习结果获得图片分类模型,这一过程

被称为图片分类模型的训练过程;在完成训练之后,将待分类图片输入到图片分类模型中,

就可以得到该待分类图片的预测分类结果。该机器学习算法可以是深度学习算法,也可以

是神经网络算法。在实际应用中,为了提高图片分类模型的准确性,可以将每一次的图片分

类结果都加入到图片训练集中,由此可以实现对图片分类模型的动态调整,使该图片分类

模型的分类准确性不断提高。

步骤S220:获取文件中包含的图片信息。

为了减小文件大小,所以例如新闻等文件中包含的图片一般为缩略图,而缩略图

是原图片经过压缩处理得到的,会损失部分信息。本发明为了保证图片分类的准确性,需要

先获取原图片的相关信息。具体地,首先解析文件内容,从而获得目标缩略图片;然后解析

该目标缩略图片获取与原图片关联的超链接,例如URL(即统一资源定位符);最后,通过该

超链接定位原图片,下载原图片并解析该原图片,以获取图片的完整信息。

当待分类文件中包含动态图片或者视频时,步骤S220获取图片信息的步骤具体

为:获取文件中包含的动态图片或视频,从中提取至少一个图片帧,最后分别确认与各个图

片帧相对应的图片信息。具体地,为了保证图片帧的提取具有代表性,且方便识别,可以按

照一定的规则提取动态图片或者视频中的关键帧,然后分别确认与各个关键帧对应的图片

信息。因为关键帧包含了当前画面的完整数据,所以通过关键帧获取到的图片信息更加完

整准确。其中,提取关键帧的规则可以是间隔固定个数的帧数来提取一个关键帧,也可以是

比较相邻帧间的差量,当该差量达到或大于预设阈值时,便提取一个关键帧。对于具体的关

键帧提取规则,本发明不作具体限定,本领域技术人员可以根据实际情况灵活设置。

另外,在本实施例中,当获取到图片内容之后,先对获取到的图片内容进行预设的

信息提取操作,并将提取出的重要信息作为图片信息进行后续处理。具体地,发明人在实现

本发明的过程中发现,将图片内容作为文件分类依据时至少存在如下的技术障碍:虽然图

片编码技术能够实现图片压缩的效果,但是,无论采用何种编码方式,图片内容的数据量都

远远大于文本内容的数据量,正是由于图片内容的数据量动辄达到几十甚至几百兆字节,

给图片的分析处理带来了困难。相应地,在本实施例中,可以通过信息提取操作,滤除图片

中的背景信息等无关信息;还可以通过信息提取操作,提取出图片中的重要信息,例如,将

像素变化显著的区域作为重点区域,或者根据多种图片识别算法识别图片中的重点区域。

由此可见,通过信息提取操作能够大幅缩减后续处理时的工作量,提升处理速度;且使后续

的分类操作更具有针对性,准确度更高。

步骤S230:通过预设的图片分类模型确定与图片信息相对应的图片分类结果。

在本发明实施例中,该预设的图片分类模型优选通过深度学习算法获得,由于深

度学习算法的自主学习能力较强,使图片分类的精度更高,进而提升了后续的文件分类精

度。

因为图片信息不同于文本信息,为了使获取到的图片分类结果便于统计和识别,

本发明实施例中,通过图片特征向量来表示图片分类结果。其中,图片特征向量是一种用于

表示图片分类的概率向量,该概率向量是一种多维特征向量,其每一个维度代表一个图片

类别。关于特征向量的表示规则可以有多种,本发明对此不作具体限定,本领域技术人员可

以根据具体情况灵活设置。为了方便理解,本发明实施例给出以下几种具有代表性的图片

特征向量表示方法。

在第一种表示方法中,待分类图片可以属于多个类别,假设与图片分类模型相对

应的图片分类总数为N,其中,N为大于1的自然数,则首先分别确定该图片信息属于N个图片

分类中的各个图片分类的概率,然后根据该图片信息属于N个图片分类中的各个图片分类

的概率,设置N维向量作为该图片特征向量;其中,各个维度分别与各个图片分类一一对应,

且每个维度的权值根据该图片信息属于相应的图片分类的概率确定。具体地,例如,当图片

类别包括飞机、汽车、人、和猫时,则N为4,将飞机、汽车、人、猫分别作为图片特征向量的第

0、1、2、3维度,当某张图片所属的类别在各个类别上的概率分别为0.7(即该张图片的类别

有70%的可能性为飞机)、0.2(汽车)、0.03(人)以及0.07(猫)时,则用于表示该张图片分类

结果的图片特征向量为[0.7,0.2,0.03,0.07]。在该种表示方式中,一个图片能够同时属于

多个类别,并分别给出了该图片属于每个类别时的概率,由此能够更加准确地反映图片种

类,为后续的文件分类提供更为准确的信息。而且,该种方式尤其适用于图片分类结果不太

明确的应用场景中。

在第二种表示方法中,待分类图片仅分类到一个类别中,该类别是该图片分类到

各个图片分类中概率最高的一个类别。例如,当图片类别为飞机、汽车、人、猫时,将飞机、汽

车、人、猫分别作为图片特征向量的第0、1、2、3维度,当某张图片所属的类别在各个类别上

的概率分别为0.7(即该张图片的类别有70%的可能性为飞机)、0.2(汽车)、0.03(人)以及

0.07(猫)时,则该图片类别属于飞机的可能性最大,因此用于表示该张图片分类结果的图

片特征向量为[1,0,0,0]。在该种表示方法中,一个图片只能属于一个类别,该种方式尤其

适用于图片分类结果比较明确的应用场景中。

在第三种表示方法中,假设与图片分类模型相对应的图片分类总数为N,其中,N为

大于2的自然数,则分别确定该图片信息属于N个图片分类中的各个图片分类的概率,按照

概率从高到低的顺序筛选M个图片分类作为该图片信息的图片分类结果,其中,M为小于N的

自然数;然后预先为各种图片分类结果分别设置对应的图片分类编号,确定与该图片信息

的图片分类结果相对应的图片分类编号,根据所述图片分类编号生成对应的图片特征向

量。在具体应用中,如果分类总量非常庞大,往往并不需要输出所有分类上的预测值,此时,

按照预测值从高到低的顺序固定选择若干个类别,例如,针对每个图片信息均选择预测值

较高的5个类别,相应地,该图片信息的图片分类结果由该5个类别确定,为了表示由该5个

类别确定的图片分类结果,可以预先为每种图片分类结果分配唯一的图片分类编号,从而

利用相应的图片分类编号表示图片分类结果。其中,当类别总数固定,且每次选取的类别数

量也固定时,图片分类结果的总数量也是固定的(等于从所有类别中取固定数量的类别时

所能得到的不同组合的个数)。因此,可以将图片分类结果表示为一维变量(其取值范围包

括从零到这个组合数),这个一维变量可以作为后续分类中输入的一个维度(即文件特征向

量中的一个维度)。除了采用一维变量的形式之外,还可以采用多维向量的形式来表示图片

分类结果,例如,当用二进制编码表示图片分类编号时,比如需要输出的类别共有4个分类,

分别为0、1、2、3,每次预测输出两个可能类别,那么总共有6种可能(0和1,0和2,0和3,1和2,

1和3,2和3),可以将他们分别用二进制数(000,001,010,011,100,101)表示,而这些二进制

数本身就可以看作是三维向量,每个维度的取值只有0或1两种可能,这个三维向量也可以

作为后续分类中输入的一部分。

上述的几种表示方法既可以单独适用,也可以结合使用,本发明对此不做限定。

步骤S240:获取文件中包含的文本信息,生成与文本信息相对应的文本特征向量;

生成与图片分类结果相对应的图片特征向量,将文本特征向量与图片特征向量进行组合,

根据组合结果生成文件特征向量。

其中,生成文本特征向量的具体方法可以是:对文本信息进行预处理,根据预处理

结果得到多个特征词;分别为各个特征词赋予对应的权重,根据各个特征词及其权重生成

文本特征向量。上述预处理方式有多种,例如,将西文统一转换成小写,过滤垃圾信息和广

告信息,停用词的删除等,这些预处理操作可以使对文本特征词的提取更加顺利和方便。上

述文本特征向量可以根据词向量来生成,与文本信息对应的词向量可以使用word2vec工具

来生成。上述对于文本特征向量的生成方法仅仅是一种举例,而非限制,在实际运用中,本

领域技术人员可以根据实际情况,灵活选择文本特征向量的生成方法,本发明对此不作具

体限定。

另外,在将文本特征向量与图片特征向量进行组合时,可以通过多种方式实现,本

发明对此不做限定。例如,可以直接将图片特征向量加入文本特征向量的尾部,从而得到组

合后的文件特征向量;也可以将图片特征向量加入文本特征向量的首部,从而得到组合后

的文件特征向量;还可以将图片特征向量插入文本特征向量中部的指定位置,从而得到组

合后的文件特征向量。另外,还可以先对图片特征向量进行必要的删减、转换后再进行组

合,本发明对此不做限定,本领域技术人员可根据文件分类模型的特点选择合适的方式。

步骤S250:通过预设的文件分类模型确定与文件特征向量相对应的文件分类结

果。

其中,文件分类模型通过预设的机器学习算法确定,该机器学习算法可以是线性

分类算法,也可以是神经网络分类算法,还可以是深度学习算法。本发明对此不作具体限

定,本领域技术人员可以根据实际情况,灵活选择该机器学习算法。

机器学习一般包括训练和预测两大部分,训练是通过预设的训练集对文件分类模

型进行训练,使其通过大量数据的训练后能够具备识别文件类型的功能;而预测就是通过

将待分类的文本输入给训练好的文件分类模型后,能够得到该文本的分类结果。为了不断

提高文件分类模型的分类准确率,还可以包括利用反向传播等实现的监督学习等修正过

程,从而可以对模型进行动态修正。

由此可见,本发明提供的文件分类方法,首先通过图片分类模型确定与文件中的

图片信息相对应的图片分类结果,通过该种方式能够快速准确地对图片进行量化,将数据

量庞大、且形式多变的图片量化为对应的图片分类结果,由于该图片分类结果具有数据量

小、处理速度快、且分类效果好等诸多优势,因此,利用该图片分类结果确定文件类型时也

具备处理速度快、分类结果准确等诸多优势。总之,本发明通过预先构建的一层图片分类模

型解决了图片内容不便于分析、不便于表示的问题,进而将图片信息应用到了文件分类方

式中,提升了文件分类的准确性,拓宽了适用范围。

实施例三

图3示出了本发明实施例三提供的一种文件分类装置的结构示意图,该装置包括:

获取模块310、图片分类模块320、特征向量模块330和文件分类模块340。

获取模块310,用于获取文件中包含的图片信息。

图片信息的具体获取方式可以结合文件中的图片嵌入方式灵活确定,本发明对具

体的获取方式不做限定,本领域技术人员可以灵活采取各种方式实现。加入,若文件中的图

片以缩略图的图标形式嵌入文件中,获取模块310可以先获取与缩略图相对应的完整图片,

然后再根据完整图片确定对应的图片信息。又如,若文件中的图片以超链接形式嵌入文件

中,获取模块310可以先根据超链接获取对应的原始图片,然后再根据原始图片确定对应的

图片信息。

另外,既可以将获取模块310直接获取到的图片内容作为图片信息进行后续处理,

也可以使获取模块310先对获取到的图片内容进行预设的信息提取操作,再将提取出的重

要信息作为图片信息进行后续处理,从而一方面能够缩减后续处理时的工作量,提高处理

速度;另一方面还能够滤除图片内容中的无关信息,使后续的分类操作更具有针对性。本发

明对信息提取操作的具体实现方式以及图片信息的具体表示形式均不做限定。

图片分类模块320,用于通过预设的图片分类模型确定与图片信息相对应的图片

分类结果。

在本发明实施例中,该预设的图片分类模型可以通过深度学习算法等各类机器学

习算法获得,也可以采用传统算法获得,本发明对此不作具体限定,本领域技术人员可以根

据具体情况设定。

另外,为了使获取到的图片分类结果便于统计和识别,本发明实施例中,可以灵活

通过图片特征向量、图片特征矩阵等各种方式来表示图片分类结果,本发明对图片分类结

果的具体表示形式不做限定。

特征向量模块330,用于根据图片分类结果生成与文件相对应的文件特征向量。

当待分类文件中仅包含图片内容时,可以直接将图片分类模块320得到的图片特

征向量作为该文件相对应的文件特征向量;当待分类文件中既包含图片内容又包含文本内

容时,可以先通过向量空间模型根据文本内容生成对应的文本特征向量,然后根据预设的

规则将图片分类模块320得到的图片特征向量与文本特征向量进行组合,并根据组合结果

生成该待分类文件对应的文件特征向量。上述对于文本特征向量的生成方法仅仅是一种举

例,而非限制,在实际运用中,本领域技术人员可以根据实际情况,灵活选择文本特征向量

的生成方法,本发明对此不作具体限定。

文件分类模块340,用于通过预设的文件分类模型确定与文件特征向量相对应的

文件分类结果。

其中,文件分类模型通过预设的机器学习算法确定,该机器学习算法可以是线性

分类算法,也可以是神经网络分类算法,还可以是深度学习算法。本发明对此不作具体限

定,本领域技术人员可以根据实际情况,灵活选择该机器学习算法。

具体地,将特征向量模块330得到的文件特征向量输入到文件分类模块340中的文

件分类模型中,该文件分类模型会根据相应的规则和算法,得出与该文件特征向量相对应

的文件分类结果。

关于上述各个模块的功能描述可参照上述方法实施例中各个步骤的相应部分的

描述,此处不再赘述。

由此可见,本发明提供的文件分类装置可以识别文件中的文本内容和图片内容,

并根据识别出的文本和图片内容,通过文件分类模型对文件进行分类,由此解决了现有技

术中无法根据图片内容对新闻分类的问题,取得了能够综合新闻中包含的文本和图片内容

进行更加准确和更加精确的分类的有益效果。

实施例四

图4示出了本发明实施例四提供的一种文件分类装置的结构示意图,该装置包括:

图片分类模型构建模块410、获取模块420、图片分类模块430、特征向量模块440和文件分类

模块450,其中,特征向量模块440进一步包括:文本特征向量子模块441、图片特征向量子模

块442和组合子模块443。

图片分类模型构建模块410,用于通过机器学习算法对预先获取到的图片训练集

进行机器学习,根据学习结果生成预设的图片分类模型。

具体地,图片分类模型构建模块410先根据图片分类所需的类别设置具有针对性

的图片训练集,然后通过机器学习算法对图片训练集进行机器学习,从而根据学习结果获

得图片分类模型,这一过程被称为图片分类模型的训练过程;在完成训练之后,将待分类图

片输入到图片分类模型中,就可以得到该待分类图片的预测分类结果。该机器学习算法可

以是深度学习算法,也可以是神经网络算法。在实际应用中,为了提高图片分类模型的准确

性,可以将每一次的图片分类结果都加入到图片训练集中,由此可以实现对图片分类模型

的动态调整,使该图片分类模型的分类准确性不断提高。

获取模块420,用于获取文件中包含的图片信息。

为了减小文件大小,所以例如新闻等文件中包含的图片一般为缩略图,而缩略图

是原图片经过压缩处理得到的,会损失部分信息。本发明为了保证图片分类的准确性,需要

先获取原图片的相关信息。具体地,获取模块420首先解析文件内容,从而获得目标缩略图

片;然后解析该目标缩略图片获取与原图片关联的超链接,例如URL(即统一资源定位符);

最后,通过该超链接定位原图片,下载原图片并解析该原图片,以获取图片的完整信息。

当待分类文件中包含动态图片或者视频时,获取模块420获取文件中包含的动态

图片或视频,从中提取至少一个图片帧,最后分别确认与各个图片帧相对应的图片信息。具

体地,为了保证图片帧的提取具有代表性,且方便识别,可以按照一定的规则提取动态图片

或者视频中的关键帧,然后分别确认与各个关键帧对应的图片信息。因为关键帧包含了当

前画面的完整数据,所以通过关键帧获取到的图片信息更加完整准确。其中,提取关键帧的

规则可以是间隔固定个数的帧数来提取一个关键帧,也可以是比较相邻帧间的差量,当该

差量达到或大于预设阈值时,便提取一个关键帧。对于具体的关键帧提取规则,本发明不作

具体限定,本领域技术人员可以根据实际情况灵活设置。

另外,在本实施例中,当获取模块420获取到图片内容之后,先对获取到的图片内

容进行预设的信息提取操作,并将提取出的重要信息作为图片信息进行后续处理。具体地,

发明人在实现本发明的过程中发现,将图片内容作为文件分类依据时至少存在如下的技术

障碍:虽然图片编码技术能够实现图片压缩的效果,但是,无论采用何种编码方式,图片内

容的数据量都远远大于文本内容的数据量,正是由于图片内容的数据量动辄达到几十甚至

几百兆字节,给图片的分析处理带来了困难。相应地,在本实施例中,可以通过获取模块420

的信息提取操作,滤除图片总的背景信息等无关信息;还可以通过获取模块420的信息提取

操作,提取出图片中的重要信息,例如,将像素变化显著的区域作为重点区域,或者根据多

种图片识别算法识别图片中的重点区域。由此可见,通过获取模块420的信息提取操作能够

大幅缩减后续处理时的工作量,提升处理速度;且使后续的分类操作更具有针对性,准确度

更高。

图片分类模块430,用于通过预设的图片分类模型确定与图片信息相对应的图片

分类结果。

在本发明实施例中,该预设的图片分类模型优选通过深度学习算法获得,由于深

度学习算法的自主学习能力较强,使图片分类的精度更高,进而提升了后续的文件分类精

度。

因为图片信息不同于文本信息,为了使获取到的图片分类结果便于统计和识别,

本发明实施例中,图片分类模块430通过图片特征向量来表示图片分类结果。其中,图片特

征向量是一种用于表示图片分类的概率向量,该概率向量是一种多维特征向量,其每一个

维度代表一个图片类别。关于特征向量的表示规则可以有多种,本发明对此不作具体限定,

本领域技术人员可以根据具体情况灵活设置。

特征向量模块440,用于生成与文件相对应的文件特征向量。

当待分类文件中既包含图片内容又包含文本内容时,特征向量模块440可以进一

步包括文本特征向量子模块441、图片特征向量子模块442和组合子模块443。其中,文本特

征向量子模块441,用于获取文件中包含的文本信息,生成与文本信息相对应的文本特征向

量;图片特征向量子模块442,用于生成与图片分类结果相对应的图片特征向量;组合子模

块443,用于将文本特征向量与图片特征向量进行组合,根据组合结果生成文件特征向量。

其中,文本特征向量子模块441中文本特征向量的生成方法具体为:对文本信息进

行预处理,根据预处理结果得到多个特征词;分别为各个特征词赋予对应的权重,根据各个

特征词及其权重生成文本特征向量。上述预处理方式有多种,例如,将西文统一转换成小

写,过滤垃圾信息和广告信息,停用词的删除等,这些预处理操作可以使对文本特征词的提

取更加顺利和方便。上述文本特征向量可以根据词向量来生成,与文本信息对应的词向量

可以使用word2vec工具来生成。上述对于文本特征向量的生成方法仅仅是一种举例,而非

限制,在实际运用中,本领域技术人员可以根据实际情况,灵活选择文本特征向量的生成方

法,本发明对此不作具体限定。

另外,当组合子模块443对文本特征向量与图片特征向量进行组合时,可以通过多

种方式实现,本发明对此不做具体限定。例如,可以直接将图片特征向量加入文本特征向量

的尾部,从而得到组合后的文件特征向量;也可以将图片特征向量加入文本特征向量的首

部,从而得到组合后的文件特征向量;还可以将图片特征向量插入文本特征向量中部的指

定位置,从而得到组合后的文件特征向量。另外,还可以先对图片特征向量进行必要的删

减、转换后再进行组合,本发明对此不做限定,本领域技术人员可根据文件分类模型的特点

选择合适的方式。

文件分类模块450,用于通过预设的文件分类模型确定与文件特征向量相对应的

文件分类结果。

其中,文件分类模块450中的文件分类模型通过预设的机器学习算法确定,该机器

学习算法可以是线性分类算法,也可以是神经网络分类算法,还可以是深度学习算法。本发

明对此不作具体限定,本领域技术人员可以根据实际情况,灵活选择该机器学习算法。

机器学习一般包括训练和预测两大部分,训练是通过预设的训练集对文件分类模

型进行训练,使其通过大量数据的训练后能够具备识别文件类型的功能;而预测就是通过

将待分类的文本输入给训练好的文件分类模型后,能够得到该文本的分类结果。为了不断

提高文件分类模型的分类准确率,还可以包括利用反向传播等实现的监督学习等修正过

程,从而可以对模型进行动态修正。

关于上述各个模块的功能描述可参照上述方法实施例中各个步骤的相应部分的

描述,此处不再赘述。

由此可见,本发明提供的文件分类装置,首先通过图片分类模型确定与文件中的

图片信息相对应的图片分类结果,通过该种方式能够快速准确地对图片进行量化,将数据

量庞大、且形式多变的图片量化为对应的图片分类结果,由于该图片分类结果具有数据量

小、处理速度快、且分类效果好等诸多优势,因此,利用该图片分类结果确定文件类型时也

具备处理速度快、分类结果准确等诸多优势。总之,本发明通过预先构建的一层图片分类模

型解决了图片内容不便于分析、不便于表示的问题,进而将图片信息应用到了文件分类方

式中,提升了文件分类的准确性,拓宽了适用范围。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。

各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求

的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种

编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发

明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施

例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构

和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在

上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施

例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保

护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面

的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,

遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身

都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地

改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单

元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或

子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何

组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任

何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权

利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代

替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例

中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的

范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任

意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行

的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用

微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文件分类装置中的一些或

者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部

分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发

明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的

信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领

域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,

不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未

列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的

元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实

现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项

来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名

称。

本发明公开了:A1、一种文件分类方法,包括:

获取文件中包含的图片信息;

通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;

根据所述图片分类结果生成与所述文件相对应的文件特征向量;

通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。

A2、根据A1所述的方法,其中,所述根据所述图片分类结果生成与所述文件相对应

的文件特征向量的步骤具体包括:

获取所述文件中包含的文本信息,生成与所述文本信息相对应的文本特征向量;

生成与所述图片分类结果相对应的图片特征向量,将所述文本特征向量与所述图

片特征向量进行组合,根据组合结果生成所述文件特征向量。

A3、根据A2所述的方法,其中,与所述图片分类模型相对应的图片分类总数为N,其

中,N为大于1的自然数;所述确定与所述图片信息相对应的图片分类结果的步骤具体包括:

分别确定该图片信息属于N个图片分类中的各个图片分类的概率;

则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括:根据该

图片信息属于N个图片分类中的各个图片分类的概率,设置N维向量作为所述图片特征向

量;其中,各个维度分别与各个图片分类一一对应,且每个维度的权值根据该图片信息属于

相应的图片分类的概率确定。

A4、根据A2所述的方法,其中,与所述图片分类模型相对应的图片分类总数为N,其

中,N为大于2的自然数;所述确定与所述图片信息相对应的图片分类结果的步骤具体包括:

分别确定该图片信息属于N个图片分类中的各个图片分类的概率,按照概率从高到低的顺

序筛选M个图片分类作为该图片信息的图片分类结果,其中,M为小于N的自然数;

则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括:预先为

各种图片分类结果分别设置对应的图片分类编号;确定与该图片信息的图片分类结果相对

应的图片分类编号,根据所述图片分类编号生成对应的图片特征向量。

A5、根据A1-A4任一所述的方法,其中,所述方法执行之前,进一步包括:

通过机器学习算法对预先获取到的图片训练集进行机器学习,根据学习结果生成

所述预设的图片分类模型;其中,所述机器学习算法包括:深度学习算法、以及神经网络算

法。

A6、根据A2-A5任一所述的方法,其中,所述生成与所述文本信息相对应的文本特

征向量的步骤具体包括:

对所述文本信息进行预处理,根据预处理结果得到多个特征词;

分别为各个特征词赋予对应的权重,根据各个特征词及其权重生成所述文本特征

向量。

A7、根据A1-A6任一所述的方法,其中,所述文件分类模型通过预设的机器学习算

法确定,其中,所述机器学习算法包括:线性分类算法、神经网络分类算法、以及深度学习算

法。

A8、根据A1-A7任一所述的方法,其中,所述获取文件中包含的图片信息的步骤具

体包括:获取文件中包含的动态图片,提取所述动态图片中包含的至少一个图片帧,分别确

定与各个图片帧相对应的图片信息。

本发明还公开了:B9、一种文件分类装置,包括:

获取模块,用于获取文件中包含的图片信息;

图片分类模块,用于通过预设的图片分类模型确定与所述图片信息相对应的图片

分类结果;

特征向量模块,用于根据所述图片分类结果生成与所述文件相对应的文件特征向

量;

文件分类模块,用于通过预设的文件分类模型确定与所述文件特征向量相对应的

文件分类结果。

B10、根据B9所述的装置,其中,所述特征向量模块具体包括:

文本特征向量子模块,用于获取所述文件中包含的文本信息,生成与所述文本信

息相对应的文本特征向量;

图片特征向量子模块,用于生成与所述图片分类结果相对应的图片特征向量;

组合子模块,用于将所述文本特征向量与所述图片特征向量进行组合,根据组合

结果生成所述文件特征向量。

B11、根据B10所述的装置,其中,与所述图片分类模型相对应的图片分类总数为N,

其中,N为大于1的自然数;所述图片分类模块具体用于:分别确定该图片信息属于N个图片

分类中的各个图片分类的概率;

则所述图片特征向量子模块具体用于:根据该图片信息属于N个图片分类中的各

个图片分类的概率,设置N维向量作为所述图片特征向量;其中,各个维度分别与各个图片

分类一一对应,且每个维度的权值根据该图片信息属于相应的图片分类的概率确定。

B12、根据B10所述的装置,其中,与所述图片分类模型相对应的图片分类总数为N,

其中,N为大于2的自然数;所述图片分类模块具体用于:分别确定该图片信息属于N个图片

分类中的各个图片分类的概率,按照概率从高到低的顺序筛选M个图片分类作为该图片信

息的图片分类结果,其中,M为小于N的自然数;

则所述图片特征向量子模块具体用于:预先为各种图片分类结果分别设置对应的

图片分类编号;确定与该图片信息的图片分类结果相对应的图片分类编号,根据所述图片

分类编号生成对应的图片特征向量。

B13、根据B9-B12任一所述的装置,其中,进一步包括:

图片分类模型构建模块,用于通过机器学习算法对预先获取到的图片训练集进行

机器学习,根据学习结果生成所述预设的图片分类模型;其中,所述机器学习算法包括:深

度学习算法、以及神经网络算法。

B14、根据B10-B13任一所述的装置,其中,所述文本特征向量子模块具体用于:

对所述文本信息进行预处理,根据预处理结果得到多个特征词;

分别为各个特征词赋予对应的权重,根据各个特征词及其权重生成所述文本特征

向量。

B15、根据B9-B14任一所述的装置,其中,所述文件分类模型通过预设的机器学习
...

=>>详细说明书全文请登录检索查看

图1
©2018 IPPH.cn   PatViewer·专利搜索
主办单位:国家知识产权局知识产权出版社  咨询热线:01082000860-8588
浏览器:IE9及以上、火狐等  京ICP备09007110号 京公网安备 11010802026659号