PatViewer专利搜索
中国 发明 在审

【中文】基于图像特征匹配的恶意文件分类方法及装置
【EN】Malicious file sorting technique and device based on Image Feature Matching

申请(专利)号:CN201710776655.1国省代码:浙江 33
申请(专利权)人:【中文】杭州安恒信息技术有限公司【EN】Dbappsecurity Co.,ltd.
温馨提示:Ctrl+D 请注意收藏,详细著录项请登录检索查看。 Please note the collection. For details, please search the home page.

摘要:
【中文】本发明提供一种基于图像特征匹配的恶意文件分类方法及装置,涉及文件分类技术领域,该方法包括:对未分类的恶意文件进行图像特征提取,得到第一图像特征;第一图像特征包括:第一整体特征、第一区段特征;将第一图像特征输入预先建立的分类训练模型中,通过分类训练模型的分类识别,得到恶意文件的分类信息;预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到,已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。该分类方法,能够基于恶意文件本身的数据特征和结构特征,提取出该恶意文件的图像特征,并将图像特征进行机器学习分类,以建立新的分类训练模型,从而对新的恶意文件进行准确的分类识别。【EN】Paragraph:The present invention provides a kind of malicious file sorting technique and device based on Image Feature Matching, is related to document classification technical field, this method includes:Image characteristics extraction is carried out to non-classified malicious file, obtains the first characteristics of image;First characteristics of image includes:First global feature, the first segment attribute;In the classification based training model that the input of first characteristics of image is pre-established, by the Classification and Identification of classification based training model, the classification information of malicious file is obtained;The classification based training model pre-established is to be obtained by carrying out features training to classified malicious file sample, and classified malicious file sample includes the characteristics of image of the classified malicious file extracted in advance.The sorting technique, the characteristics of image of the malicious file based on the data characteristics of malicious file in itself and architectural feature, can be extracted, and characteristics of image is subjected to machine learning classification, to establish new classification based training model, so as to carry out accurate Classification and Identification to new malicious file.

主权项:
【中文】一种基于图像特征匹配的恶意文件分类方法,其特征在于,包括:对未分类的恶意文件进行图像特征提取,得到第一图像特征;所述第一图像特征包括:第一整体特征、第一区段特征;将所述第一图像特征输入预先建立的分类训练模型中,通过所述分类训练模型的分类识别,得到所述恶意文件的分类信息;所述预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到,所述已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。【EN】A kind of 1. malicious file sorting technique based on Image Feature Matching, it is characterised in that including: Image characteristics extraction is carried out to non-classified malicious file, obtains the first characteristics of image;Described first image feature includes: First global feature, the first segment attribute; In the classification based training model that the input of described first image feature is pre-established, pass through the classification of the classification based training model Identification, obtains the classification information of the malicious file;The classification based training model pre-established is by classified evil Meaning paper sample carries out features training and obtained, and the classified malicious file sample includes extracting in advance classified The characteristics of image of malicious file.


相似专利
【中文】一种基于深度学习的瓶罐类垃圾识别分类机器人【EN】A kind of Bottle & Can class rubbish identification sorting machine people based on deep learning
【中文】图像特征提取方法、装置及水源图像分类方法、装置【EN】Image characteristic extracting method, device and water source image classification method, device
【中文】用于虚拟人物的识别方法及装置【EN】Recognition methods and device for virtual portrait
【中文】卷积神经网络特征提取图像传感器【EN】Convolutional neural networks feature-extraction images sensor
【中文】基于神经网络的图像特征提取建模、图像识别方法及装置【EN】Image characteristics extraction modeling based on neutral net, image-recognizing method and device
【中文】一种基于CNN与迁移学习的病害智能识别方法及系统【EN】A kind of disease intelligent identification Method and system based on CNN and transfer learning
【中文】一种基于改进随机梯度下降的图像分类方法及装置【EN】A kind of image classification method and device based on improvement stochastic gradient descent
【中文】一种基于深度相似性网络的图像分类方法【EN】A kind of image classification method based on depth similitude network
【中文】一种用于覆冰图像细粒度分类的图像特征提取方法和装置【EN】A kind of image characteristic extracting method and device for icing image fine grit classification
【中文】图像分类方法、装置及系统【EN】Image classification method, apparatus and system
【中文】一种车辆逆行的检测方法及装置【EN】Vehicle converse running detection method and apparatus
【中文】一种骨折识别模型的构建方法及应用【EN】It is a kind of fracture identification model construction method and application
【中文】地物分类方法及装置【EN】Terrain classification method and device
【中文】一种图像检索方法及装置【EN】A kind of image search method and device
【中文】一种基于字节码图像聚类的Android恶意代码家族分类方法【EN】A kind of Android malicious code family classification method based on bytecode image clustering
【中文】一种基于深信度网络的人车分类方法【EN】Human being and vehicle classification method based on deep belief net
【中文】一种基于图像匹配的恶意代码检测方法【EN】A kind of malicious code detecting method based on images match
【中文】基于分块遮挡感知的行人检测方法及系统【EN】The pedestrian detection method and system of perception are blocked based on piecemeal
【中文】图像特征提取及分类的方法和装置【EN】The method and apparatus of image characteristics extraction and classification
【中文】一种基于深度学习的多视图外观专利图像检索方法【EN】Deep learning-based multi-view appearance patent image retrieval method
说明书

基于图像特征匹配的恶意文件分类方法及装置

技术领域

本发明涉及文件分类技术领域,尤其是涉及一种基于图像特征匹配的恶意文件分

类方法及装置。

背景技术

现阶段,随着信息化以及计算机技术的快速发展,信息安全也成为了一个当前不

可忽视的重要研究领域。计算机恶意文件同源性分类技术也随之产生,该技术是专门针对

近年来互联网上爆发的包括病毒、木马、蠕虫、勒索软件在内的各类恶意文件及其家族进行

快速定位、分类以及分析的技术方法。恶意文件在流行传播的过程中会出现大量的变种,又

因产生的变种会与原始恶意文件具有同源性,数据形式上具有相似性,样本之间会存在关

联关系,这使得从某种具有相似性关联的维度,对大量的样本进行同源性分析归类变得可

行。对于安全厂商来说,每天能获取到海量的恶意程序样本,对这些样本的归类并且家族化

是十分有必要的。

恶意文件分类系统的分类过程,一般可分为特征提取和标注分类两个步骤。对于

传统的恶意文件分类,步骤1特征提取一般通过静态分析或动态分析,获取样本的基本信息

或行为特征来作为特征向量,常见的有文件特征(MD5、版本、证书等)、API调度行为、注册表

行为、文件行为以及网络行为等。步骤2标注分类技术需要对步骤1中提取的特征向量进行

自动标注,并分类到特定的恶意文件家族。传统的恶意文件分类方法虽然通过对常见特征

行为的提取以及分类或聚类的技术,在一定程度上能达到对恶意样本分类溯源的效果,但

由于普遍存在对特征提取的能力不足、分析提取的时间代价过大以及特征分类算法不够完

善等情况,从而导致各种不够精确的结果,经常出现误判、漏判的情况。由于上述的问题,大

多数恶意文件的分类工具难以真正的在工业实施中应用。

发明内容

有鉴于此,本发明的目的在于提供一种基于图像特征匹配的恶意文件分类方法及

装置,根据恶意文件本身的数据特征和结构特征生成相应的特征图像,并从图像提取相应

的维度特征进行机器学习分类,能够更精确的对恶意文件进行分类识别;对于相应的同源

以及变种恶意文件只要局部特征拥有相似性,该机制就能精确定位识别到相应的类别。通

过机器学习的方式进行识别,在一定程度上也节省了人力的输入,提高恶意文件的识别效

率。

第一方面,本发明实施例提供了一种基于图像特征匹配的恶意文件分类方法,包

括:

对未分类的恶意文件进行图像特征提取,得到第一图像特征;第一图像特征包括:

第一整体特征、第一区段特征;

将第一图像特征输入预先建立的分类训练模型中,通过分类训练模型的分类识

别,得到恶意文件的分类信息;预先建立的分类训练模型为通过对已分类的恶意文件样本

进行特征训练得到,已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像

特征。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在

对未分类的恶意文件进行图像特征提取之前,方法还包括:

对已分类的恶意文件进行图像特征提取,得到第二图像特征;第二图像特征包括:

第二整体特征、第二区段特征;

根据第二图像特征对预先建立的初始分类训练模型进行训练,以建立分类训练模

型;分类训练模型包括:整体模型、区段模型。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,通

过以下方式对恶意文件进行图像特征提取:

从恶意文件中提取图像缩略信息;图像缩略信息包括:整体图像缩略信息、分段图

像缩略信息;

对图像缩略信息进行特征提取,得到图像特征;特征提取包括:GIST图像特征提

取、统计信息特征提取;图像特征包括:整体特征、区段特征。

结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,从

恶意文件中提取图像缩略信息,包括:

将恶意文件进行均等切分,得到多个切分块;

对每个切分块进行缩略信息提取,得到整体图像缩略信息;整体图像缩略信息包

括:整体数据熵缩略信息、整体字节块特征缩略信息、整体PE结构缩略信息。

结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,从

恶意文件样本中提取图像缩略信息,包括:

从恶意文件中提取多个区段;

对每个区段按照不同区分粒度进行切分,得到多个切分块;

对每个切分块进行缩略信息提取,得到区段图像缩略信息;区段图像缩略信息包

括:区段数据熵缩略信息、区段字节块特征缩略信息。

结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在

特征提取包括GIST图像特征提取的情况下,对图像缩略信息进行特征提取,得到图像特征,

包括:

根据图像缩略信息,生成图像;图像由多个切分块组成;

对图像进行GIST图像特征提取,得到整体特征和区段特征;整体特征包括:整体图

像GIST特征;区段特征包括:区段图像GIST特征。

结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在

特征提取包括统计信息特征提取的情况下,对图像缩略信息进行特征提取,得到图像特征,

还包括:

对图像缩略信息进行统计信息特征提取,得到整体特征和区段特征;整体特征包

括:整体图像统计特征;区段特征包括:区段图像统计特征。

结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,在

对图像进行GIST特征提取之前,还包括:

对图像进行图像补充。

结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,在

通过分类训练模型的分类识别,得到恶意文件的分类信息之后,还包括:

将分类信息所对应的恶意文件加入已分类的恶意文件样本,以通过分类信息所对

应的恶意文件对分类训练模型进行再次训练。

第二方面,本发明实施例提供一种基于图像特征匹配的恶意文件分类装置,包括:

图像特征提取模块,用于对未分类的恶意文件进行图像特征提取,得到第一图像

特征;第一图像特征包括:第一整体特征、第一区段特征;

分类识别模块,用于将第一图像特征输入预先建立的分类训练模型中,通过分类

训练模型的分类识别,得到恶意文件的分类信息;预先建立的分类训练模型为通过对已分

类的恶意文件样本进行特征训练得到,已分类的恶意文件样本中包括预先提取到的已分类

的恶意文件的图像特征。

本发明实施例带来了以下有益效果:

在本发明实施例提供的基于图像特征匹配的恶意文件分类方法中,首先对未分类

的恶意文件进行图像特征提取,得到未分类的恶意文件的图像特征;该图像特征包括:整体

特征和区段特征;然后将上述图像特征输入预先建立的分类训练模型中,通过分类训练模

型的分类识别,得到恶意文件的分类信息;该预先建立的分类训练模型为通过对已分类的

恶意文件样本进行特征训练得到,已分类的恶意文件样本中包括预先提取到的已分类的恶

意文件的图像特征。本发明实施例所提供的基于图像特征匹配的恶意文件分类方法,能够

基于恶意文件本身的数据特征和结构特征,提取出该恶意文件的图像特征,并将图像特征

进行机器学习分类,以建立新的分类训练模型,从而对新的恶意文件进行准确的分类识别。

对于相应的同源以及变种恶意文件只要局部特征拥有相似性,该方法就能精确定位识别到

相应的类别。通过机器学习的方式进行识别,在一定程度上也节省了人力的输入,提高恶意

文件的识别效率。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变

得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书

以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合

所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体

实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的

附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前

提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图像特征匹配的恶意文件分类方法的流程

图;

图2为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图3为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图4为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图5为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图6为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图7为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程

图;

图8为本发明实施例提供的一种基于图像特征匹配的恶意文件分类装置的结构示

意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明

的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是

全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提

下所获得的所有其他实施例,都属于本发明保护的范围。

目前现有的恶意文件分类方法,由于普遍存在对特征提取的能力不足、分析提取

的时间代价过大以及特征分类算法不够完善等情况,从而导致各种不够精确的结果,经常

出现误判、漏判的情况,难以真正的在工业实施中应用。基于此,本发明实施例提供的基于

图像特征匹配的恶意文件分类方法及装置,根据恶意文件本身的数据特征和结构特征生成

相应的特征图像,并从图像提取相应的维度特征进行机器学习分类,能够更精确的对恶意

文件进行分类识别;对于相应的同源以及变种恶意文件只要局部特征拥有相似性,该机制

就能精确定位识别到相应的类别。通过机器学习的方式进行识别,在一定程度上也节省了

人力的输入,提高恶意文件的识别效率。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于图像特征匹

配的恶意文件分类方法进行详细介绍。

首先对恶意文件的特征进行介绍,作为计算机系统中的程序文件,其总体上的组

成可分为数据和结构两大类。数据特征包括数据熵缩略信息、字节块特征缩略信息;结构特

征包括字节块特征缩略信息。

其中,数据熵缩略信息,为对样本中均等单位长度数据的信息熵计算。其中数据熵

缩略信息类别包含:pack(包含数据量大,为压缩数据,数据熵0.5-0.8)、code(包含数据量

中等,为代码数据,数据熵0.2-0.5)、repetition(包含数据量少,为重复数据,数据熵0-

0.2)。

字节块特征缩略信息,为对样本中均等长度数据的字节特征提取。其中字节块缩

略信息特征包含:可见ASCII、不可见ASCII、字节0x00、字节0xFF以及其他非ASCII码字符,

在数据块中判断包含最多的字节类型即为该字节块缩略信息特征的类型。

结构块特征,为对样本中均等长度数据对应位置的结构信息特征提取。其中结构

缩略信息特征包含:PE头(dos header、file header、option header)、入口点信息、导出表

信息、导入表信息、资源信息、调试信息、各区段信息、附件文件信息。

实施例一:

本发明实施例提供一种基于图像特征匹配的恶意文件分类方法,参见图1所示,该

恶意文件分类方法包括以下几个步骤:

S101:对未分类的恶意文件进行图像特征提取,得到第一图像特征。第一图像特征

包括:第一整体特征、第一区段特征。

具体的,第一整体特征包括:整体图像GIST特征和整体图像统计特征。

第一区段特征包括:区段图像GIST特征。区段图像统计特征。

上述图像特征提取过程参见图3-图7。

S102:将第一图像特征输入预先建立的分类训练模型中,通过分类训练模型的分

类识别,得到恶意文件的分类信息。

上述预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得

到,已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

在通过分类训练模型的分类识别,得到恶意文件的分类信息之后,还包括:将分类

信息所对应的恶意文件加入已分类的恶意文件样本,以通过分类信息所对应的恶意文件对

分类训练模型进行再次训练。

作为一种优选实施方式,上述分类训练模型为SVM训练模型,未分类的恶意文件经

过图像特征提取、SVM训练模型分类识别后,得到该恶意文件的分类结果信息,该分类结果

信息将包含整体与区段两部分的识别结果,最终输出结果需要结合两部分来处理。对于已

分类识别的样本结果,将重新放入训练模型中训练,完善训练模型。

参见图2所示,在对未分类的恶意文件进行图像特征提取之前,该方法还包括以下

步骤:

S201:对已分类的恶意文件进行图像特征提取,得到第二图像特征。

其中,第二图像特征包括:第二整体特征、第二区段特征。

具体的,第二整体特征包括:整体图像GIST特征和整体图像统计特征。

第二区段特征包括:区段图像GIST特征。区段图像统计特征。

上述图像特征提取过程参见图3-图7。

S202:根据第二图像特征对预先建立的初始分类训练模型进行训练,以建立分类

训练模型。

分类训练模型包括:整体模型、区段模型。

第二图像特征为从已分类的恶意文件中提取出来的图像特征,将这些图像特征输

入初始分类训练模型中进行训练,进而建立该基于图像特征匹配的恶意文件分类方法中的

分类训练模型。该分类训练模型中包括:整体模型和区段模型,整体模型对整体特征进行训

练,区段模型对区段特征进行训练,对未分类的恶意文件的分类识别过程也是整体模型和

区段模型分开进行的。

上述对已分类的恶意文件和未分类的恶意文件的进行图像特征提取的方法相同,

参见图3所示,通过以下步骤对恶意文件进行图像特征提取:

S301:从恶意文件中提取图像缩略信息。

图像缩略信息包括:整体图像缩略信息、分段图像缩略信息。

具体的,参见图4所示,从恶意文件中提取图像缩略信息,包括以下步骤:

S401:将恶意文件进行均等切分,得到多个切分块。

S402:对每个切分块进行缩略信息提取,得到整体图像缩略信息。

当对恶意文件整体缩略信息提取时,首先需要对整体进行均等切分,在本实施例

中该切分粒度为7200。对恶意文件整体均等切分后,得到多个切分块,然后对每个切分块进

行缩略信息提取,提取出的整体图像缩略信息包括:整体数据熵缩略信息、整体字节块特征

缩略信息、整体PE结构缩略信息,具体为3组大小7200的缩略信息数组。

此外,参见图5所示,从恶意文件中提取图像缩略信息,还包括以下步骤:

S501:从恶意文件中提取多个区段。

S502:对每个区段按照不同区分粒度进行切分,得到多个切分块。

S503:对每个切分块进行缩略信息提取,得到区段图像缩略信息。

对恶意文件的区段图像缩略信息进行提取,首先要从恶意文件中提取出多个区

段。其中,区段可以包括附加文件。然后对每个区段,按不同区分粒度进行切分,得到多个切

分块,这里,关于计算区分粒度的算法需要进行优化。一般情况下,越小的区段拥有越细致

的缩略信息精度。对恶意文件区段数据切分后,对每个切分块进行缩略信息提取。区段数据

不具备结构特性,因此提取的区段图像缩略信息仅包括:区段数据熵缩略信息、区段字节块

特征缩略信息。

对恶意文件的图像特征提取,首先提取整体图像缩略信息和区段图像缩略信息,

然后再对图像缩略信息进行统计信息特征提取与GIST图像特征提取。具体的,如S302所述:

S302:对图像缩略信息进行特征提取,得到图像特征。

其中,特征提取包括:GIST图像特征提取、统计信息特征提取。

提取出的图像特征包括:整体特征、区段特征。整体特征包括:整体图像GIST特征

和整体图像统计特征。区段特征包括:区段图像GIST特征。区段图像统计特征。

具体的,在特征提取包括GIST图像特征提取的情况下,对图像缩略信息进行特征

提取,得到图像特征,包括以下步骤,参见图6所示:

S601:根据图像缩略信息,生成图像;图像由多个切分块组成。

S602:对图像进行GIST图像特征提取,得到整体特征和区段特征。

整体特征包括:整体图像GIST特征;区段特征包括:区段图像GIST特征。

GIST特征是对图像的宏观场景特征描述,包含5种空间包络特征:自然度

(Naturalness)、开放度(Openness)、粗糙度(Roughness)、膨胀度(Expansion)、险峻度

(Ruggedness);GIST特征一定程度上对图像的特征进行量化,有助于提供支持向量机的分

类模型训练。在对图像缩略信息进行特征提取的时候,首先从根据图像缩略信息,生成图

像。生成图像的方式为一个切分粒度代表一个像素块,由所有切分块组成。由于各个区段的

切分粒度不同,这样生成的图像大小会不一样,不一样大小的图像进行GIST特征比较是没

有意义的。所以需要对图像进行补充,比如可以填充像素值#FFFFFF,使得在取图像GIST特

征时,图像的大小保持一致。

此外,在特征提取包括统计信息特征提取的情况下,对图像缩略信息进行特征提

取,得到图像特征,还可以包括以下步骤,参见图7所示:

S701:对图像缩略信息进行统计信息特征提取,得到整体特征和区段特征。

整体特征包括:整体图像统计特征;区段特征包括:区段图像统计特征。

恶意文件的整体图像统计特征包括:恶意文件子类型(exe、dll、sys等),文件大

小、数据熵缩略信息总量、数据熵缩略信息方差、数据熵缩略信息pack类型占比、数据熵缩

略信息code类型占比、数据熵缩略信息repetition类型占比、字节块特征缩略信息各类型

占比、结构块特征缩略信息的类型数量、结构块特征缩略信息各类型的占比。

恶意文件的区段图像统计特征包括:区段的类型(正常区段、附件文件),区段大

小、区段缩略信息区分粒度、数据熵缩略信息总量、数据熵缩略信息方差、数据熵缩略信息

pack类型占比、数据熵缩略信息code类型占比、数据熵缩略信息repetition类型占比、字节

块特征缩略信息各类型占比。

数据熵(entropy)和字节块特征(byteplot)是计算机二进制文档数据的两个固有

特征,相似文档的数据熵和字节特征具有总体或局部的相似性,恶意文件中的程序文件拥

有的固定结构是计算机程序文档的固有特征,针对windows平台,该固有结构为PE结构,包

含PE头、区段以及其他固有PE结构,相似PE程序在PE结构上拥有总体或局部的相似性,而PE

区段信息又可分开提取为拥有之前所述两大文档数据固有特征的文档数据。机器学习中支

持向量机(SVM)的模型训练需要提供样本的多维度数据特征,而这些多维度数据的来源可

以从提供的三种缩略信息图像信息中提取的统计特征以及GIST特征中获取。图像信息的维

度量化是机器学习支持向量机决策的关键,本发明实施例中,从图像的统计信息和GIST特

征中获取相应的维度支持,完成对恶意文件类型的模型训练,从而完成恶意文件分类方法。

本发明实施例所提供的基于图像特征匹配的恶意文件分类方法,能够基于恶意文

件本身的数据特征和结构特征,提取出该恶意文件的图像特征,并将图像特征进行机器学

习分类,以建立新的分类训练模型,从而对新的恶意文件进行准确的分类识别。对于相应的

同源以及变种恶意文件只要局部特征拥有相似性,该方法就能精确定位识别到相应的类

别。通过机器学习的方式进行识别,在一定程度上也节省了人力的输入,提高恶意文件的识

别效率。

实施例二:

本发明实施例提供一种基于图像特征匹配的恶意文件分类装置,参见图8所示,该

装置包括:图像特征提取模块81以及分类识别模块82。

其中,图像特征提取模块81,用于对未分类的恶意文件进行图像特征提取,得到第

一图像特征;第一图像特征包括:第一整体特征、第一区段特征;分类识别模块82,用于将第

一图像特征输入预先建立的分类训练模型中,通过分类训练模型的分类识别,得到恶意文

件的分类信息;预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得

到,已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

本发明实施例所提供的基于图像特征匹配的恶意文件分类装置中,各个模块与前

述基于图像特征匹配的恶意文件分类方法具有相同的技术特征,因此,同样可以实现上述

功能。本装置中各个模块的具体工作过程参见上述方法实施例,在此不再赘述。

本发明实施例所提供的基于图像特征匹配的恶意文件分类方法的计算机程序产

品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码

包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此

不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置

及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品

的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个

模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现

规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功

能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行

地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图

和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功

能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实

现。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、

“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了

便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、

以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、

“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以

通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,

仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可

以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨

论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接

耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显

示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个

网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目

的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以

是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以

存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明

的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件

产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得

一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所

述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-

Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以

存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明

的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发

明进行了详细的说明,本领域的普通技术人员应当理解:...

=>>详细说明书全文请登录检索查看

图1
©2018 IPPH.cn   PatViewer·专利搜索
主办单位:国家知识产权局知识产权出版社  咨询热线:01082000860-8588
浏览器:IE9及以上、火狐等  京ICP备09007110号 京公网安备 11010802026659号