(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 CN A(43)申请公布日 2022.02.25(21)申请号 2.9H04L 61/4511 (2022.01)G06N 3/04 (2006.01)(22)申请日 2021.10. 3/08 (2006.01)(71)申请人 北京天融信网络安全技术有限公司地址 北京市海淀区上地东路1号院3号楼四层申请人 北京天融信科技有限公司北京天融信软件有限公司(72)发明人 安晓宁潘季明(74)专利代理机构 工业和信息化部电子专利中心 11010代理人 焉明涛(51)Int.Cl.H04L 9/32 (2006.01)H04L 9/40 (2022.01)H04L 41/16 (2022.01)权利要求书2页 说明书6页 附图3页(54)发明名称一种恶意域名检测方法及装置(57)摘要本发明公开了一种恶意域名检测方法及装 置,包括:获取待检测的域名,并基于所述待检测 各域名基于预先构建的二分图集生成该域名的 二分图;基于该域名的二分图生成该域名的编码 向量;将所述编码向量输入训练好的检测模型; 基于所述检测模型的输出结果确定该域名是否 为恶意域名。

本公开的方法将域名的连接关系转 换为该域名的二分图,并基于相应的二分图来生 成待检测域名节点的编码向量,并使用训练好的 检测模型对域名进行分类,有效提高恶意域名的 识别效果。 A6 7 1 5 9 0 4 1 1N C CN A权利要求书1/2页1.一种恶意域名检测方法,其特征在于,包括:获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的 二分图;基于该域名的二分图生成该域名的编码向量;将所述编码向量输入训练好的检测模型;基于所述检测模型的输出结果确定该域名是否为恶意域名。2.如权利要求1所述的恶意域名检测方法,其特征在于,首次构建所述二分图集包括如 下步骤:获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形成第 一源文件;基于所述第一源文件构建描述主机与域名访问关系的主机‑域名二分图,其中在所述 主机‑域名二分图中的主机与域名之间的边表示该主机访问了该域名;利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的‑二分 图,以获得降维的二分图集;其中所述二分图集中的数据被配置为:将存在共同访问关系的两个域名共同访问的主 机集合的系数转换为该两个域名共同所在集合的系数,且两个域名 的相似度越高,则该两个域名同时落到更多的的概率越高。

3.如权利要求2所述的恶意域名检测方法,其特征在于,所述LSH算法是基于N个 函数和b个独立的哈希函数实现的;利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的‑二分 图,以获得降维的二分图集包括:将所述主机‑域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名具有 相应的标识;基于第一邻接表利用所述N个函数生成该主机‑域名二分图的N×M的签名向量 矩阵,其中M为域名数量;将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值;将各band使用对应的哈希函数将该band映射到对应的中;基于映射后的各获得降维的二分图集。4.如权利要求3所述的恶意域名检测方法,其特征在于,基于所述待检测各域名基于预 先训练的二分图模型生成该域名的二分图包括:基于包含所述待检测域名的第二源文件以及所述主机‑域名二分图,将待检测域名加 入到所述主机‑域名二分图中;基于加入节点后的主机‑域名二分图利用LSH算法,生成该所述待检测域名的签名向 量,并将该待检测域名映射到对应的中,生成所述待检测域名的二分图。

5.如权利要求3所述的恶意域名检测方法,其特征在于,所述检测模型具有 层,训练所述检测模型包括:将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编码向 量;为各域名的编码向量添加标签,以获得训练数据集;22 CN A权利要求书2/2页基于所述训练数据集训练所述检测模型。6.如权利要求4所述的恶意域名检测方法,其特征在于,基于该域名的二分图生成该域 名的编码向量包括:将该域名的二分图转换为相应的第二邻接表;基于该域名的第二邻接表成该域名的编码向量。7.一种恶意域名检测装置,其特征在于,包括处理器,被配置为:获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的 二分图;基于该域名的二分图生成该域名的编码向量;将所述编码向量输入训练好的检测模型;基于所述检测模型的输出结果确定该域名是否为恶意域名。8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机 程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的恶意域名检测 方法的步骤。33 CN A说明书1/6页一种恶意域名检测方法及装置 技术领域 [0001] 本发明涉及网络安全技术领域,尤其涉及一种恶意域名检测方法及装置。

背景技术 [0002] 近年来,网络攻击的方式向着多元化、规模化的趋势发展,尤其是恶意域名。恶意 域名作为攻击者的攻击承载体其数量在不断增加,例如钓鱼网站使用的钓鱼网址、恶意软 件通信使用的CC服务器等等。为了识别恶意域名,传统的防御措施是使用的静态的黑名单 策略,但是在僵尸网络等使用DGA技术时,黑名单的更新速度远远比不上DGA域名的生成速 度,因此黑名单策略具有一定的滞后性,无法有效地识别恶意域名。 发明内容 [0003] 本发明实施例提供一种恶意域名检测方法及装置,能够实现将域名的连接关系转 换为图来生成待检测域名节点的编码向量,并使用机器学习模型对域名进行分类,有效提 高恶意域名的识别效果。 [0004] 本发明实施例提供一种恶意域名检测方法,包括: [0005] 获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域 名的二分图; [0006] 基于该域名的二分图生成该域名的编码向量; [0007] 将所述编码向量输入训练好的检测模型; [0008] 基于所述检测模型的输出结果确定该域名是否为恶意域名。 [0009] 在一些实施例中,首次构建所述二分图集包括如下步骤: [0010] 获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形 成第一源文件; [0011] 基于所述第一源文件构建描述主机与域名访问关系的主机‑域名二分图,其中在 所述主机‑域名二分图中的主机与域名之间的边表示该主机访问了该域名; [0012] 利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的‑ 二分图,以获得降维的二分图集,其中所述二分图集中的数据被配置为:将存在共同访问关 系的两个域名共同访问的主机集合的系数转换为该两个域名共同所在集合 的系数,且两个域名的相似度越高,则该两个域名同时落到更多的 的概率越高。

[0013] 在一些实施例中,所述LSH算法是基于N个函数和b个独立的哈希函数实现 的; [0014] 利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的‑ 二分图,以获得降维的二分图集包括: [0015] 将所述主机‑域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名 具有相应的标识;44 CN A说明书2/6页 [0016] 基于第一邻接表利用所述N个函数生成该主机‑域名二分图的N×M的签名 向量矩阵,其中M为域名数量; [0017] 将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值; [0018] 将各band使用对应的哈希函数将该band映射到对应的中; [0019] 基于映射后的各获得降维的二分图集。 [0020] 在一些实施例中,基于所述待检测各域名基于预先训练的二分图模型生成该域名 的二分图包括: [0021] 基于包含所述待检测域名的第二源文件以及所述主机‑域名二分图,将待检测域 名加入到所述主机‑域名二分图中; [0022] 基于加入节点后的主机‑域名二分图利用LSH算法,生成该所述待检测域名的签名 向量,并将该待检测域名映射到对应的中,生成所述待检测域名的二分图。

[0023] 在一些实施例中,所述检测模型具有层,训练所述检测模型包括: [0024] 将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编 码向量; [0025] 为各域名的编码向量添加标签,以获得训练数据集; [0026] 基于所述训练数据集训练所述检测模型。 [0027] 在一些实施例中,基于该域名的二分图生成该域名的编码向量包括: [0028] 将该域名的二分图转换为相应的第二邻接表; [0029] 基于该域名的第二邻接表成该域名的编码向量。 [0030] 本发明实施例还提供一种恶意域名检测装置,包括处理器,被配置为: [0031] 获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域 名的二分图; [0032] 基于该域名的二分图生成该域名的编码向量; [0033] 将所述编码向量输入训练好的检测模型; [0034] 基于所述检测模型的输出结果确定该域名是否为恶意域名。 [0035] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储 有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的恶意域名检测 方法的步骤。

[0036] 本发明实施例将域名的连接关系转换为该域名的二分图,并基于相应的二分图来 生成待检测域名节点的编码向量,并使用训练好的检测模型对域名进行分类,有效提高恶 意域名的识别效果。 [0037] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的具体实施方式。 附图说明 [0038] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:55 CN A说明书3/6页 [0039] 图1为本公开的恶意域名检测方法的基本流程图; [0040] 图2为本公开的恶意域名检测方法的构建二分图集流程示意图; [0041] 图3为本公开的恶意域名检测方法的LSH算法示例; [0042] 图4为本公开的恶意域名检测方法的二分图转换编码向量示例。 具体实施方式 [0043] 下面将参照附图更详细地描述本公开的示例性实施例。

虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。 [0044] 本发明实施例提供一种恶意域名检测方法,如图1所示,包括如下步骤: [0045] 在步骤S101中,获取待检测的域名,并基于所述待检测各域名基于预先构建的二 分图集生成该域名的二分图。通过将待检测域名的连接关系转换为该域名的二分图,从而 处理会即可获得与该域名存在连接关系的编码向量。 [0046] 在步骤S102中,基于该域名的二分图生成该域名的编码向量。 [0047] 在步骤S103中,将所述编码向量输入训练好的检测模型。 [0048] 在步骤S104中,基于所述检测模型的输出结果确定该域名是否为恶意域名。 [0049] 本发明实施例将待检测域名的连接关系转换为该域名的二分图,并基于相应的二 分图来生成待检测域名节点的编码向量,并使用训练好的检测模型对域名进行分类,有效 提高恶意域名的识别效果。 [0050] 在一些实施例中,首次构建所述二分图集包括如下步骤: [0051] 在步骤S201中、获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应 的DNS源IP,以形成第一源文件。

具体的说该步骤可以通过流量采集设备采集DNS流量,提取 并解析每一条DNS流量的字段中的域名以及发送DNS请求的源IP,每一个 信息对(源IP‑域名或者主机‑域名)作为一条记录保存到特定格式的第一源文件。 [0052] 其次还可以收集DNS日志并解析DNS请求的域名和发送DNS请求的源IP,使用黑名 单过滤所有的域名以收集恶意域名以及对应的源IP,每一个信息对作为一条记录保存到特 定格式的第一源文件。通过黑名单过滤能够区分正常DNS流量和恶意的DNS流量,便于后续 添加训练标签,用于执行检测模型的训练。 [0053] 在步骤S202中、基于所述第一源文件构建描述主机与域名访问关系的主机‑域名 二分图,其中在所述主机‑域名二分图中的主机与域名之间的边表示该主机访问了该域名。 具体的可以通过图生成模块实现,该模块可以加载DNS流量采集设备形成的第一源文件来 构建主机与域名的访问关系二分图,即主机与域名之间的连接图,可以将主机‑域名二分图 保存到特定格式的文件。在所构建的主机‑域名二分图中,若一个主机访问了某个域名,则 在该主机与域名之间添加一条边。如果一个主机访问了恶意域名,那么这个主机访问的其 它域名是恶意域名的概率会变得更高,并且感染相同家族的主机会以更高的概率访问相同 家族的CC域名。

[0054] 在步骤S203中、利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的 ‑二分图,以获得降维的二分图集。其中所述二分图集中的数据被配置为:将66 CN A说明书4/6页 存在共同访问关系的两个域名共同访问的主机集合的系数转换为该两个域名共同 所在集合的系数,且两个域名的相似度越高,则该两个域名同时落 到更多的的概率越高。也即本示例中通过计算两个域名的共同访问主机集合的 系数就可以有效地衡量域名关系的强度,从而能够有效实现对主机‑域名二分图的 降维。 [0055] 在一些实施例中,所述LSH算法是基于N个函数和b个独立的哈希函数实现 的; [0056] 利用局部敏感哈希LSH算法将所述主机‑域名二分图转换为对应的‑ 二分图,以获得降维的二分图集包括: [0057] 将所述主机‑域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名 具有相应的标识。如图3所示,第一邻接表中各主机具有相应的标识A、B、C、D。

基于第一邻接 表利用所述N个函数生成该主机‑域名二分图的N×M的签名向量矩阵,其中M为域名 数量。将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值。具体参 见图3,可以将基于第一邻接表利用所述N个函数生成该主机A、B、C、D与域名 、bbcom、、、的主机‑域名二分图的N×M的签名向量矩阵,并将签 名矩阵水平划分为b个band,每个band中每个域名包含r个签名值然后将各band 使用对应的哈希函数将该band映射到对应的中。将所有的进行编号,并将 ‑保存到指定格式的文件。由此可以基于映射后的各获得降维的二分 图集(‑二分图)。通过这样的方式实现了将主机‑域名二分图变换为域名 ()与的连接关系,由于的数量远小于主机的数量,因此整个主机‑域名 二分图即连接关系转换成了降维的‑二分图。 [0058] 神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是 仅仅借助样本数据无需建立系统的数学模型,就可以实现输入空间到输出空间的高度非线n 性映射。

假设模型输入的特征向量为x∈R ,y∈{0,1},g为激活函数,神经网络模型可以简 单表示为: [0059]Th (x)=g(θx)θ [0060] 模型输出h (x)=p(y=1|x;θ),也即模型输出是待预测样本标签为1的概率。神经θ 网络通过反向传播实现参数的更新,通过不断迭代最小化模型的损失函数来近似求解参数 θ。 [0061] 在一些实施例中,所述检测模型具有层,训练所述检测模型包括: [0062] 将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编 码向量; [0063] 为各域名的编码向量添加标签,以获得训练数据集; [0064] 基于所述训练数据集训练所述检测模型。 [0065] 本示例中,检测模型可以包括一个层3个全连接层和1个层, 层的输出即为域名的嵌入向量,使用该项量可进行恶意家族分类或者恶意域名 识别。在训练过程中可以加载前述的‑二分图,将二分图转换为第二邻接表, 如图4所示在该第二邻接表中每一列对应于每个域名的编码向量;其次对每个域名进行标77 CN A说明书5/6页 注作为训练数据集,例如正常域名的向量标签置为0,恶意域名的向量标签置为1,具体的标 注可以依据前述基于黑名单过滤的结果实现。

最后使用训练数据训练带有层神 经网络模型,调优后将该检测模型保存到设备磁盘。 [0066] 在一些实施例中,基于所述待检测各域名基于预先训练的二分图模型生成该域名 的二分图包括: [0067] 基于包含所述待检测域名的第二源文件以及所述主机‑域名二分图,具体的生成 第二源文件的过程也可以通过流量采集设备完成,在获取到第二源文件之后,基于该第二 源文件将待检测域名加入到前述主机‑域名二分图中,若节点存在则仅添相应的边即可。 [0068] 基于加入节点后的主机‑域名二分图利用LSH算法,生成该所述待检测域名的签名 向量,并将该待检测域名映射到对应的中,生成所述待检测域名的二分图。可以利用 前述的N个函数,对该域名执行给定的N个算法,生成该域名的签名向量,其 次将该签名向量划分为b个band,并使用每个band对应的哈希函数将各band映射到相应的 中,生成该待检测域名的‑连接图(待检测域名的二分图)。 [0069] 在一些实施例中,基于该域名的二分图生成该域名的编码向量包括: [0070] 将该域名的二分图转换为相应的第二邻接表,具体的第二邻接表的格式可以参考 图4或者前述转换方式。

从而可以基于该域名的第二邻接表成该域名的编码向量。将该域名 的编码向量作为前述训练完成的检测模型的输入,则模型输出该域名为恶意域名的概率p, 对于人工设定的阈值k(默认k=0.5),若p>k,则判定该域名为恶意域名,否则为正常域名。 [0071] 本公开的方法基于图实现恶意域名检测,通过构建域名与主机连接关系的二分 图,并将域名与主机的二分图通过局部哈希算法(LSH)转换为‑二分图来提取 域名之间的局部相关性特征,使用该特征训练嵌入模型来生成每个域名的向量表达,该方 案将域名分类转换为图节点分类,可以有效地提高模型对恶意域名的检测效果。 [0072] 本发明实施例还提供一种恶意域名检测装置,包括处理器,被配置为: [0073] 获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域 名的二分图; [0074] 基于该域名的二分图生成该域名的编码向量; [0075] 将所述编码向量输入训练好的检测模型; [0076] 基于所述检测模型的输出结果确定该域名是否为恶意域名。 [0077] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储 有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的恶意域名检测 方法的步骤。

[0078] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有 的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该 要素的过程、方法、物品或者装置中还存在另外的相同要素。 [0079] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。 [0080] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方 法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下88 CN A说明书6/6页 前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做 出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 (如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务 器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

[0081] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体 实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员 在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多 形式,这些均属于本发明的保护之内。99 CN A说明书附图1/3页图1图21010 CN A说明书附图2/3页图31111 CN A说明书附图3/3页图41212

未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处墨迹游戏网

原文地址:《一种恶意域名检测方法及装置.pdf》发布于:2024-11-13