分享自:

一种基于卡特兰数和戴克字性质的隐写新方法

期刊:Future Generation Computer SystemsDOI:10.1016/j.future.2019.05.010

关于《基于卡特兰数和迪克词特性的新型隐写术方法》的学术研究报告

本文旨在向研究人员介绍Muzafer Saračević等人于2019年在期刊*Future Generation Computer Systems*(第100卷,186-197页)上发表的一项原创性研究成果。该研究提出了一种创新的信息隐藏方法,其核心在于利用卡特兰数(Catalan Numbers)和迪克词(Dyck Words)的组合数学特性,实现了无需修改载体(cover medium)的隐写术(Steganography)。

一、 主要作者、机构与发表信息

本研究由塞尔维亚的多个研究机构的学者合作完成。通讯作者兼第一作者是Muzafer Saračević,来自诺维帕扎尔大学(University of Novi Pazar)计算机科学系。合作者包括:Singidunum大学信息与计算学院的Saša Adamović和Vladislav Miškovic;贝尔格莱德应用研究电气与计算机工程学院的Nemanja Maček,以及同属于Megatrend大学计算机科学研究生院的Nemanja Maček;以及Singidunum大学的Marko Šarac。该研究论文于2019年5月16日在线发表于Elsevier出版社的期刊*Future Generation Computer Systems*。

二、 研究背景与目标

本研究属于信息安全和隐写术领域。现代隐写术旨在通过强大的计算机算法,将秘密信息隐藏于图像、文本等载体中,使其存在性难以被察觉。传统的隐写方法,如最低有效位(LSB)替换或插入,会改变载体内容,从而可能在与原始载体比较时被检测到差异(即易于受到统计分析攻击)。密码学虽然可以加密信息,但密文本身会暴露通信的秘密性。因此,研究的目标是发展一种更隐蔽、更安全的隐写方法。

该研究的背景知识核心是卡特兰数及其在组合数学中的表现形式之一——迪克词。卡特兰数是一系列出现在众多组合问题中的自然数。迪克词是一种特殊的平衡二进制字符串(例如,可以视“1”为开括号,“0”为闭括号),其特性是:在任何前缀中,“1”的数量不少于“0”的数量,且整个字符串中“1”与“0”的数量相等。这种“比特平衡”特性使得迪克词可以被用来确定载体中比特的位置,而无需改变这些比特的值。

基于此,本研究的具体目标是:提出一种基于“生成”而非“插入/替换”的隐写方法。该方法首先生成一个复杂的隐写密钥(Stego-key),该密钥能够完全根据原始载体和秘密信息生成;在传输过程中,仅需发送此密钥和原始载体(或仅密钥),接收方利用密钥即可从原始载体中“提取”出秘密信息。由于载体本身未经任何修改,因此能够天然抵御基于载体对比的隐写分析(Steganalysis)。

三、 研究工作的详细流程

本研究的工作流程主要分为两大模块的设计与实现,并辅以详尽的安全性分析。研究通过Java语言进行了概念验证实现。

第一模块:复杂隐写密钥的生成

该模块由一个名为GenerateStegoKey的Java类实现,其目标是根据秘密信息、载体数据以及卡特兰数/迪克词参数,生成一个唯一的复杂隐写密钥K。密钥K是一个有序三元组:K = {{ni}, {s, e, r}, {di}}。生成过程包含四个阶段:

  1. 参数定义阶段:定义三组基本参数。

    • 基本参数
      • 数据载体:加载图像(通过Base64编码后转为二进制)或文本(直接转为ASCII二进制)。
      • 隐藏信息:加载待隐藏的秘密文本,并转换为二进制序列。
      • 卡特兰数基n:输入一个或多个基n的集合{n1, n2, ..., nm},用于后续生成卡特兰数Cn
    • 高级参数
      • s(起始):从生成的迪克词集合中开始选择的起始索引(默认为1)。
      • e(结束):选择的结束条件,通常等于秘密信息的比特长度h
      • r(要求):选择步长,例如r=1表示选择每一个迪克词,r=2表示每隔一个选择一个。
  2. 迪克词生成阶段:根据输入的基n的集合,计算对应的卡特兰数Cni。每个卡特兰数Cni的值即代表对应基ni下所有可能的迪克词的数量。程序生成这些迪克词(二进制串),并将其转换为十进制数,形成一个庞大的迪克词(位置)集合DW = {dw1, dw2, ..., dwM},其中M是所有Cni之和。这些十进制数将作为从载体二进制数据中选取比特的“位置索引”。

  3. 载体比特选择与偏差位发现阶段:此阶段是核心操作。

    • 比特选择:根据高级参数{s, e, r},从迪克词集合DW中选出一个子集。例如,从第s个迪克词开始,以步长r连续选取,直到选出e个位置索引。这些索引值指向载体二进制串中的特定位置。
    • 提取载体比特:根据上述位置索引,从载体二进制串中提取出对应的比特序列,记为Wbits
    • 比较与发现偏差:将提取出的Wbits与秘密信息的二进制序列Hbits逐位比较。记录下所有值不同的比特位。关键的是,记录的不是该比特在载体中的绝对位置,而是该比特在本次选择操作中的“迭代序号”(即第几次选择)。这些序号构成偏差位集合{di}
  4. 隐写密钥形成阶段:将前三个阶段确定的三个集合组合起来,形成最终的复杂隐写密钥K = {{ni}, {s, e, r}, {di}}。至此,发送方只需保存或发送这个密钥K,而原始载体可以公开或通过常规渠道传输。

第二模块:基于隐写密钥的秘密信息生成(提取)

该模块由另一个Java类GenerateHiddenMessage实现,接收方在获得原始载体和隐写密钥K后,通过以下四个步骤还原秘密信息:

  1. 输入载体与密钥:加载未经修改的原始载体和接收到的隐写密钥K
  2. 载体比特选择:利用密钥的第一部分{ni}重新生成相同的迪克词集合DW,再利用第二部分{s, e, r}确定选择规则,从而从载体中提取出与发送方完全相同的比特序列Wbits
  3. 偏差位补全(翻转):利用密钥的第三部分{di},得知在Wbits序列中哪些迭代序号上的比特需要取反(0变1,1变0)。对这些特定位置的比特执行补全操作。
  4. 秘密信息生成:补全操作后得到的比特序列就是原始的Hbits。将此二进制序列转换回文本,即得到完整的隐藏信息。

安全性分析流程

为了评估所提方法的有效性,研究团队进行了深入的隐写分析,包括理论安全分析和基于机器学习的实验分析。

  • 理论分析:从密钥三个组成部分的角度分析其抗攻击能力。

    • {ni}破解:仅使用一个较大的基n(如n=32),生成的迪克词数量Cn就极其巨大(约5.55e16个)。要遍历所有可能以寻找正确的n,所需的时间和存储空间在现有计算资源下是不现实的。若使用多个n的组合,则搜索空间呈组合爆炸式增长。
    • {s, e, r}破解:这些参数定义了比特选择的起始、结束和模式,增加了密钥空间的维度。方法还支持将信息分段隐藏于多个载体中,进一步增加了分析的复杂性。
    • {di}破解:集合{di}记录的是迭代序号而非绝对位置。即使攻击者获得{di},在不知道{ni}{s, e, r}的情况下,也无法定位到载体中的具体比特,因此毫无用处。
    • 载体不变性:这是本方法最根本的安全优势。由于载体未被修改,基于统计差异的传统隐写分析工具(如比较原始载体与含密载体)完全失效。
  • 机器学习实验分析:为了量化评估其安全性,并与传统LSB方法对比,研究者进行了一项机器学习隐写分析实验。

    • 数据集:创建了100张彩色图像的三个类别:A(原始图像)、B(使用LSB方法嵌入信息的图像)、C(使用本文卡特兰方法“嵌入”信息的图像)。注意,C类图像的载体本身并未改变,其“嵌入”过程是逻辑上的。
    • 方法与流程:使用OpenCV库的ORB特征提取方法从图像中提取特征。随后,应用多种机器学习模型(决策树、支持向量机、随机森林、梯度提升CatBoost以及深度卷积神经网络)来训练分类器,目标是将图像分类到上述类别中(先是二分类:原始vs修改;再是三分类)。
    • 数据处理:模型从提取的图像特征中学习区分不同类别的模式。如果某种隐写方法容易被检测,那么训练出的模型应能获得较高的分类准确率。

四、 主要研究结果

理论设计与实现结果:研究成功设计并实现了上述两阶段隐写系统。通过具体示例(如将“OK”隐藏于一段英文文本中),论文详细演示了从参数输入、迪克词生成、比特选择比较到最终形成密钥K = {{2,3,4}, {1,16,1}, {1,7,9,12,13,15,16}}的完整过程,以及接收方利用该密钥和原始文本无误还原出“OK”的过程。这证明了该方法的可行性和正确性。

安全性分析结果: 1. 理论安全结果:分析表明,该方法的安全性完全依赖于复杂密钥K。对三个密钥组成部分的暴力破解在计算上均不可行。尤其是载体未修改的特性,使得任何依赖于检测载体修改痕迹的分析方法失效。研究指出,密钥甚至可以分片段分发,进一步提升系统安全性。 2. 机器学习实验分析结果:这是本研究提供的重要实证结果。实验数据显示: * 无论是区分原始图像与修改后图像(A vs B/C)的二分类任务,还是区分三种图像类型(A vs B vs C)的三分类任务,所有测试的机器学习模型(包括深度神经网络)的预测准确率在统计上均与随机猜测无显著差异(p > 0.05)。 * 模型的接收者操作特征曲线(ROC曲线)下面积(AUC)接近或低于0.5,表明模型没有获得任何有效的区分能力。 * 特别重要的是,对于本文提出的方法(C类),模型的表现与对原始图像(A类)的表现同样差,这意味着机器学习方法无法从载体图像本身检测出是否用该方法隐藏了信息。这与LSB方法可能留下可检测痕迹形成了潜在对比(尽管在此实验中,由于特征提取方法等原因,LSB也未表现出明显可区分性,但论文指出经典LSB在理论上更脆弱)。 * 结论:基于所采用的机器学习方法,无法可靠地区分原始图像和经过所提隐写方法处理后的图像,这从实证角度支持了该方法对抗自动化隐写分析的有效性。

五、 研究结论与价值

本研究提出并验证了一种基于卡特兰数和迪克词的新型、安全的隐写方法。其核心结论是:通过将秘密信息的隐藏转化为一个由复杂密钥控制的、从原始载体中“生成”秘密信息的过程,可以完全避免对载体数据的任何修改,从而从根本上免疫于一类重要的隐写分析攻击。

科学价值:该方法为隐写术领域提供了一种全新的思路,即“生成式”隐写。它将信息隐藏问题与组合数学深刻关联,展示了抽象数学工具在解决实际安全问题的潜力。它挑战了传统隐写术必须修改载体的范式。

应用价值:论文提出了多种具体的应用场景: 1. 认证:通信双方共享隐写密钥和公共载体,能否生成正确的“约定信息”可作为身份认证手段。 2. 密钥分发:该隐写密钥本身可作为一次一密的会话密钥,或用于分发其他加密系统的密钥。 3. 商业信息系统中的隐蔽存储:类似于创建加密磁盘中的隐写分区,只有拥有正确密钥的人才能从看似普通的文件(载体)中提取出隐藏的敏感数据。 4. 物联网与医疗数据隐私:在资源受限或需要高度隐蔽性的场景(如IoT设备、医疗数据传输)中,该方法提供了一种轻量级且难以检测的隐私保护补充手段。

六、 研究亮点

  1. 根本性的创新:提出了“不修改载体”的隐写范式,这是与主流隐写技术的本质区别,带来了极高的隐蔽性。
  2. 巧妙的数学应用:创新性地将卡特兰数和迪克词的组合特性应用于比特位置选择,确保了选择的巨大空间和可逆性。
  3. 复合密钥设计:设计的三段式复杂密钥结构,将安全性的负担从载体转移到了密钥本身,且各段密钥相互依赖,大大增强了抗破解能力。
  4. 实证安全评估:不仅进行了理论安全分析,还采用了前沿的机器学习方法进行隐写分析测试,为方法的安全性提供了实证支持。
  5. 清晰的系统架构与可实现性:给出了详细的两阶段系统框架、具体算法步骤和Java实现说明,并配有具体实例,使得研究工作清晰、完整且可复现。

七、 其他有价值内容

论文在“相关工作”部分系统地综述了隐写术领域的最新进展,包括多层安全系统、基于像素指示器、基于阿拉伯文本Kashida、基于颜色强度自适应以及秘密共享与隐写结合等多种技术,为读者提供了丰富的背景和定位。同时,论文也指出了未来研究方向,如将当前秘密密钥隐写系统扩展至公钥隐写系统,展示了该研究框架的延伸潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com