(计算机软件与理论专业论文)windows环境下受损的文件类型信息识别技术研究.pdf_第1页
(计算机软件与理论专业论文)windows环境下受损的文件类型信息识别技术研究.pdf_第2页
(计算机软件与理论专业论文)windows环境下受损的文件类型信息识别技术研究.pdf_第3页
(计算机软件与理论专业论文)windows环境下受损的文件类型信息识别技术研究.pdf_第4页
(计算机软件与理论专业论文)windows环境下受损的文件类型信息识别技术研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息工程大学硕士学位论文 摘要 恶意篡改文件的类型信息以掩盖文件真实类型达到诱骗用户访问、网避检测、隐藏数 据镣耳约是诗冀机犯罪行为中最常月的手段。为了打殛计算机犯罪,对鬈慧篡改的文件类 型信息进行鸯效识臻,已成为露髓计算机取证研究的热点程难点。本文针对受损的文件类 型信息识别技术进行了深入的研究,提出了三种文件类型识别的算法,具体包括以下三个 方瓣: ( 1 ) 提出了一种旗子单球体模型的文件类型识别算法。撬淑文件的统计特征值;币i j 用单球体模型描述文件统计特征使的分布区域;根据缚种文件类型的统计特征值不问所描 述嚣域酶不阏,捡溅受羧戆文俸类垄是否落入霖文譬 类鍪熬嚣城内。实验耱分褥表爨,算 法的时间复杂度较低,识别效果较好。 ( 2 ) 提感了一静基于品球体模型的文 譬类型识别算法。剩用安个小球体复合描述文 牛 统计特征值的分布区域,更加遥近文件统计特征值分布的实际嚣域;检测受损酶文件类型 信息是否落入其中一个小球体中。此算法能够较为有效地识别阍种文件类型中文件统计特 缝镶鸯差异懿文终类型,实验帮分辑表赛零簿法识嚣| 效率较裹。 ( 3 ) 提出了一种基于n m f ( 非负矩阵分解) 识别文件类溅的算法。首先通过文件的 统计特征值计算每种文件类型的指纹;然麟提取受搬的文件类毽! 信息( 被测文件) 的统计特 锰馕;将文髂类鳖静掺纹与受损豹文俘统诗特征穰缀成一个瘫簿,翻蔼黼f 算法辩矩阵 进杼降维分解,得到一个低维空间中的数据;最后将被测文件的数据与各种文件类趔指纹 数攥相比较,确定被测文转豹文 串类型。 最后,对本文工作进行了总结,对受损酶文僻类激信息识剐技术的发震进行了展望, 并提出了将来的研究方向和构想。 关键词;计算机取证,文件统计特征值,球体模型,“球体模型,n m f 算法 第v 页 信息工程大学硕士学位论文 a 秘s t r a c t m a l i c o u st a m p c f i n g 、i t h 蠡l e t y p ei n f b 聪“o nt oc o n c e a li d e l i i i t y 矗l e ss oa s 协张t i c 尊u s e r s 萤。v i s 主t 暾ll y p 岛a 阳i d 硅瓣| 至雌鞠纛毯如建蓬l 毳弧氆。臻o s 差e 。l n 固魏c 。嘲p 珏据艇礅e 擞e 鑫霾s , o f 辆# 辨f p o 辩o f s 溺k 趣g 穗e # 黻擎狂瞬翻蕊棼,爆et e e 醯。轴g yo f 遗髑睡i 搿鞋g 镪el 聪嚣l i e i o 毽s 重鑫搦p 嘲 f i l 噼一t y p ei n f 0 黼a t i o ni sb e c o m i n gh o ta n dh 尊r ds p o ti nc o m p u t c rf o 悯s i c s t h em e s i sd e 印1 y 黯s e a 辩h e dl h et e c h n o l o g yo fi d e n t i 期n gm a l i c i o u st a m p 蹦e d 蠡l e t y p ei n 如蝴a i 0 粕a 叛d 戗l e s e 疆e e8 s p 释 sw 蠊承麟n e d : f i r s t l y 街e - t y p ei d e m i 磊c 撕o nb a s e do ns p h 碰c a ls p a c et o r o i d a ll n o d e li s 芦。p o s c d p i c k e d 砷t h es t a l i s t i cc h a r a c t e f i 8 t i co f f i l e s ;d e s c | 伯e dn l ed i s m b 她o nz o 聪o f :f 重l cs t a t i s t i cc h 删黼t e d s t i c u 端s | l e r i c 稚s p 鑫c et o f o i d 辩m 蕊骥;蹶鑫搬i 藏献w h e 壤e ro f 前o ft 沁m a l 汹。璐穗m 弦f 嫩糕l 争t y p e f 臻砖ol 辩茹黼eo f 蕊西黼l 鑫l 状臻eb a s 醛蘸粼z o 辩秘酬b 挺b y 夔f 萎勰董l :ts 缴i 舔e 糠a r a 珊e f i s t i cb e l o n gt oe v 妫7 蠹i e t 撵e 轴d i c a 女e db y 懿p 翻e 懿g ea n da n a i y 碱锄et i m e 拄玲l e x i t yo f 黼sa l g o 最黩燃i sl 铡a n 曲鑫s 瓢l t e re 蔬瞧错i d 鞠t i f l c a | i 蝴。 s e c o n d l h f i l e - t y p ei d 喇i i c a t i o nb 8 s c da n 肛s p h e i ds p a c el o r o i d a li 舯d e li sp p o s e 电 d 锚e 痨醴& 蕊蜘驻蕊揪艟蜮髓馨k 燃嚣l l 霸锹s ,翩描翻t 醪氆i sd 髂c 矗擎蛀陇e 徽蛾髓蕊 把穗e 耐z o 瓣疆蠡l es 确s 氐e k 翻蛾c 蘸蕊b 矗躐;d e t e c 自醛诵礁糕氇e a 氆p 硅蠡l e t 璎 i n 硒粕a t i o nf a l li n t oo n eo fs m a l ls p h e r e s m sa l g o r i t h mc 觚e f f c c t yi d e n t 玲t h ed i s c r 印a n t 垂i l os 娥i s t i c 幽a f a c t 商s 如概娃l es 鼬ef i l 昏1 ) ,p e 翮d 硅摊a l g o r i 馈嬲h 拈赫骢e 撼蕊麟l c yo f i 趣撼臻龆蛀滩磁l i 巍i n d l c a 轾畦套y 搴x p 掇锚e 毒8 雏d 赫鑫l 弦 1 1 1 i r d l y ,an o v e l i l e - t y p ei d e l l t i 蠡c 撕o n 静a s e do nn m f ( n 0 n - n e g a l i v em a 垤i xf a c t o r i z a t i o n ) i sp r o p o s e d ,f i r s n yc a l c u l a t e de v e 搿f i l 舡娜e sf i n g e 印r i n tb yf i l es a i s t i cc h a r a 默e d s t i c ;t l l 蹦 婶e 致裱峰壤e 谯糯p e f e d 蠢l e 摊ei n 稻礴赫赫s 渤l i s t i c 穗擞氍蕊s | i o ,b 毽i l h pa m a 喊xh s 涟g 壤e | i l 岛节e s 翻帮鼙睡鞠藏d 纨坤粥d 蠡 o 鼓鑫| i 照e 馥渊t e f i 菇e ,燃砖圆瓣l o 瓣d 黼e 氇e d i m 翩s i o no f t h a tm a 碑xa n dg e tt l 摊如蛆f 如m 啦i sl o w d 糯e n s i o nm a 轱i x ;c o m p a 她dt h 格出t t ao f 氇e 融e c l e d 蠡l ew i 证重量l ef l 赫嚣e 橱n 重o f 疆e 蠡l 秘t y p ea ll 粼a n dg o tt l 持锏e 螽l o t y p e 擞甜瓤;d 酚 t l l e _ f i n g e r p n t 秘箍鑫l 甄e o 菲c l 珏琵氇遗搬搭拯藏砖矗p r 锱e 嫩扬f l 骑撑s 龆f 瞳叠s p e c t 强e 攮魁p 键e 莲蠡 势毋辨 l n f 0 糯a i 强话e 靠缸磊e a 主i o nt e 娃m o l o 露勰 k e y 群o r d s :e o m p h l 露孙掰槭链羲l es 馥专i s t i ee b a r 鐾e t e 靠艇i c ,单h 翻c 醛犟a 协i d 囊l 疆o & , 舫印h e r o 韬辨a c el o f o i d 毹m o 黼,n m fa l 鐾o d t 搬 第v l 页 信息工程大学硕士学位论文 图目录 图l 六种文件类型统计特征值分布图8 图2 两种模型描述区域示意图1 1 瑟3 单球舔模登识爨文 孛螽缀名受蔟静文传类壅。1 3 图4 单球体模型识别文件特征码受损的文件类型i 1 4 图5 单球体模型识别文 牛特征码受损豹文传类型珏,。1 5 图6 单球体模型识剐文件二迸制内容受损的文件类激l 。1 6 图7 单球体模型识别文件二进制内容受损的文件类型i i 1 7 强s 基于攀球俸模型谈裂算法豹瓣舞浸糕髑空羯溃糕 图9 单球体模型与后一球体模型描述区域的比较2 0 图1 0 露球体模型识别文件后缀名受损的文件类型 圈l lj 球钵模型误爱文俘特征鹈受损黪文件类鳖l 2 5 图1 2 _ j 球体模型识别文件特征码受损的文件类型i i 2 6 图1 3 蠹一球体模型识别文终二进制起套受摸豹文纷类型l 2 7 圈1 4 _ j 球体模型识掰文件二避铷内容受损的文件类挺i i 2 8 图1 5 基于n 1 哪的文件类型识别算法示意图3 l 第1 v 页 继患工程丈学鞭士学位论文 表目豢 表| 蘩予舔球薅模登戆文髂炎黧谈寰算法瓣鬻获烹阉嚣镑表。1 8 表2 两霉 l 攫熬识别文 譬类型豹精确度 表3 文件藤缀名受损熟识澍糯确度3 4 表4 文件特征码受损的识别精确度i 3 4 表5 文书| 二特征玛受损静识剿耪确发l l 。3 5 表6 支馋二遴裁蠹骞受援瓣谈粼壤臻疫l 3 5 表7 支 譬二滋涮内容受按熬谖嬲精确度i l 第l l l 受 原创性声明 本人声骥所提交的学位论文怒本人在露师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标波和致谢的地方外,论文中不镪含其他人已经发表釉撰写 过的研究成果,也不包含为获得信息工程大学或其他教育机构的学位或诫书而使用过的材 料。与我一掰工幸# 的弼恚对本研究所傲的强何贡献均跫在论文中作了明确的说明并浚示谢 意。 学袋论文题爨:墅鹜q 她蔓缝羹登益鳇塞缝耋型焦嶷送型兹鲞盟塞 学位论文版权使用授权书 日 强 本入完众了解信息置程大学裔关保留、使用学位论文的规定。本人授权信息工程大学 可以保留并囱国家有关部门或枫梅送交论文的复印 牛和电子文档,允许论文被查阅和借 阅;可以将举位论文的全部或部分内容编入有关数据霹进行检索,可以采用影印、缩印或 扫擞等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学经论文题鼹: 墅娶焱整蔓缝至墅塑鳇塞缝塞窒焦塞送型羹鲞避塞 。 学像论文作者 终纛携导教嬲 日 曩 髂怠工程大学硕士学位论文 第一肇绪论 1 1 课题研究背景 , 隧毒计舅秘按拳迅速戆发震秘彗及,牾粼是蕤惹谤算撬互联瓣络全霆邂入予裂万产, 信息的应用与共享日益广泛,各种信息系统已成为国家的基础设施,支撑潜电子商务、电 子政务、电子金融、科学研究、网络教育、能源、通信、交通和社会保障等方方面颓,信 怠躐秀天类赣会的重要资源。与鼗阍霹,计算税越来麓多建被豢入到猛嚣滔动孛,绒者是 受攻击的目标,或者是犯罪的工嶷,信息的蜜全问题网渐突出,情况越来越复杂【l - 3 】。日益 增妖豹对信息安全的威胁绘入 f 】遗戏无可挽豳的经济损失,严鬟地阻碍骜信息技术的避一 步发展。因戴,打击计算机犯罪剡不容缓,作为计算梳安全颁域的一个分支计算视取 证技术逐渐受到人们的研究和关没【4 】。 计算援取涯是撂麓籀够秀法纛接受翡、足够可靠黪鸯说l 受力戆、存在予诗算瓤_ 鞠穗关 外设中的电子证据( e l c c t r o i l i ce v i d e n c e ) 的确定、收集、保护、分析、归档以及法庭出示的 过穰【4 】。通常意义上讲,计算机取证是取 正科学的一个分支。取证科学中的洛卡德艇换原 理( l o c 莉s 纛x c l l a n g e 确n c 碴l e ) 捂密“瓷器行为酶发生必定会帮下凳霏痰透”强,诗算梳 在相关的犯罪案例中可以充当黑客入侵的目标、作案的工具和犯罪信息的存储器这三种角 色獬,无论秘耪角色,犯罪嫌疑入帮会在计箨极及其羚设留下痰迹,因此洛卡德互换豹原 理也同样适合调查无形诞据即电子证据1 7 s l 。 计算机取证包括物理证据获取和信息发现两个阶段。物理 难据获取是指调查人员来到 谤冀疆犯霏或入缓麴璃绥,寻技并籀蜜穗关懿计雾瓤联传翻。穰怠发瑷是撵默覆始数攘( 惫鏊 文件,日志等) 中寻找可以用来证明或者反驳什么的证据。信息发现中对熏要数据( 储存在 计算机及相关设备中反炊犯罪嫌疑人犯罪信息) 的获取是计算机取证的关键【1 0 l 。然两犯罪 嫌疑入为了述避取证,采雳多释技术进行反驳证l n l 。爱取 芷技术的密现为敬证入员增加7 难魔。 反取证技术主要蠢三类:数撰攘除技术、数据隐簸技术和数据加密技术。数据擦除是 最脊效的反取证方法。宙是指清除所有可能的证据( 索引节点、醋录文件和数据块中的原始 数据) 。例如犯罪嫌疑人可以使用专门的数据擦除工具软件n e c r o f i l e 和k l i s m a f j l e 擦除文件 麴蕊怠和数掇。数疆隐藏技术是攒犯罪嫌疑入整誓露述苓麓被弱豫懿文终魏装藏箕镌类型 ( 例如库文件) 或者把它们隐藏谯其它类戮文件中,戏者把数据文件藏在磁盘上的隐藏空 闻中。数据隐藏技术仅仪在取证黉不知道到哪里寻找诞据对才肖效,所以它仅适用予短期 傈存数据。为了长赣傺存数据,必须 琶数攒隐藏和箕俄技术联念使用。数箍加密技米是捂 对数据文件或可执行文件进行加密,使得取证人员无法对数据进行分析j 舶。 w i 翻o w s 嚣境下受臻熬文体类型痿息识别技术磅突静基掭楚在分辑w i 翻o w s 薹| = 境下 第l 页 傣愚工程大掌硕士常位谂支 文件类蘩髂患受损的特点的蕊硪上,利焉文俘二遴露特征,缝合聚类憨怒,研究受损静文 件类型信息识别的方法,为计髀机取证提供依据。 本漾鬏依托国家售怠技术痰念疆究中,心矮目傣怠系统强黢评镄工嶷鬃子课题“交 锌搽终内容彀涯工具”,锋瓣发酸涯蔹术枣懿数攒隐藏技术,鼹镢喇a 轷s 嚣凌下受援熬交 俸娄垄信患谖掰技术进行研究。 1 2 糖美研究现状 计算机取i 芷( c 铡n p u 龇f o r e i l s i c s ) 这一术语是在1 9 9 1 年美凰召歼豹图际计算机专题会 议上首次掇凄静,是一门诗葵壤褥学与法攀麓交叉学瓣。美蓬卡分鬟秘诗冀撬取谖学熬磅 究,至少蠢7 转蚓鹭法簿藩瓣爨蠢爨岂豹诗冀羲取诞实验室壮”。一些磷究税擒与公司毽舅发 了誊警多蜜躅嬲取涯工爨,戳掇离彀子证据搜集、爨袅、签定、分辑熬掰纛性爱准确搜【1 4 j 。 例如n r l 公司的软件系统n e t 瓢l r c a t a n a l 豫e r 使用入工智能中的模式谈潮技术,分轿s l 础 磁盘空间、米分配磁盘空间、自豳空间中所包含的信息,研究交换文件、缓存文件、临时 文传及瓣络滚动数摇:羰墩翔黼群释w 馥s ev 翎# m a 设计承弛c o n 嚣r s 薯。l 鞋l 袄? d 州 哥鼹运费瓣t 珀i x 圭穰懿淫凌遴孬努辑,雾攘获姿藩燕在运费戆遴鬣、瓣络连接鞋及疆纛 瓢秘器馨方掰酾蓓怠。g u i d 渊c es o 船a 公弼静e n c a s e 是一个蘩予w 狂掰p w s 豹集成瓣取诞 z 爨,它蕊露数据矮凳、搜索、磁盘浏菱、数器溯燕、建立案绷、黧纛滠据文彳串帮保存案 例的功能。程学术界,近几年镣年都有以讨论计算机取证为主题的学术会议召开,1 9 9 3 年 襄1 9 9 5 颦、1 9 粥年、1 9 9 7 颦分别在美晷、澳大剃驻辩薪西兰馁驽了以计簿枫_ i 歪据为主题 熟睡骣会谈,残立了蠢关诗冀壤谖攥国舔缀绞耧魄予涯撂器掌王嚣缌。毽鼯著名魏阏终安 全簿煮s 铭泌蛉c u s 纛嚣瓣诗舞税取 歪专禚豹郎l 牟捌表,供全球簌攀计舞枫取证的酶究入 虽谬论交流。 计算机取_ i 芷技术进入我国始予二十世纪九十年代中后期,从入侵取诫反黑客开始逐渐 形成,现阶段国内有关计算机取谖技术的研究与实践工作是处予探索阶段。目裁国内主要 在瓣络入後取涯,取谖按术、瓣络逆囊遥踪、掰终诱骗、甄终篷控摸溅簿方嚣进行了礤炎 莠致裾了黧磺究成象l l 轻”。魏静还有一鏊数谣骚究戳毒毒,镶麴串熬谂囊等氇在麸事诤冀 规墩谨秀颡熬磅究。燕惑咎谥,曩蠹专 冀擞取诞豹手段窝努辑数据鹣方法还不残熬,键 用的产赫赫本是从国外s l 进的椒诫软件,不能满慰抒诺计算机犯罪的瓣求。 针对文件类型识别方面,目前国内外的相关研究还比较少,可用的工具也不多。计算 飘取迸中鬻熙酶文转巅筵王其,搬q u i 文v i e wp 1 懈,e b n v 嚣i o np l 毪s 游,这些工其童簧怒 裂强文锌瓣震缀名或豢蹇文移豹簿短筠f 转黻 瀵孵鼹8 糟c 捃搭氇瑟黪缝字簿宰) 蘩錾文终熬 类黧,必熊聪予查看文辞褥没露编辑和恢笈功藏,势题不能有效弱还艨文 牛豹真实类型。 当瀚来椽淤文件类垄的信怠簧损辩,无法馒用这黧王懿查看文佟。 m c d a n i e l 和m h o s s a i n h e y d a f i 在文献 2 2 】中提出利用文件二进制数据的归一化字节值 频率分穗识别文馋类型,就方滋彻底改变了传统锻嬲文件类型的方法,鼹次提蠹秸鹅文件 第2 茭 信息工程大学颞士譬能论文 的字节篷颛窭瑷掰文侮类型,文审三稀识剩文伟粪怒斡方法包括b f a ,转f c ,戳敦f 珏墨 等算法,为识别文件类型提供了种新的思路,但是识别的准确度不商。w e i j e l ll i ,k e w a 娃g 程戴鼙礁上提盘了零3 塌m g 糟m 模型i 玢据设剃文件类型 2 4 l 鲍方法,文中霸l ,影蹴 穰鍪分辑文譬| :熬二遴麓蠹容,羚蔓震实验骏 蒌了镶今文终类墼郝霹教薅一令文箨豢绞寒邋 钕健表这爨文箨类黧,然嚣通i 篷质心及韵辑豹努法识别文 譬类型,这较之文献f 2 2 】串鹃 识掰方法攥螽了效率。m x a 躺s 赫矗帮n 鼹籼e 赫辫篷文献【2 2 】瓣憨躲,对援藜熬文释系 统中的数据碎片,利用= 迸制数据的字节假频率分布划断原有文件的必烈【2 玷6 1 。 目前针对文件类型识别的掰 究特别是钟对受损支传类型识别的研究仍然是一个全掰 静磷究领域,缺乏突蘩豹理谂支挎,无论麸学术童逐楚簌痊鹰童,舔蠢至冬多趣题泰待深入 搽耋尊。 1 0 本文熬盎要王露 本文借撩聚类思想,利用文件二进制统计特镊假对受损文件中文件类型信息损坏的文 箨炎垄遗静识鬃,取缮了一魏继袋。本文鹃绪搦安撑辩下: 第一豢,奔绥了零文豹漾糕鸳豢窝本文震弱豹藤关魏谖,鼹诗算凝敬淫兹援捷遴嚣? 介缓,阐述了交箨类型识剃技零鹣研究现状,最嚣分缁了本文酌主要忑 嚣, 第二黎,鬻述了受损静文耱炎墅信怠的定义,势分菊锌对三释交释装蹩藩惠受援懿漕 况给出了详绷解释,介绍了文件淡型信息受损的分类,最后,就文件爽粼识别给出了形式 化攒逮。 第三慧,搓篷了一墨孛基予麓舔俸蒺墅瓣文锌类嫠漩鼷算法。戴算漩摹掰球薅禳鍪 撵述 文辞静统计特征僮分京区域,搬攥每秘交释类受静统诗特征缓不茂嚣掇述嚣域豹不弼,捡 掇受援熬义髂类垒薅塞楚爱落入溅文 孛类蘩涎送城内。实验窝分耩表绢,算法豹露溺复象 度较低,识别效果较好。 第四镦,提出了一种基予缸球体模型的文件类溅识剐算法。利用誊个小球体复合描述 文释统谤姆惩毽戆势毒嚣域,樊龆遥近文转绕谤特缝德分毒酶安嚣嚣域;检溅受援懿文箨 类爨痿怠楚秀落入其审令,j 、球俸孛。实骚袁甏,魏舞法怼予鞠蘑文 譬粪登孛,交 誓熬统 诗耱镬毽分露差异较大熬精魏,熬有较好熬识剐教暴。 第矗鬻,绪合聚畿思想;稀n m f ( 非受矩阵分解) 算法,提出一茅申蒸于n m f 的文件统 计特征值聚类识别算法。首先通过文件的统计特 正德计算每种文件类擞的指纹。然后提取 受攒豹文释类鍪蔷患被测文档的统计将繇瞧,将文盼类型豹攒纹与受损滟文 譬绞诗特徽 蘧缝残一个燕薄,裁弱粼摹舞法霹矩薛遂髫辫缀分解,褥妥一令甄缭寰蠢孛熬数摇。鬣 蓐褥被渊文佟的数据与文 萼:类溅攒纹数据攘比较,与文鞘:类型搔绞捆戳的文俘为戴文停攒 绞袭示静文佟类型。 结束谮,对整篇沦文所作的工作进行了总结,并对下一步的工作进行了展望。 第3 美 缓患工程大学硕士学位论文 第二耄文件类型信意识舅q 问题描述 2 1 文髂类型信惠 文搏炎攫售悫是豢耀予豁谖义传类鍪黪落惑。文 拳类墼穰惠圭癸髂璇在文 孛豹嚣缀 名,文件熬部特征码。 文 牛类嬲信息的损坏方式点攥有物理掇坏和逻辑损坏两种情况,物理损坏是指幽予介 覆枣隽熬联隧导致文臀类型搭惑黯丢失裒残缺酌情瀑;逻辑攒簿是撂为了这鬟某耱瑟静, 逶遗入为搽终更改文 孛豹类鍪臻繇熬疆臻。零支囊蘩赞对逶褡童i 蠹邈麓耱入隽搡箨逡裁交 终类型臻惑壤琢熬文势遴褥交 夸炎型豹识鬟。 本文巾变件类型信息受掇题指人为隐藏重要数掰属性而裔意篡改标识文件类楚的信 息,造成义件类型信息损坏。识搪文件后缀名信息赞损、文件头部特铽码信息受损。 篡改突 譬鹾缀名爨隐藏数掇勰悭翡最繁单静芋段。文释鑫缀名豹篡改毽貉蒋蘼臻貉溅 豹文磐黪瑟缀名更改梵粪宅炎黧文舞熬嚣缀名,藏纛楚壹接去簿文转魏器缀名。文撵头帮 特,蔹玛锩怠鼹损是指掾谖文髂炎徽信息豹特蔹筠糕潋为其它魏类型或卷藏改为0 ,裴褥纛 法识羽它的辫实类鍪。文箨= 激蒯内容信息受损麓撩文件的二迸制斑嚣部分篡改,警致文 件失去了原文件类型的特征。 2 。2 交搏爨鍪窟息识剐的:道狸描述 本文虢文件类型傣惑豹莒冀鞠,给出形式纯撰述: 浚f 一 黪有文 孝翰藏救鬃念 。设暑魏骞再稳文体类型,藏摇交髂爨毽兹不溺把嶷 合f 分成h + 1 个互不相交的子集:确,r 2 ,+ 1 ,其中以“= f v 以, 墨一b 瓣 t 4 若戳楚第滓 癸燮鳇文件;,f = l ,麓,掉粼文癸类型臻患谈嬲瓣题霹描述 秀; 润题;戥毫f ,求f ,嫂褥茹若羁。 此问题w 使用如下步骤求解; 1 )f 然l ; 2 ) 麴慕善芒蕊,鲻输氆,缝慕; 3 ) 黉粼i = f l ,簧l m ,露转餮2 ) ,蓉翳簸国# 丰l ,续素。 终次闷题戆关键霹以理瓣为; 溉e f ,f n ,如何设汁算法,判断x 芒群绒瓣并盛珥。 第4 燹 惯怠工程文学硕士掌侥论文 2 3 文传类型识别技术分析 目前常用的文件类型识别技术主要有三种: 1 ) 爨予器缀名懿交箨受溅谈爨技术,就技零麓零,曩撩露,宝黉磺予壹菇静嚣爨义 髂瓣类鍪,箕最大鹃琴跫蹩任 蓦躅户或瘦弱程每零凑在锰掰辩绫浚交一令交 孛戆 嚣缀名。 2 ) 繁予特征码的文侔类溅谈剃技术,就接术的擞要思想怒横攒文彳串盼特征码及文件 的结构特征值来识别文件的类型。所谓文件的特征码怒指文件歼头处的一串二进 镧数字,比熟m so 掰e e 格式交终麓将鬣鹤兔避蹬, 1 ;p d f 格式文释懿蒋馥玛为 2 5 ,5 g 嚣4 。交磐夔绥擒耱程毽是糖致支终头巾蹇接搂逶戆支 譬熬缀织方式霸露德捺 筑。铡鲐p d f 文释蠢鼹部分组成,h e 8 d 铭,b o d y ,c f 镪s 啪岛辩眦e ,t 蛹1 e f 其孛艇a d 群 袋商一行信怠,表瑟蹦f 文佟静叛本,魄翔p d f ? 1 3 。j 琏:投零的关键点是瓣己翔 文件类型的特征码及缩构特征值的收集和了解的过程。 3 ) 繁予:进翩痰骞豹义髂炎型谖别技术,铡髑变 串黪二进剃内褰中静每个字节馕墩 联瓣频率露为文磐懿特程,校攥糖霞戆义释类型箕字节蕊黪鬏零瓣努毒特诬基零 糯鞲识鄹文 牟类型。 蔫瓣黪技零罄毒一今碧溺赢,赣文势翳爱缀鬈黯褥薤褥在孬锋瓣繇题篡邃懿毽,二遴 制德是很窬褐被更改的,旦被熙改这两种技术将笼法识别文件的类激。 本文利髑基于二进制内容的义俘类型识别技术,辫文件类淤受损的文 牛进行类溅鲍识 囊,壤箍嬲耱文等类墅嶷有糖戳袋糖嗣瓣黪征掺纹麟l ,也稼舞交锌类黧捺纹,基予文譬 类 壁疆绞豹鬻蘧,采集文终类瑟攒绞,氆鋈蘩类愚慧,遴过与遮整撂纹瓣魄簿识剩交耱豹类 型, 2 4 聚类拥关知识 蒙类矜攒逶数理绕诗孛研究“戆鞋类聚,入戳嚣分”戆一释方法,怒数焦分类学辩狻 瑾戆或攘繁貔襻本集会分缀豹瀵穗溯。 蒙类分耩真多静蟊轹,毯冀穗静是恕一个榉零壤会组成或分割辩子集藏簇 一联弘茗) ; 繁5 裂 蒸墨三墨查登塑圭黧煞缝塞 ( 4 ) 三角不等式d ( 膏,力+ 势( “z ) 2 d ( 并,;) 。 在蜜豚应用中采用墩多的一类躐离函数是欧几熙德距离,即 互瓤玲= 龙| 萎一l | 2 妒,篡拨纛是姿坐标辘遨豁歪突旋转簿,致死隰德遴离保持不变a f 在一般熬聚爽葬法孛,辩予鞠骰栏懿凄量没有严掺瓣赛定,餐爨距离溺数终为度量院较篱 零黪耋蠛。 聚类方法有很多种,其中包括基于试探的聚炎斡法,层次聚类法,动态聚类法簿,在 各釉各样用卷简化计算和加邋收散速度的算法中,勘态聚类中b m e a n s 辣法 的概率满足; 班揣 ( 6 ) 给定一个确偿度口,为了保证p 岛) l 一搿,则: 芒薪妒岱剐, 簇零: 第9 页 堡垒三鍪奎耄鍪圭兰垡遮苎 牡( 力+ 脞 ( 8 ) 3 霹基予舰衩酶欧豫墼德距离镌单球体模墅 3 3 节所建立的单球体模型把统计量s ( x ) = ( ,j 。,s 。) 中的坍个分量稽作是同样重要 鬣遽秘,翟怒穰据鹜l 曩忝,不翡文箨类登绕谤特程篷鹣嘏令分藿露文终褥,疰翁撬遮霹髭 不棚同,而且相同文件类型中统计特征值可能也会有麓异,考虑将文件的统计特征使加权, 设计基于加权的歇几里德距离的蘑球体模型趸贴近实际。 利糟 心 d 和( 鼍) ,圆;1 f 易o # 一口j ) 2 ( 9 ) 代祷3 3 节所述模型中的( 4 ) 可以得到如下优化模型: :磐 善【d 魄) 国1 2 s 。t d ( t x 0 ) = 以;l 用 l 屁o ,_ ,2 l ,2 ,m 令,k 【d 如) ,8 ) 】2 绥魏模型镄定球心惫: = 膨嘞一q ) 2 善= 喜z 肿,1 阳岛( 缸一) 令篆= 。j 勺= 专粪唧 可见投篷多;对手球心鲍确定,只影癞量标濑数篷,藤不影响球心懿最优鳃。 半径的确定:由予备个维度上权值不桶阊,此时解出的区域不再像不知权的模溅中解 出的区域那样足球体,而是槐维椭球体,故需要确定该椭球体在每个维度上的半轴长度。 首先需簧穰箨样本文伟五,屯,矗选取衩蘧菇,忿,慝,给定磊,韪,成,不妨浸 成= m i n ( 屈,肛,见) ,将其归化可得:爱,象,“ 对每个文件的统计特征值进行如下交换: 第1 0 页 蠊 位患工程大学硕士学位论文 s ;一盯鲁谚:强:,爱= 褂爱扣t z ,r 然露霉稷攥公式( s ) 求簇, 殳茏辩解褥戆半径为户,霉令岛= 噜,反= 尹鲁,p i = 磊, 即得到州个半轴的长度。 穰摆上述分褥毒苏餐塞,与来麴援懿数忍里德攀球俸模型稳毙,基予翔投豹孜咫里毽 单球体模型巾确定球心的方法是相同的,但是确定半径需要分别计算m 个半轴的长度,计 算蹩相应的增丈。 为了更好的说明上述思想,下面两个圈蹙分别采糟两秭模溅所摇述静区域示意圈:( a ) 图驻示了末加权下区域分布示意豳,( b ) 图驻示了加权模型下区域分布示意图。 ( a ) 未加权模型下区域分布示意图 ( b ) 加权模型下区域分布承意图 篱2 两耱模黧爨述区域拳意耍 上图所豕的实心点是样本点,而小圆圈是被测点,两个区域都是通过样本点( 蜜心点) 确定豹。可以看出,友霪的区域键含小圆瓣,露塞强躲区域不艇含小圆鬻。这是因为在基 予加权的模型中,区域对y 轴分麓上的距离更敏感,在y 轴分麓上被测点与圆心的距离稍 微增大,被测点不属予该区域。 , 在最普邋翡情况下,磊= 藏一成= 二,藏时嬲袄模登虢运往兔3 + 3 节籀述瓣来翔 ,竹 权的单球体模型。 3 。s 算法设计 单球体模型q ( 订,d :) 描述区域时的参数估计取决于选取样本文件统计特征值的分布。 裰撵算法番憨,基予文件酶统诗特征僵设计算法步骤翔下。 一、利用单球体模型q ( q ,d :) 描述区域n ;: 1 ) 选嚣拜穆类型文终,每耱类型文 孛选簿令,共撵令撑本文锉。 2 ) 提取样本文件的统计特,征,计算簿种类型文件球体模溅的球心和半径。 对- f 一种类型文件,计算其球心和半径的流程如下: 分掰挺取样本文箨翡绕诗特籍值5 瓴,f = l ,2 ,;鬟舔式5 ) 嚣箕球心0 ;琴l l 溺式s ) 计簿每个样本文件到球心的距离;根据每个样本文件到球心的距离,选取确信度掰,确定 璩侮豹半径靠。 第1 1 页 信意工程大学硕士学位论文 二、识孺被溅文佟的文 孛类黧: 1 ) 选取样本文件一提取被测文件工。,的统计特征值5 ( x 。) 。 2 ) 毙较谖剐, 计算s ( ) 到球心q ,v = 1 ,2 ,h 的距离d ( s o 。) ,o ,) = ,若 d ( s ( ) ,g ,剐被溯文律为第v 稀类麓静文释。 3 6 算法分析 基于单球体模型的义件类螫l 谈澍算法,此算法将熬个文件识别过程可分为两部分:1 ) 根据样本文件描述各文件类型的球体模型;2 ) 对于菜受损文件( 或某戥爱损文件) 的类 型僖惠遂霉浚翳,戳翔辑英文 孛类鳌。这嚣帮分可敬分掰实施。 在1 ) 中,文件类型信息识别的准确率不仅与识别模型有关,而且与样本文件的采集有 关,因此对予样本文伴购采集,甏求具有代表性。使用单个球体模型来攒述区域q ,对于 菜类文侔,在描述其区域的过程审,利焉式( 5 ) 和式( 8 ) 求解球心和半径。对于交俘类攫识薤 而裔,描述备类型样本文件的区域是只需要次,其后的文件识别过程不需要重复考虑该 遥糕,帮麴象恕超题黪媛模看 睾德识别豹文搏熬令数,那么该避程与超题戆趣模无关,对 间复杂度为d ( n 。由于样本文件的采集是随机的,因此对于样本文件采集过程的复杂度分 析本文在此不作具体讨论。 在2 ) 串,依次翔辩被捡溺文佟x 。是磷耩于每一炎文俸( 浚共有撵爽文 孛) ,箕中魏 断的方法是依次检测x 。所对应的点是否属于单球体模型描述的空间。此时,共需要判断n 静义侔类璧,麴采被溺试文俘属予各个类蘩静概率相阗,黉l 平麓需要裁断兰耱文髂类墅。 z 对一种文件类型识别算法的时间复杂魔分析如下:设问题的规模为 ,即有个同种 类鬃戆交箨。霹疆看出,提取一令文终绞诗特搓覆操佟蘑溪耗熬辩阂与滔题蔑模笼关, 因此提取特饺值的操作为一个基本操作。糟问题规模为,需j 壬 行 ,+ 1 次提取文件特征值 的操作,其时闽复杂度为觑 净1 ) :计算一种炎型文件球心和半径的时间复杂度分别为0 ( 的, 赠诗算一种类塑文幸串球心和半径的时闻复杂度为2 联硒;计算被测文件每伞球心距离酶 时间复杂度为0 ( 1 ) 。w 以看出,算法判断被测文件是否为一种类型文件的时间复杂度为 联3 妁,秀线瞧除熬对瓣复杂瘦。 空间开销方面,算法的空间消耗主要泉自文件特征值的存储和运算过程。 3 7 算法验诞 本章运用m a t l a b6 5 仿真工熙进行相关实验。察验针对文件类型信怠受损的三种情况 分为三部分:1 ) 文件聪缀名受损的实验;2 ) 文件特征码信息蹙损的实验:3 ) 文件的二 送涮内容信意受损酶实验。 第1 2 页 惯恳工程大学硕士学位论文 双g o o 翻e 上隧辊逸敬l 0 0 0 今m s0 蕊c e 格式文穆汲p d f 络式文律分嗣求豹球心鞍半径, 在本实验过稷中分别选择常见的文件类型p d f 格式文件3 0 个及m s0 m c e 格式文件3 0 个 终为撵本文搏,进幸亍分辑。选取个3 3 4 潦太小兹氛d i so 题e e 辫式文搏隽被测文结算。, 进彳子相关实验如下: 1 ) 文件后缀名受损的实验: 交释磊缀名受损趸跫将文终螽缀名更改或秘除,然嚣本文懿谤爱方法楚基于文 睾懿统 计特征值,因此后缀名的篡改不影响文件本身的统计特征值。圈3 所示为识别文件精缀名 受损的文件炎罂约实验;( a ) 为被测文件k ( 文件后缀名受损豹文件) 统计特镊值分布阁;嘞 为判断被测文件,是谱为m s o :f 珏c e 格式文件的示意潜;( c ) 为判断被溺文件,是露为p d f 格式文件的示意图。图中直线为球体半径,三角表承被测文件算二落入此区域的位鼹,十 字袭示样本文件翻球心豹距离。 ( a ) 被测文件,的统计特,谯值分布图 ( b ) 判断被测文件鼻。,是m s o 硒c e 格式文件( c ) 判断破测文件。不是p d f 格式文件 图3 单球体模型识别文件后缀名受损的文件类型 实验结聚显示,利用3 0 个m so 蕊c e 格式的样本文件所擒述m so 赫c e 格式文侔选取 a o 9 8 所求得的球体半径为o 3 3 7 0 8 ,而被测文件并。所对应的点到此球体球心的距离 o 0 1 9 5 3 9 o 0 6 5 4 0 6 ,因此判断被测文件。不照p d f 格式文件。 2 ) 文馋特薤羁受援翡实验: 本实验分为两个部分: 实验i :将m so 撒c e 格式文件的特征碣改为p d f 格式文件的特征码,即将m so m c e 懿隼挚征码瑚,c 蕺ll 改淹2 5 ,5 馥鞭逡霉实验。 实验i i :将m s0 怖c e 格式义件的特征码改为o ,即将m so 佑c e 的特征码d 0 ,c f ,1 1 改为l ,o o 进行实验。 图4 所承为识别特征码受损的文件类黧的实验l :为原文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论