二进制代码相似性搜索研究进展

doi:10.11772/j.issn.1001-9081.2021071267

[1]

FOSSA.

The 2021 state of open source vulnerabilities

［EB/OL］. ［2021-08-08］ . 10.4236/ojmn.2018.84030

[本文引用: 1]

[2]

DAVID

Y

， PARTUSH

N

， YAHAV

E

.

FirmUp： precise static detection of common vulnerabilities in firmware

［C］// Proceedings of the 23nd International Conference on Architectural Support for Programming Languages and Operating Systems. New York： ACM， 2018： 392-404. 10.1145/3173162.3177157

[本文引用: 2]

[3]

SHIRANI

P

， COLLARD

L

， AGBA

B L

， et al.

BINARM： scalable and efficient detection of vulnerabilities in firmware images of intelligent electronic devices

［C］// Proceedings of the 2018 International Conference on Detection of Intrusions and Malware， and Vulnerability Assessment， LNCS 10885. Berlin： Springer， 2018： 114-138.

[4]

DAVID

Y

， YAHAV

E

.

Tracelet-based code search in executables

［J］. ACM SIGPLAN Notices， 2014， 49（6）： 349-360. 10.1145/2666356.2594343

[本文引用: 1]

[5]

PEWNY

J

， SCHUSTER

F

， BERNHARD

L

， et al.

Leveraging semantic signatures for bug search in binary programs

［C］// Proceedings of the 30th Annual Computer Security Applications Conference. New York： ACM， 2014： 406-415. 10.1145/2664243.2664269

[本文引用: 1]

[6]

PEWNY

J

， GARMANY

B

， GAWLIK

R

， et al.

Cross-architecture bug search in binary executables

［C］// Proceedings of the 2015 IEEE Symposium on Security and Privacy. Piscataway： IEEE， 2015： 709-724. 10.1109/sp.2015.49

[本文引用: 1]

[7]

SEBASTIAN

E

， KHALED

Y

， GERHARDS-PADILLA

E

， et al.

discovRE： efficient cross-architecture identification of bugs in binary code

［C］// Proceedings of the 2016 International Conference on Network and Distributed System Security Symposium. San Diego： NDSS， 2016： 49-64. 10.14722/ndss.2016.23185

[8]

DAVID

Y

， PARTUSH

N

， YAHAV

E

.

Statistical similarity of binaries

［C］// Proceedings of the 37th ACM SIGPLAN Conference on Programming Language Design and Implementation. New York： ACM， 2016： 266-280. 10.1145/2908080.2908126

[本文引用: 3]

[9]

FENG

Q

， ZHOU

R D

， XU

C C

， et al.

Scalable graph-based bug search for firmware images

［C］// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2016： 480-491. 10.1145/2976749.2978370

[本文引用: 2]

[10]

CHANDRAMOHAN

M

， XUE

Y X

， Xu

Z Z

， et al.

BinGo： cross-architecture cross-OS binary search

［C］// Proceedings of the 2016 24th ACM SIGSOFT International Symposium on Foundations of Software Engineering. New York： ACM， 2016： 678-689. 10.1145/2950290.2950350

[本文引用: 3]

[11]

HUANG

H

， YOUSSEF

A M

， DEBBABI

M

.

BinSequence： fast， accurate and scalable binary code reuse detection

［C］// Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security. New York： ACM， 2017： 155-166. 10.1145/3052973.3052974

[本文引用: 2]

[12]

FENG

Q

， WANG

M H

， ZHANG

M

.

Extracting conditional formulas for cross-platform bug search

［C］// Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security. New York： ACM， 2017： 346-359. 10.1145/3052973.3052995

[本文引用: 3]

[13]

DAVID

Y

， PARTUSH

N

， YAHAV

E

.

Similarity of binaries through re-optimization

［C］ // Proceedings of the 38th ACM SIGPLAN Conference on Programming Language Design and Implementation. New York： ACM， 2017： 79-94. 10.1145/3062341.3062387

[本文引用: 2]

[14]

GAO

J

， YANG

X

， FU

Y

， et al.

VulSeeker： a semantic learning based vulnerability seeker for cross-platform binary

［C］// Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering. New York： ACM， 2018： 896-899. 10.1145/3238147.3240480

[本文引用: 1]

[15]

XU

X J

， LIU

C

， FENG

Q

， et al.

Neural network-based graph embedding for cross-platform binary code similarity detection

［C］// Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2017： 363-376. 10.1145/3133956.3134018

[本文引用: 5]

[16]

LIU

B C

， HUO

W

， ZHANG

C

， et al.

αDiff： cross-version binary code similarity detection with DNN

［C］// Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering. New York： ACM， 2018：667-678. 10.1145/3238147.3238199

[本文引用: 2]

[17]

ABUBAKR

S

， BAHARUDIN

B

， JUNG

L T

， et al.

Detecting malicious executable file via graph comparison using support vector machine

［C］// Proceedings of the 2012 International Conference on Computer & Information Science. Piscataway： IEEE， 2012： 469-473. 10.1109/iccisci.2012.6297291

[本文引用: 1]

[18]

WANG

T Y

， WU

C H

.

Detection of packed executables using support vector machines

［C］// Proceedings of the 2011 International Conference on Machine Learning and Cybernetics. Piscataway： IEEE， 2011： 717-722. 10.1109/icmlc.2011.6016774

[19]

HU

X

， CHIUEH

T C

， SHIN

K G

.

Large-scale malware indexing using function-call graphs

［C］// Proceedings of the 16th ACM Conference on Computer and Communications Security. New York： ACM， 2009： 611-620. 10.1145/1653662.1653736

[本文引用: 2]

[20]

HU

X

， BHATKAR

S

， GRIFFIN

K

， et al.

MutantX-S： scalable malware clustering based on static features

［C］// Proceedings of the 2013 International Conference on USENIX Annual Technical Conference. San Jose， CA： USENIX Association， 2013： 187-198.

[21]

KIM

T

， LEE

Y R

， KANG

B

， et al.

Binary executable file similarity calculation using function matching

［J］. The Journal of Supercomputing， 2019， 75（2）：607-622. 10.1007/s11227-016-1941-2

[22]

KRUEGEL

C

， KIRDA

E

， MUTZ

D

， et al.

Polymorphic worm detection using structural information of executables

［C］// Proceedings of the 2005 International Conference on Recent Advances in Intrusion Detection. Cham： Springer， 2005： 207-226. 10.1007/11663812_11

[本文引用: 1]

[23]

BRUSCHI

D

， MARTIGNONI

L

， MONGA

M

.

Detecting self-mutating malware using control-flow graph matching

［C］// Proceedings of the 2006 International Conference on Detection of Intrusions and Malware， and Vulnerability Assessment. Cham： Springer， 2006： 129-143. 10.1007/11790754_8

[本文引用: 1]

[24]

CESARE

S

， XIANG

Y

， ZHOU

W L

.

Control flow-based malware variant detection

［J］. IEEE Transactions on Dependable and Secure Computing， 2014， 11（4）：307-317. 10.1109/tdsc.2013.40

[25]

LINDORFER

M

， FEDERICO

A D

， MAGGI

F

， et al.

Lines of malicious code：insights into the malicious software industry

［C］ // Proceedings of the 28th Annual Computer Security Applications Conference. New York： ACM， 2012： 349-358.

[26]

JANG

J Y

， WOO M， BRUMLEY

D

.

Towards automatic software lineage inference

［C］ // Proceedings of the 22nd USENIX Conference on Security. New York： ACM， 2013： 81-96.

[本文引用: 1]

[27]

MING

J

， XU

D P

， WU

D H

.

Memoized semantics-based binary diffing with application to malware lineage inference

［C］ // Proceedings of the 2015 International Conference on ICT Systems Security and Privacy Protection. Cham： Springer， 2015： 416-430. 10.1007/978-3-319-18467-8_28

[28]

ELHADI

A A E

， MAAROF

M A

， BARRY

B

.

Improving the detection of malware behaviour using simplified data dependent API call graph

［J］. International Journal of Security and Its Applications， 2013， 7（5）：29-42. 10.14257/ijsia.2013.7.5.03

[本文引用: 2]

[29]

BAKER

B S

， MANBER

U

， MUTH

R

.

Compressing differences of executable code

［C］// Proceedings of the 1999 International Conference on Compiler Support for System Software. New York： ACM， 1999： 1-10.

[本文引用: 1]

[30]

DULLIEN

T

.

Structural comparison of executable objects

［C］ // Proceedings of the 2004 International Conference on Detection of Intrusions and Malware & Vulnerability Assessment. Dortmund， Germany： DIMVA， 2004： 161-174.

[31]

DULLIEN

T

， ROLLES

R

.

Graph-based comparison of executable objects

［C］ // Proceedings of the 2005 International Conference on Symposium Sur La Securite Des Technologies De L’Information Et Des Communications. Cesson Sévigné： Association STIC， 2005：1-13.

[32]

GAO

D B

， REITER

M K

， SONG

D

.

BinHunt： automatically finding semantic differences in binary programs

［C］ // Proceedings of the 2008 International Conference on Information and Communications Security. Cham： Sprinter， 2008： 238-255. 10.1007/978-3-540-88625-9_16

[33]

HU

Y K

， ZHANG

Y Y

， LI

J R

， et al.

Cross-architecture binary semantics understanding via similar code comparison

［C］ // Proceedings of the 23nd International Conference on Software Analysis， Evolution， and Reengineering. Piscataway： IEEE 2016： 57-67. 10.1109/saner.2016.50

[34]

XU

Z Z

， CHEN

B H

， CHANDRAMOHAN

M

， et al.

SPAIN： security patch analysis for binaries towards understanding the pain and pills

［C］ // Proceedings of the 39th International Conference on Software Engineering. Piscataway： IEEE， 2017： 462-472. 10.1109/icse.2017.49

[本文引用: 2]

[35]

KARGÉN

U

， SHAHMEHRI

N

.

Towards robust instruction-level trace alignment of binary code

［C］// Proceedings of the 32nd IEEE/ACM International Conference on Automated Software Engineering. Piscataway： IEEE， 2017： 342-352. 10.1109/ase.2017.8115647

[本文引用: 2]

[36]

LUO

L N

， MING

J

， WU

D H

， et al.

Semantics-based obfuscation resilient binary code similarity comparison with applications to software and algorithm plagiarism detection

［J］. IEEE Transactions on Software Engineering， 2017， 43（12）： 1157-1177. 10.1109/tse.2017.2655046

[本文引用: 2]

[37]

TIAN

Z Z

， ZHENG

Q H

， LIU

T

， et al.

Software plagiarism detection with birthmarks based on dynamic key instruction sequences

［J］. IEEE Transactions on Software Engineering， 2015， 41（12）： 1217-1235. 10.1109/tse.2015.2454508

[本文引用: 1]

[38]

HU

Y K

， ZHANG

Y Y

， LI

J R

， et al.

BinMatch： a semantics- based hybrid approach on binary code clone analysis

［C］// Proceedings of the 2018 IEEE International Conference on Software Maintenance and Evolution. Piscataway： IEEE， 2018： 104-114. 10.1109/icsme.2018.00019

[39]

ZHANG

F F

， JHI

Y C

， WU

D H

， et al.

A first step towards algorithm plagiarism detection

［C］// Proceedings of the 2012 International Symposium on Software Testing and Analysis. New York： ACM， 2012： 111-121. 10.1145/2338965.2336767

[40]

KHOO

W M

， MYCROFT

A

， ANDERSON

R

.

Rendezvous： a search engine for binary code

［C］// Proceedings of the 2013 10th IEEE Working Conference on Mining Software Repositories. Piscataway： IEEE， 2013： 329-338. 10.1109/msr.2013.6624046

[本文引用: 2]

[41]

Hex-Rays.

State-of-the-art binary code analysis tools

［EB/OL］. ［2021-07-08］. . 10.1039/b510835g

[本文引用: 2]

[42]

KEIVANLOO

I

， ROY

C K

， RILLING

J

.

SeByte： scalable clone and similarity search for bytecode

［J］. Science of Computer Programming， 2014， 95（4）：426-444. 10.1016/j.scico.2013.10.006

[本文引用: 1]

[43]

CHEN

K

， LIU

P

， ZHANG

Y J

.

Achieving accuracy and scalability simultaneously in detecting application clones on Android markets

［C］// Proceedings of the 36th International Conference on Software Engineering. New York： ACM， 2014： 175-186. 10.1145/2568225.2568286

[本文引用: 1]

[44]

MYLES

G

， COLLBERG

C

.

K-gram software birthmarks

［C］// Proceedings of the 20th International Conference on Applied Computing. New York： ACM，2005：314-318. 10.1145/1066677.1066753

[本文引用: 1]

[45]

HAQ

I U

， CABALLERO

J

.

A survey of binary code similarity

［J］.ACM Computing Surveys， 54（3）： 51.1-51.38.

[本文引用: 3]

[46]

梁光辉，庞建民，单征.

基于代码进化的恶意代码沙箱规避检测技术研究

［J］. 电子与信息学报， 2019， 41（2）： 341-347. 10.11999/JEIT180257

[本文引用: 1]

LIANG

G H

， PANG

J M

， SHAN

Z

.

Malware sandbox evasion detection based on code evolution

［J］. Journal of Electronics & Information Technology， 2019， 41（2）： 341-347. 10.11999/JEIT180257

[本文引用: 1]

[47]

LAGEMAN

N

， KILMER

E D

， WALLS

R J

， et al.

BinDNN： resilient function matching using deep learning

［C］// Proceedings of the 2016 International Conference on Security and Privacy in Communication Networks. Cham： Sprinter， 2016： 517-537. 10.1007/978-3-319-59608-2_29

[本文引用: 2]

[48]

ZUO

F

， LI

X P

， YOUNG

P

， et al.

Neural machine translation inspired binary code similarity comparison beyond function pairs

［EB/OL］.［2018-12-16］. . 10.14722/ndss.2019.23492

[本文引用: 2]

[49]

MASSARELLI

L

， LUNA

G A D

， PETRONI

F

， et al.

SAFE： self-attentive function embeddings for binary similarity

［C］// Proceedings of the 16th International Conference on Detection of Intrusions and Malware， and Vulnerability Assessment. Cham： Sprinter，2019： 309-329. 10.1007/978-3-030-22038-9_15

[本文引用: 2]

[50]

陈昱，刘中金，赵威威，等.

一种大规模的跨平台同源二进制文件检索方法

［J］. 计算机研究与发展， 2018， 55（7）： 1498-1507. 10.7544/issn1000-1239.2018.20180078

[本文引用: 2]

CHEN

Y

， LIU

Z J

， ZHAO

W W

， et al.

A large-scale cross-platform homologous binary retrieval method

［J］. Journal of Computer Research and Development， 2018， 55（7）： 1498-1507. 10.7544/issn1000-1239.2018.20180078

[本文引用: 2]

[51]

乔延臣，云晓春，庹宇鹏，等.

基于simhash与倒排索引的复用代码快速溯源方法

［J］ .通信学报，2016，37（11），104-113. 10.11959/j.issn.1000-436x.2016225

[本文引用: 1]

QIAO

Y C

， YUN

X C

， TUO

Y P

， et al.

Fast reused code tracing method based on simhash and inverted index

［J］. Journal on Communications， 2016， 37（11）：104-113. 10.11959/j.issn.1000-436x.2016225

[本文引用: 1]

[52]

JIN

W

， CHAKI S COHEN

C

， et al.

Binary function clustering using semantic hashes

［C］// Proceedings of the 2012 11th International Conference on Machine Learning and Applications. Piscataway： IEEE， 2012： 386-391. 10.1109/icmla.2012.70

[本文引用: 3]

[53]

DING

S H H

， FUNG

B C M

， CHARLAND

P

.

Kam1n0： MapReduce-based assembly clone search for reverse engineering

［C］// Proceedings of the 22th International Conference on Knowledge Discovery and Data Mining. Cham： Sprinter， 2016： 461-470. 10.1145/2939672.2939719

[本文引用: 2]

[54]

KORNBLUM

J

.

Identifying almost identical files using context triggered piecewise hashing

［J］. Digital Investigation， 2006， 3：91-97. 10.1016/j.diin.2006.06.015

[本文引用: 1]

[55]

PAGANI

F

， DELL’AMICO

M

， BALZAROTTI

D

.

Beyond precision and recall： understanding uses （and misuses） of similarity hashes in binary analysis

［C］//Proceedings of the 8th International Conference on Data and Application Security and Privacy. New York： ACM， 2018： 354-365. 10.1145/3176258.3176306

[本文引用: 2]

[56]

AZAB

A

， LAYTON

R

， ALAZAB

M

， et al.

Mining malware to detect variants

［C］// Proceedings of the 2014 5th International Conference on Cybercrime and Trustworthy Computing. Piscataway： IEEE， 2014： 44-53. 10.1109/ctc.2014.11

[本文引用: 1]

[57]

LI

Y P

， SUNDARAMURTHY

S C

， BARDAS

A G

， et al.

Experimental study of fuzzy hashing in malware clustering analysis

［C］ // Proceedings of the 8th USENIX Conference on Cyber Security Experimentation and Test. New York： ACM， 2015：8.

[本文引用: 1]

[58]

JANG

J

， BRUMLEY

D

， VENKATARAMAN

S

.

BitShred： feature hashing malware for scalable triage and semantic analysis

［C］// Proceedings of the 18th International Conference on Computer and Communications Security. New York： ACM， 2011： 309-320. 10.1145/2046707.2046742

[本文引用: 1]

[59]

WICHERSKI

G

.

peHash： a novel approach to fast malware clustering

［C］// Proceedings of the 2nd USENIX Conference on Large-scale Exploits and Emergent Threats： Botnets， Spyware， Worms， and More. Berkeley： USENIX Association， 2019： 1-8.

[本文引用: 1]

[60]

FIREEYE.

Tracking malware with import hashing

［EB/OL］. ［2021-08-08］. . 10.1109/fuzz48607.2020.9177636

[本文引用: 1]

[61]

FARHADI

M R

， FUNG

B C M

， CHARLAND

P

， et al.

BinClone： detecting code clones in malware

［C］// Proceedings of the 2014 8th International Conference on Software Security and Reliability. Piscataway： IEEE， 2014： 78-87. 10.1109/sere.2014.21

[本文引用: 2]

[62]

LEE

Y R

， KANG

B

， IM

E G

.

Function matching-based binary-level software similarity calculation

［C］// Proceedings of the 2013 International Conference on Research in Adaptive and Convergent Systems. New York： ACM， 2013： 322-327. 10.1145/2513228.2513300

[本文引用: 2]

[63]

LAKHOTIA

A

， PREDA

M D

， GIACOBAZZI

R

.

Fast location of similar code fragments using semantic juice

［C］// Proceedings of the 2nd International Conference on ACM SIGPLAN Program Protection & Reverse Engineering Workshop. New York： ACM， 2013： 5.1-5.6. 10.1145/2430553.2430558

[本文引用: 1]

[64]

ANDRIESSE

D

， SLOWINSKA

A

， BOS H.

Compiler-agnostic function detection in binaries

［C］// Proceedings of the 2017 International Conference on IEEE European Symposium on Security and Privacy. Piscataway： IEEE， 2017： 177-189. 10.1109/eurosp.2017.11

[本文引用: 1]

[65]

ALRABAEE

S

， SHIRANI

P

， WANG

L Y

， et al.

SIGMA： a semantic integrated graph matching approach for identifying reused functions in binary code

［J］. Digital Investigation， 2015，12（1）： S61-S71. 10.1016/j.diin.2015.01.011

[本文引用: 1]

[66]

QIU

J

， SU

X H

， MA

P J

.

Library functions identification in binary code by using graph isomorphism testings

［C］// Proceedings of the 2015 IEEE International Conference on Software Analysis， Evolution and Reengineering. Piscataway： IEEE， 2015： 261-270. 10.1109/saner.2015.7081836

[本文引用: 1]

[67]

ZHANG

X C

， PANG

J M

， LIU

X N

.

Common program similarity metric method for anti-obfuscation

［J］. IEEE Access， 2018， 6： 47557-47565. 10.1109/access.2018.2867531

[本文引用: 1]

[68]

MING

J

， PAN

M

， GAO

D B

.

iBinHunt： binary hunting with inter-procedural control flow

［C］// Proceedings of the 15th Annual International Conference on Information Security and Cryptology. Cham： Springer， 2012： 92-109. 10.1007/978-3-642-37682-5_8

[本文引用: 2]

[69]

BOURQUIN

M

， KING

A

， ROBBINS

E

.

BinSlayer： accurate comparison of binary executables

［C］// Proceedings of the 2nd International Conference on Program Protection and Reverse Engineering Workshop. New York： ACM， 2013： 1-10. 10.1145/2430553.2430557

[本文引用: 1]

[70]

YU

Z P

， CAO

R

， TANG

Q Y

， et al.

Order matters： semantic-aware neural networks for binary code similarity detection

［C］// Proceedings of the 2020 International Conference on AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2020：1145-1152. 10.1609/aaai.v34i01.5466

[本文引用: 1]

[71]

DEVLIN

J

， CHANG

M W

， LEE

K

， et al.

BERT： pre-training of deep bidirectional transformers for language understanding

［C］// Proceedings of the 2019 International Conference on North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Minneapolis， NAACL-HLT， 2019： 4171-4186. 10.18653/v1/n19-1423

[本文引用: 1]

[72]

HU

Y K

， ZHANG

Y Y

， LI

J R

， et al.

Binary code clone detection across architectures and compiling configurations

［C］// Proceedings of the 2017 IEEE/ACM International Conference on Program Comprehension. Piscataway： IEEE， 2017： 88-98. 10.1109/icpc.2017.22

[本文引用: 1]

[73]

WANG

S

， WU

D H

.

In-memory fuzzing for binary code similarity analysis

［C］// Proceedings of the 2017 32nd IEEE/ACM International Conference on Automated Software Engineering. Piscataway： IEEE， 2017： 319-330. 10.1109/ase.2017.8115645

[本文引用: 2]

[74]

NG

B H

， PRAKASH

A

.

Expose： discovering potential binary code re-use

［C］// Proceedings of the 2013 IEEE International Conference on Computer Software and Applications Conference. Piscataway： IEEE， 2013： 492-501. 10.1109/compsac.2013.83

[本文引用: 1]

[75]

MING

J

， XU

D P

， JIANG

Y F

， et al.

BinSim： trace-based semantic binary diffing via system call sliced segment equivalence checking

［C］// Proceedings of the 26th International Conference on USENIX Security Symposium. Berkeley： USENIX Association，2017： 253-270.

[本文引用: 1]

[76]

MIKOLOV

T

， CHEN

K

， CORRADO

G S

， et al.

Efficient estimation of word representations in vector space

［EB/OL］. ［2013-09-07］. . 10.3126/jiee.v3i1.34327

[本文引用: 1]

[77]

LE

Q

， MIKOLOV

T

.

Distributed representations of sentences and documents

［C］// Proceedings of the 31st International Conference on Machine Learning. New York： JMLR.org， 2014： II-1188-II-1196.

[本文引用: 1]

[78]

REDMOND

K

， LUO

L

， ZENG

Q

.

A Cross-architecture instruction embedding model for natural language processing-inspired binary code analysis

［EB/OL］. ［2018-12-23］. . 10.14722/bar.2019.23057

[本文引用: 1]

[79]

DING

S H H

， FUNG

B C M

， CHARLAND

P

.

Asm2vec： boosting static representation robustness for binary clone search against code obfuscation and compiler optimization

［C］// Proceedings of the 2019 IEEE Symposium on Security and Privacy. Piscataway： IEEE， 2019： 472-489. 10.1109/sp.2019.00003

[本文引用: 1]

[80]

SHALEV

N

， PARTUSH

N

.

Binary similarity detection using machine learning

［C］// Proceedings of the 13th Workshop on Programming Languages and Analysis for Security. New York： ACM， 2018： 42-47. 10.1145/3264820.3264821

[本文引用: 1]

[81]

常青，刘中金，王猛涛，等.

VDNS：一种跨平台的固件漏洞关联算法

［J］. 计算机研究与发展， 2016， 53（10）： 2288-2298. 10.7544/issn1000-1239.2016.20160442

[本文引用: 1]

CHANG

Q

， LIU

Z J

， WANG

M T

， et al.

VDNS： an algorithm for cross-platform vulnerability searching in binary firmware

［J］. Journal of Computer Research and Development， 2016， 53（10）： 2288-2298. 10.7544/issn1000-1239.2016.20160442

[本文引用: 1]

[82]

ZHANG

X C

， SUN

W J

， PANG

J M

， et al.

Similarity metric method for binary basic blocks of cross-instruction set architecture

［C］// Proceedings of the 2020 International Conference on Binary Analysis Research. San Diego： ISOC Press， 2020： 23-26. 10.14722/bar.2020.23002

[本文引用: 1]

[83]

HE

J X

， IVANOV

P

， TSANKOW

P

， et al.

Debin： Predicting debug information in stripped binaries

［C］// Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2018： 1667-1680. 10.1145/3243734.3243866

[本文引用: 2]

[84]

LACOMIS

J

， YIN

P C

， SCHWARTZ

E J

， et al.

DIRE： A neural approach to decompiled identifier naming

［C］// Proceedings of the 34th IEEE/ACM International Conference on Automated Software Engineering. New York： ACM， 2019： 628-639. 10.1109/ase.2019.00064

[本文引用: 1]

[85]

DAVID

Y

， ALON

U

， YAHAV

E

.

Neural reverse engineering of stripped binaries using augmented control flow graphs

［C］// Proceedings of the 2020 ACM International Conference on Object-oriented Programming Systems， Languages， and Applications. New York： ACM， 2020： 1-28. 10.1145/3428293

[本文引用: 1]

[86]

REDINI

N

， MACHIRY

A

， WANG

R Y

， et al.

Karonte： detecting insecure multi-binary interactions in embedded firmware

［C］// Proceedings of the 2020 IEEE Symposium on Security and Privacy. Piscataway： IEEE， 2020： 1544-1561. 10.1109/sp40000.2020.00036

[本文引用: 1]

[87]

刘知远，孙茂松，林衍凯，等.

知识表示学习研究进展

［J］. 计算机研究与发展， 2016， 53（2）： 247-261. 10.7544/issn1000-1239.2016.20160020

[本文引用: 1]

LIU

Z Y

， SUN

M S

， LIN

Y K

， et al.

Knowledge representation learning： a review

［J］. Journal of Computer Research and Development， 2016， 53（2）： 247-261. 10.7544/issn1000-1239.2016.20160020

[本文引用: 1]

[88]

官赛萍，靳小龙，贾岩涛，等.

面向知识图谱的知识推理研究进展

［J］. 软件学报， 2018， 29（10）： 2966-2994. 10.13328/j.cnki.jos.005551

[本文引用: 1]

GUAN

S P

， JIN

X L

， JIA

Y T

，et al.

Knowledge reasoning over knowledge graph： a survey

［J］. Journal of Software， 2018， 29（10）： 2966-2994. 10.13328/j.cnki.jos.005551

[本文引用: 1]

[89]

ZHANG

Z Y

， HAN

X

， LIU

Z Y

， et al.

ERNIE： enhanced language representation with informative entities

［C］// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2019： 1141-1451. 10.18653/v1/p19-1139

[本文引用: 1]

[90]

BORDES

A

， USUNIER

N

， GARCIA-DURAN

A

， et al.

Translating embeddings for modeling multi-relational data

［C］// Proceedings of the 26th International Conference on Neural Information Processing Systems. New York： ACM， 2013：2787-2795. 10.1007/978-3-662-44848-9_28

[本文引用: 1]

[91]

LIN

Y K

， LIU

Z Y

， LUAN

H B

， et al.

Modeling relation paths for representation learning of knowledge bases

［C］// Proceedings of the 2015 International Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2015： 705-714. 10.18653/v1/d15-1082

[本文引用: 1]

[92]

GUO

W B

， MU

D L

， XU

J

， et al.

LEMNA： explaining deep learning based security applications

［C］// Proceedings of the 25th International Conference on Computer and Communications Security. New York： ACM， 2018： 364-379. 10.1145/3243734.3243792

[本文引用: 1]

[93]

HAQ

I U

， CHICA

S

， CABALLERO

J

， et al.

Malware lineage in the wild

［J］. Computer & Security， 2018，78：347-363. 10.1016/j.cose.2018.07.012

[本文引用: 1]

[94]

CABALLERO

J

， LIN

Z Q

.

Type inference on executables

［J］. ACM Computing Surveys， 2016，48（4）：65.1-65.35. 10.1145/2896499

[本文引用: 1]

[95]

XU

Z W

， WEN

C

， QIN

S C

.

Learning types for binaries

［C］// Proceedings of the 19th International Conference on Formal Engineering Methods and Software Engineering. Cham： Springer， 2017： 430-446. 10.1007/978-3-319-68690-5_26

[本文引用: 1]

[96]

TIAN

Y

， LAWALL

J

， LO D.

Identifying Linux bug fixing patches

［C］// Proceedings of the 2012 34th International Conference on Software Engineering. Piscataway： IEEE，2012： 386-396. 10.1109/icse.2012.6227176

[本文引用: 1]

[97]

SOBREIRA

V

， DURIEUX

T

， MADEIRAL

F

， et al.

Dissection of a bug dataset： anatomy of 395 patches from Defects4

J［C］// Proceedings of the 25th International Conference on Software Analysis， Evolution and Reengineering. Piscataway： IEEE，2018： 130-140. 10.1109/saner.2018.8330203

[本文引用: 1]

[98]

LIU

J

， WANG

Y

， XIE

P D

， et al.

Inferring phylogenetic network of malware families based on splits graph

［J］. IEICE Transactions on Information and Systems， 2017， 100（6）：1368-1371. 10.1587/transinf.2016edl8230

[本文引用: 1]

[99]

ZHAO

B L

， SHAN

Z

， LIU

F D

， et al.

Malware homology identification based on a gene perspective

［J］. Frontiers of Information Technology & Electronic Engineering， 2019， 20： 801-815. 10.1631/fitee.1800523

[本文引用: 1]

[100]

赵炳麟

.

基于基因视角的恶意代码分析及关键技术研究

［D］.郑州：中国人民解放军战略支援部队信息工程大学，2019：67-73. 10.1631/fitee.1800523

[本文引用: 1]

ZHAO

B L

.

Analysis and key technologies of malware based on gene perspective

［D］. Zhengzhou： Information Engineering University， 2019：67-73. 10.1631/fitee.1800523

[本文引用: 1]

The 2021 state of open source vulnerabilities

1

... 随着物联网和工业互联网的快速发展，无论是智能手机还是嵌入式设备，绝大多数软件都是以二进制代码形式发布.为了快速开发产品，厂商使用开源软件或通过代码重用加速产品迭代，为不同操作系统和不同CPU架构，产生众多可定制化且满足客户需求的固件镜像文件.这种通过开源部署生成的二进制固件程序在满足客户便利的同时，一旦固件镜像文件引用的开源组件或底层系统被发现存在安全风险，会带来巨大安全隐患^［1］.如现在仍未消除的OpenSSL（Open-source Secure Sockets Layer）漏洞因破坏性之大、影响范围之广，堪称网络安全里程碑事件.出于商业保护或其他技术原因，厂家通常并不对外提供源代码.因此，在源代码无法获取或者获取不便这一事实下，二进制代码分析成为工业界和学术界研究其安全问题的最佳方法，其研究话题和分析技术持续高涨. ...

FirmUp： precise static detection of common vulnerabilities in firmware

2

2018

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... 由于跨平台代码语法差异很大，因此在比较上通常是计算语义相似性.当前跨平台解决方案采用两种技术来实现.一是语法分析，先利用中间语言表示技术，把二进制代码提升到和平台无关的中间语言表示上，然后在中间语言表示上完成相同的语法分析，这样就实现了和原来平台架构无关，如文献［10］提出的BinGo方案和文献［2］提出的FirmUp方案.二是特征分析，为每一个平台架构设计单独的模块获取特征向量，捕获二进制代码的语义信息，利用监督学习机制在跨平台间打上标签，如来自同一份源代码则表示相似标记为1，否则标记为0，然后将数据喂入模型训练从而得到分析模型，BinDNN方案^［47］、INNEREYE方案^［48］和SAFE方案^［49］. ...

BINARM： scalable and efficient detection of vulnerabilities in firmware images of intelligent electronic devices

0

10885

Tracelet-based code search in executables

1

2014

... TRACY方案^［4］采用指令对齐方式，从CFG上抽取连续的固定个数的基本块形成Trace，对齐基本块后对基本块内部采用指令序列对齐方式，这样就可以在两个序列之间产生一个映射.指令对齐时候定义一个相似度分值，指令和空对齐的时候定义一个空分值.如果Trace间相似度超过阈值a，认为两个Trace相似，并计入Trace相似总数.接着，计算所有相似性Trace匹配结果的覆盖率，从而得到一个覆盖值.设置阈值b，如果覆盖值超过阈值b，则认定两个函数相似. ...

Leveraging semantic signatures for bug search in binary programs

1

2014

... XMATCH方案^［12］和TEDEM（Tree Edit Distance based Equational Matching）方案^［5］把一个基本块的符号公式表示为一个树，通过树/图编辑距离计算相似性.图编辑距离的计算代价要比语义哈希高，但是却能处理符号重新排序带来的问题. ...

Cross-architecture bug search in binary executables

1

2015

... 文献［52］认为二进制代码片段相似当且仅当代码在机器状态上具有相同的影响，因此从寄存器、内存、函数调用参数、跳转条件4个角度构建基本块的输入输出行为模型.文献［10］将机器状态定义成由内存、通用寄存器和条件标志组成的三元组，然后在执行路径上获得执行前后符号表达式，利用文献［6］提出的输入输出随机产生样本和约束求解技术，进而比较执行前后符号表达式产生的语义是否等价. ...

discovRE： efficient cross-architecture identification of bugs in binary code

0

2016

Statistical similarity of binaries

3

2016

... 按照代码片段提取的粗细粒度，从细到粗可以划分为指令、一组相关的指令、基本块、一组相关的基本块、函数、一组相关的函数，路径轨迹和整个程序.如文献［44］采用一组相关的指令K-Gram方案，文献［8］采用共享某个属性的指令Strand方案.通过设置切片规则，提取的指令可以属于不同的基本块，甚至不同的函数.一组相关的基本块由共享结构属性（如数据依赖关系、调用关系）的多个基本块组成.这组基本块可以隶属相同的函数，也可以属于不同的函数.相关函数是一个二进制程序的组件，如一个库组件、一个类组件或者一个模块组件.路径轨迹是指一条处理二进制程序某个变量或参数的执行路径. ...

... 代码片段提取后，通常有两种方式得到代码片段比较结果.一是，用细粒度比较后的统计结果来推导粗粒度比较结果，如文献［8］的Strand用细粒度的指令去分析粗粒度的基本块或函数；二是，用细粒度特征累加推导粗粒度结果，如文献［15］提出的Gemini方案在基本块上累加指令的特征，从而在函数粒度上产生特征向量实现函数间比较. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

Scalable graph-based bug search for firmware images

2

2016

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

BinGo： cross-architecture cross-OS binary search

3

2016

... 由于跨平台代码语法差异很大，因此在比较上通常是计算语义相似性.当前跨平台解决方案采用两种技术来实现.一是语法分析，先利用中间语言表示技术，把二进制代码提升到和平台无关的中间语言表示上，然后在中间语言表示上完成相同的语法分析，这样就实现了和原来平台架构无关，如文献［10］提出的BinGo方案和文献［2］提出的FirmUp方案.二是特征分析，为每一个平台架构设计单独的模块获取特征向量，捕获二进制代码的语义信息，利用监督学习机制在跨平台间打上标签，如来自同一份源代码则表示相似标记为1，否则标记为0，然后将数据喂入模型训练从而得到分析模型，BinDNN方案^［47］、INNEREYE方案^［48］和SAFE方案^［49］. ...

... 文献［52］认为二进制代码片段相似当且仅当代码在机器状态上具有相同的影响，因此从寄存器、内存、函数调用参数、跳转条件4个角度构建基本块的输入输出行为模型.文献［10］将机器状态定义成由内存、通用寄存器和条件标志组成的三元组，然后在执行路径上获得执行前后符号表达式，利用文献［6］提出的输入输出随机产生样本和约束求解技术，进而比较执行前后符号表达式产生的语义是否等价. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

BinSequence： fast， accurate and scalable binary code reuse detection

2

2017

... 指令序列通常是指函数中的指令在空间上是按照线性连续地排列.指令序列在比较时需要指令归一化，归一化主要包括操作码归一化和操作数归一化.文献［61］提出的BinClone方案采用操作数归一化，将常量用VAL符号代替，内存地址用MEM符号代替、寄存器用REG符号代替.与BinClone不同的是，文献［11］提出的BinSequence方案将常量分为内存偏离量和立即数.文献［45］采用操作码符归一化，将操作码区分为逻辑计算、数据传输、栈操作、数学运算、函数调用、地址操作等类别.由于指令是代码搜索最基本的组成单位，因此通常将指令比较的结果作为相似性搜索的前提.典型的指令比较主要包括N-Gram、N-Perm、指令哈希和指令对齐方式. ...

... CoP方案^［36-37］和BinSequence方案^［11］把函数相似性转换为路径相似性比较.CoP利用符号执行和证明理论，计算基本块中的语义等价最长公共序列，作为路径上的基本比较元素.BinSequence为提高搜索速度，采用两个过滤器，过滤掉基本块数量和函数指纹差距大的函数，借助近邻搜索技术得到CFG上的最长执行路径，接着在两个函数之间建立基本块映射关系并计算两两之间的相似性度量值.路径相似性比较优势在于路径全覆盖，通过统计的方式来获得度量值.最大的不足在于：如果函数CFG顶点过少，则在小片段比较上不具有优势；如果函数CFG过大，在计算效率上会受到影响. ...

Extracting conditional formulas for cross-platform bug search

3

2017

... 两个二进制代码片段等价是指它们具有相同的语义，即它们具有相同功能或影响.两个二进制片段语义相等并不关心二进制代码的语法.尽管两个相同的二进制代码片段具有相同的语义，但两个不同的二进制代码片段也可能具有相同的语义.如“MOV EAX，0”和“XOR EAX，EAX”是语义相等的两条x86指令，功能都是设置寄存器EAX的值为0.由于证明两个程序是否功能相等是一个不可判定问题，因此判断代码相等需要付出高额代价.一种比较实际的方式是通过比较细粒度的二进制代码片段来实现等价判断.如文献［12］提出的XMATCH方案，通过抽取基本块中的条件表达式来判断两个基本块的语义是否等价. ...

... iBinHunt^［68］为基本块中的每个寄存器和内存变量都产生一个符号表达式，然后基于定理证明器来检查两个符号公式是否相等.方案假设输入变量共享相同的值，符号公式执行后如果输出变量具有相同的值，则两个符号公式相等.通常一个基本块有多个寄存器和内存变量组成，这样会生成多个输出，由于每一个输出都需要单独的符号公式，因此iBinHunt须实现多对输入输出结果间的比较.XMATCH方案^［12］、Expose方案^［74］和BinSim方案^［75］则采用从系统调用参数的执行路径轨迹上抽取符号公式，然后利用定理证明器方案进行相等验证.基于定理证明器方法能够实现代码片段的相等比较，不足在于计算代价高，符号公式越长搜索比较时间越长，受到定理证明器的约束. ...

... XMATCH方案^［12］和TEDEM（Tree Edit Distance based Equational Matching）方案^［5］把一个基本块的符号公式表示为一个树，通过树/图编辑距离计算相似性.图编辑距离的计算代价要比语义哈希高，但是却能处理符号重新排序带来的问题. ...

Similarity of binaries through re-optimization

2

2017

... 语义哈希是检查两个符号表达式是否具有相同的哈希.如果两个符号公式具有相同的哈希值则认为它们是相等的.BinHASH方案^［52］将内存操作行为、寄存器操作行为用符号公式表示后，利用最小哈希技术计算符号公式的哈希值.GitZ方案^［13］将不同平台的指令转换到中间语言后，抽取基本块中数据依赖的相关指令并符号化为公式，利用MD5技术生成语义哈希.语义哈希尽管效率高，仍存在两个本来相等的公式在归一化和简化后会具有不同哈希值，如指令重新排序会引起符号公式中的符号项发生变化，从而产生不同的哈希值. ...

... 通过比较机器学习得到的分类结果或预测结果，也可以实现二进制代码相似性比较.BinDNN^［47］将相似性比较定义为一个二分类任务，采用神经网络分类器去判定两个来自相同源代码的不同编译函数是否相似.ZeeK方案^［80］将二进制函数中的每个基本块分割成多个串（strand），使用文献［13］中的方法将每一个串进行归一化和标准化，之后采用MD5哈希这些标准化表示转换成一个类似one-hot的稀疏向量.这样，每个函数转换成向量之后，利用全连接网络判定两个函数是否属于同一类.Zeek没有考虑函数之间的调用信息，串的分割损失串内部的信息以及串之间的控制流程信息.文献［73］在汇编指令级上捕获trace内的程序行为集合并编码为向量后，采用基于树的机器学习模型来预测两个函数相似概率值. ...

VulSeeker： a semantic learning based vulnerability seeker for cross-platform binary

1

2018

... VulSeeker方案^［14］首先构建标签语义流图（Labeled Semantic Flow Graph， LSFG）；然后提取每个基本块的特征向量，利用DNN（Deep Neural Network）模型生成函数图嵌入；最后计算余弦距离得到相似度.文献［70］认为CFG节点的顺序对于图相似度检测很重要，因此融入语义感知、结构感知、顺序感知等信息，使用BERT（Bidirectional Encoder Representations from Transformers）^［71］预训练模型提取语义信息，并使用卷积神经网络（Convolutional Neural Network， CNN）模型提取节点顺序信息. ...

Neural network-based graph embedding for cross-platform binary code similarity detection

5

2017

... 代码片段提取后，通常有两种方式得到代码片段比较结果.一是，用细粒度比较后的统计结果来推导粗粒度比较结果，如文献［8］的Strand用细粒度的指令去分析粗粒度的基本块或函数；二是，用细粒度特征累加推导粗粒度结果，如文献［15］提出的Gemini方案在基本块上累加指令的特征，从而在函数粒度上产生特征向量实现函数间比较. ...

... Gemini方案^［15］引入属性控制流程图（Attributed CFG， ACFG），借助Structure2vec技术生成图嵌入向量，然后利用LSH计算每个嵌入向量的哈希值，并存入到数据库.为了从数据库中搜索识别一组与查询函数相似的二进制代码函数，只需要哈希计算查询函数嵌入向量，从而实现函数的快速搜索. ...

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

... 文献［15］提出一种基于图嵌入的相似性解决方案.利用统计方法得到基本块的向量表示，将二进制函数的CFG表示为具有向量值的属性CFG（ACFG），然后利用Structure2vec实现图嵌入，接着将两个图嵌入向量送入孪生神经网络，从而实现相似性比较. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

αDiff： cross-version binary code similarity detection with DNN

2

2018

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

Detecting malicious executable file via graph comparison using support vector machine

1

2012

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

Detection of packed executables using support vector machines

0

2011

Large-scale malware indexing using function-call graphs

2

2009

... 指令哈希是指从一个变长的指令序列中得到固定长度个数的指令序列后，运用哈希计算，如果两者之间哈希值一样，则认为序列相似，如SMIT（Symantec Malware Indexing Tree）方案^［19］、BinClone方案^［61］以及SPAIN（Security Patch Analysis for bINary）方案^［34］. ...

... 由于图同构要求图中所有节点要相同，比较代价较高，因此当前二进制代码比较通常是采用子最大公共子图同构，即找到两个图中的最大同构子图.为了减少图比较对的数目以及图大小，文献［62］对相同签名的CFG和差异较大CFG不进行比较，iBinHunt方案^［68］只比较具有相同污点标签的节点.SMIT方案^［19］和BinSlayer方案^［69］把图相似度模型归结为图优化问题.SMIT利用制高点树（Vantage Point Tree， VPT）技术将搜索问题转换为近邻搜索，BinSlayer利用匈牙利算法（Hungarian Algorithm， HA）加快搜索速度.文献［22］采用子图匹配的方案，其基本思想是把函数CFG图分割成多个子图，为每个子图产生一个指纹，通过统计子图指纹匹配数量来确定两个图之间的相似度. ...

MutantX-S： scalable malware clustering based on static features

0

2013

Binary executable file similarity calculation using function matching

0

2019

Polymorphic worm detection using structural information of executables

1

2005

... 由于图同构要求图中所有节点要相同，比较代价较高，因此当前二进制代码比较通常是采用子最大公共子图同构，即找到两个图中的最大同构子图.为了减少图比较对的数目以及图大小，文献［62］对相同签名的CFG和差异较大CFG不进行比较，iBinHunt方案^［68］只比较具有相同污点标签的节点.SMIT方案^［19］和BinSlayer方案^［69］把图相似度模型归结为图优化问题.SMIT利用制高点树（Vantage Point Tree， VPT）技术将搜索问题转换为近邻搜索，BinSlayer利用匈牙利算法（Hungarian Algorithm， HA）加快搜索速度.文献［22］采用子图匹配的方案，其基本思想是把函数CFG图分割成多个子图，为每个子图产生一个指纹，通过统计子图指纹匹配数量来确定两个图之间的相似度. ...

Detecting self-mutating malware using control-flow graph matching

1

2006

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

Control flow-based malware variant detection

0

2014

Lines of malicious code：insights into the malicious software industry

0

2012

Towards automatic software lineage inference

1

2013

... 指令序列可定长也可变长.定长指令序列通过运用滑动窗口大小或步长来实现.滑动窗口大小也就是指令序列中指令的数量，步长是指从窗口开始处开始滑动的指令个数.当步长小于滑动窗口大小时，连续序列重叠.当步长为n时，产生的序列称之为N-Gram.例如，给定一个指令助记符序列｛MOV，SUB，ADD｝，当N=2时，指令助记符序列会得到｛MOV，SUB｝和｛SUB，ADD｝两个指令序列.Rendezvous方案^［40］、Kam1n0方案^［53］以及ILINE方案^［26］在各自的系统中都采用了N-Gram作为相似性比较的方法. ...

Memoized semantics-based binary diffing with application to malware lineage inference

0

2015

Improving the detection of malware behaviour using simplified data dependent API call graph

2

2013

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... 两个二进制代码片段相似是指它们的语法、结构或功能语义是相似的.语法相似性比较的是代码字面表示.结构相似性是指代码片段用图表示后，两个图结构间是相似的，如代码的CFG或函数间调用图.由于CFG的点和边可以携带更多语义信息，因此在某种程度上能捕获代码的语法表示和语义表示.语义相似性比较的是代码功能.一种简单的语义相似性比较方法是比较程序的交互行为是否相似，或者比较操作系统API（Application Programming Interface）调用或系统调用后程序环境是否相似.但是，两个具有相同系统调用的程序却可以实现截然不同的结果.因此，本文不考虑通过系统调用^［28］或利用操作系统API和环境进行交互^［46］的行为相似性比较这种动态分析方法，而是关注静态分析比较. ...

Compressing differences of executable code

1

1999

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

Structural comparison of executable objects

0

2004

Graph-based comparison of executable objects

0

2005

BinHunt： automatically finding semantic differences in binary programs

0

2008

Cross-architecture binary semantics understanding via similar code comparison

0

2016

SPAIN： security patch analysis for binaries towards understanding the pain and pills

2

2017

... 指令哈希是指从一个变长的指令序列中得到固定长度个数的指令序列后，运用哈希计算，如果两者之间哈希值一样，则认为序列相似，如SMIT（Symantec Malware Indexing Tree）方案^［19］、BinClone方案^［61］以及SPAIN（Security Patch Analysis for bINary）方案^［34］. ...

... 文献［72］遍历CFG，识别函数执行过程用到的参数，通过函数的多路交换语句识别出所有的间接调转地址，然后选择一个随机值作为输入来产生语义签名，最后比较签名值来进行相似性度量.文献［34-35，73］提出的方案均将相同的输入送入到基本块中并执行，然后比较代码执行后的输出是否相等.相同输入的比较优势在于处理流程可能需要多次，依据测试多种可能的输入输出结果进而判定两个片段是否相等.如果任一个输入产生的输出不同，则两个片段不相等.这对一些不重要的二进制片段来讲是不切合实际的. ...

Towards robust instruction-level trace alignment of binary code

2

2017

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... 文献［72］遍历CFG，识别函数执行过程用到的参数，通过函数的多路交换语句识别出所有的间接调转地址，然后选择一个随机值作为输入来产生语义签名，最后比较签名值来进行相似性度量.文献［34-35，73］提出的方案均将相同的输入送入到基本块中并执行，然后比较代码执行后的输出是否相等.相同输入的比较优势在于处理流程可能需要多次，依据测试多种可能的输入输出结果进而判定两个片段是否相等.如果任一个输入产生的输出不同，则两个片段不相等.这对一些不重要的二进制片段来讲是不切合实际的. ...

Semantics-based obfuscation resilient binary code similarity comparison with applications to software and algorithm plagiarism detection

2

2017

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... CoP方案^［36-37］和BinSequence方案^［11］把函数相似性转换为路径相似性比较.CoP利用符号执行和证明理论，计算基本块中的语义等价最长公共序列，作为路径上的基本比较元素.BinSequence为提高搜索速度，采用两个过滤器，过滤掉基本块数量和函数指纹差距大的函数，借助近邻搜索技术得到CFG上的最长执行路径，接着在两个函数之间建立基本块映射关系并计算两两之间的相似性度量值.路径相似性比较优势在于路径全覆盖，通过统计的方式来获得度量值.最大的不足在于：如果函数CFG顶点过少，则在小片段比较上不具有优势；如果函数CFG过大，在计算效率上会受到影响. ...

Software plagiarism detection with birthmarks based on dynamic key instruction sequences

1

2015

... CoP方案^［36-37］和BinSequence方案^［11］把函数相似性转换为路径相似性比较.CoP利用符号执行和证明理论，计算基本块中的语义等价最长公共序列，作为路径上的基本比较元素.BinSequence为提高搜索速度，采用两个过滤器，过滤掉基本块数量和函数指纹差距大的函数，借助近邻搜索技术得到CFG上的最长执行路径，接着在两个函数之间建立基本块映射关系并计算两两之间的相似性度量值.路径相似性比较优势在于路径全覆盖，通过统计的方式来获得度量值.最大的不足在于：如果函数CFG顶点过少，则在小片段比较上不具有优势；如果函数CFG过大，在计算效率上会受到影响. ...

BinMatch： a semantics- based hybrid approach on binary code clone analysis

0

2018

A first step towards algorithm plagiarism detection

0

2012

Rendezvous： a search engine for binary code

2

2013

... 由于代码复用，同样的代码会出现在多个程序中，甚至出现在同一个程序的多个部分.一旦发现某个二进制代码存在bug，从众多代码中找到被使用的bug代码、相同的bug代码或相似的bug代码，从而可大规模、快速且及时地发现bug风险.这样一来，采用相似性搜索技术发现网络安全脆弱性为二进制代码安全分析提供一种新思路，其研究成果广泛应用在bug搜索^［2-16］、恶意软件分析检测^［17-28］、补丁生成分析^［29-35］和软件窃取检测^［36-40］等方面. ...

... 指令序列可定长也可变长.定长指令序列通过运用滑动窗口大小或步长来实现.滑动窗口大小也就是指令序列中指令的数量，步长是指从窗口开始处开始滑动的指令个数.当步长小于滑动窗口大小时，连续序列重叠.当步长为n时，产生的序列称之为N-Gram.例如，给定一个指令助记符序列｛MOV，SUB，ADD｝，当N=2时，指令助记符序列会得到｛MOV，SUB｝和｛SUB，ADD｝两个指令序列.Rendezvous方案^［40］、Kam1n0方案^［53］以及ILINE方案^［26］在各自的系统中都采用了N-Gram作为相似性比较的方法. ...

State-of-the-art binary code analysis tools

2

... 二进制代码可以有不同表现形式，如：用十六进制字符串形式表示原始字节，用IDA Pro（Interactive Disassembler Professional）^［41］工具将二进制代码反汇编后得到汇编指令序列，用LLVM（Low Level Virtual Machine）工具将其转化为等价的中间语言IR（Intermediate Representation），用控制流图（Control Flow Graph， CFG）表示功能调用关系等.本文将以x86汇编指令为例，不包含文献［42-43］中讨论的类似Java字节码的操作，讨论和二进制代码相似性搜索有关的指令、基本块、程序流程图等基本概念. ...

... 两个二进制代码片段相同是指它们具有相同的语法表示.判断二进制片段是否相同最简单的方式是采用哈希散列技术，如采用SHA（Secure Hash Algorithm）技术和MD5（Message Digest algorithm 5）技术来计算哈希值，就能够实现每个片段内容是否相同的判断.然而，这种简单粗暴的方式对代码片段要求特别苛刻，一旦某个细微变化都会产生巨大差异结果，甚至在原本相同的代码上产生意想不到的后果.即使源代码没有改变，采用相同编译器对同一源代码进行前后两次编译，产生的二进制代码也会发生变化^［41］.这是因为这些执行文件加入了类似当前编译时间等实现自动计算的动态变化信息. ...

SeByte： scalable clone and similarity search for bytecode

1

2014

... 二进制代码可以有不同表现形式，如：用十六进制字符串形式表示原始字节，用IDA Pro（Interactive Disassembler Professional）^［41］工具将二进制代码反汇编后得到汇编指令序列，用LLVM（Low Level Virtual Machine）工具将其转化为等价的中间语言IR（Intermediate Representation），用控制流图（Control Flow Graph， CFG）表示功能调用关系等.本文将以x86汇编指令为例，不包含文献［42-43］中讨论的类似Java字节码的操作，讨论和二进制代码相似性搜索有关的指令、基本块、程序流程图等基本概念. ...

Achieving accuracy and scalability simultaneously in detecting application clones on Android markets

1

2014

... 二进制代码可以有不同表现形式，如：用十六进制字符串形式表示原始字节，用IDA Pro（Interactive Disassembler Professional）^［41］工具将二进制代码反汇编后得到汇编指令序列，用LLVM（Low Level Virtual Machine）工具将其转化为等价的中间语言IR（Intermediate Representation），用控制流图（Control Flow Graph， CFG）表示功能调用关系等.本文将以x86汇编指令为例，不包含文献［42-43］中讨论的类似Java字节码的操作，讨论和二进制代码相似性搜索有关的指令、基本块、程序流程图等基本概念. ...

K-gram software birthmarks

1

2005

... 按照代码片段提取的粗细粒度，从细到粗可以划分为指令、一组相关的指令、基本块、一组相关的基本块、函数、一组相关的函数，路径轨迹和整个程序.如文献［44］采用一组相关的指令K-Gram方案，文献［8］采用共享某个属性的指令Strand方案.通过设置切片规则，提取的指令可以属于不同的基本块，甚至不同的函数.一组相关的基本块由共享结构属性（如数据依赖关系、调用关系）的多个基本块组成.这组基本块可以隶属相同的函数，也可以属于不同的函数.相关函数是一个二进制程序的组件，如一个库组件、一个类组件或者一个模块组件.路径轨迹是指一条处理二进制程序某个变量或参数的执行路径. ...

A survey of binary code similarity

3

38

... 通常将比较结果分为相同（Identical）比较、等价（Equivalent）比较和相似性（Similar）比较^［45］.二进制代码相似性搜索关键在于代码片段比较. ...

... 指令序列通常是指函数中的指令在空间上是按照线性连续地排列.指令序列在比较时需要指令归一化，归一化主要包括操作码归一化和操作数归一化.文献［61］提出的BinClone方案采用操作数归一化，将常量用VAL符号代替，内存地址用MEM符号代替、寄存器用REG符号代替.与BinClone不同的是，文献［11］提出的BinSequence方案将常量分为内存偏离量和立即数.文献［45］采用操作码符归一化，将操作码区分为逻辑计算、数据传输、栈操作、数学运算、函数调用、地址操作等类别.由于指令是代码搜索最基本的组成单位，因此通常将指令比较的结果作为相似性搜索的前提.典型的指令比较主要包括N-Gram、N-Perm、指令哈希和指令对齐方式. ...

... N-Perm是指不考虑顺序的N-Gram方案，这种方法能够捕获序列中的指令重新排序状况.由于不考虑指令顺序，因此一个N-Perm指令序列会产生多个N-Gram.如2-Perm的｛MOV，PUSH｝会产生2-Gram的｛MOV，PUSH｝和｛PUSH，MOV｝.文献［45］表明将N-Germ用于软件指纹比较时，N取值为4或5的时候，相似性比较的可信度较高. ...

基于代码进化的恶意代码沙箱规避检测技术研究

1

2019

... 两个二进制代码片段相似是指它们的语法、结构或功能语义是相似的.语法相似性比较的是代码字面表示.结构相似性是指代码片段用图表示后，两个图结构间是相似的，如代码的CFG或函数间调用图.由于CFG的点和边可以携带更多语义信息，因此在某种程度上能捕获代码的语法表示和语义表示.语义相似性比较的是代码功能.一种简单的语义相似性比较方法是比较程序的交互行为是否相似，或者比较操作系统API（Application Programming Interface）调用或系统调用后程序环境是否相似.但是，两个具有相同系统调用的程序却可以实现截然不同的结果.因此，本文不考虑通过系统调用^［28］或利用操作系统API和环境进行交互^［46］的行为相似性比较这种动态分析方法，而是关注静态分析比较. ...

基于代码进化的恶意代码沙箱规避检测技术研究

1

2019

... 两个二进制代码片段相似是指它们的语法、结构或功能语义是相似的.语法相似性比较的是代码字面表示.结构相似性是指代码片段用图表示后，两个图结构间是相似的，如代码的CFG或函数间调用图.由于CFG的点和边可以携带更多语义信息，因此在某种程度上能捕获代码的语法表示和语义表示.语义相似性比较的是代码功能.一种简单的语义相似性比较方法是比较程序的交互行为是否相似，或者比较操作系统API（Application Programming Interface）调用或系统调用后程序环境是否相似.但是，两个具有相同系统调用的程序却可以实现截然不同的结果.因此，本文不考虑通过系统调用^［28］或利用操作系统API和环境进行交互^［46］的行为相似性比较这种动态分析方法，而是关注静态分析比较. ...

BinDNN： resilient function matching using deep learning

2

2016

... 由于跨平台代码语法差异很大，因此在比较上通常是计算语义相似性.当前跨平台解决方案采用两种技术来实现.一是语法分析，先利用中间语言表示技术，把二进制代码提升到和平台无关的中间语言表示上，然后在中间语言表示上完成相同的语法分析，这样就实现了和原来平台架构无关，如文献［10］提出的BinGo方案和文献［2］提出的FirmUp方案.二是特征分析，为每一个平台架构设计单独的模块获取特征向量，捕获二进制代码的语义信息，利用监督学习机制在跨平台间打上标签，如来自同一份源代码则表示相似标记为1，否则标记为0，然后将数据喂入模型训练从而得到分析模型，BinDNN方案^［47］、INNEREYE方案^［48］和SAFE方案^［49］. ...

... 通过比较机器学习得到的分类结果或预测结果，也可以实现二进制代码相似性比较.BinDNN^［47］将相似性比较定义为一个二分类任务，采用神经网络分类器去判定两个来自相同源代码的不同编译函数是否相似.ZeeK方案^［80］将二进制函数中的每个基本块分割成多个串（strand），使用文献［13］中的方法将每一个串进行归一化和标准化，之后采用MD5哈希这些标准化表示转换成一个类似one-hot的稀疏向量.这样，每个函数转换成向量之后，利用全连接网络判定两个函数是否属于同一类.Zeek没有考虑函数之间的调用信息，串的分割损失串内部的信息以及串之间的控制流程信息.文献［73］在汇编指令级上捕获trace内的程序行为集合并编码为向量后，采用基于树的机器学习模型来预测两个函数相似概率值. ...

Neural machine translation inspired binary code similarity comparison beyond function pairs

2

... 由于跨平台代码语法差异很大，因此在比较上通常是计算语义相似性.当前跨平台解决方案采用两种技术来实现.一是语法分析，先利用中间语言表示技术，把二进制代码提升到和平台无关的中间语言表示上，然后在中间语言表示上完成相同的语法分析，这样就实现了和原来平台架构无关，如文献［10］提出的BinGo方案和文献［2］提出的FirmUp方案.二是特征分析，为每一个平台架构设计单独的模块获取特征向量，捕获二进制代码的语义信息，利用监督学习机制在跨平台间打上标签，如来自同一份源代码则表示相似标记为1，否则标记为0，然后将数据喂入模型训练从而得到分析模型，BinDNN方案^［47］、INNEREYE方案^［48］和SAFE方案^［49］. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

SAFE： self-attentive function embeddings for binary similarity

2

2019

... 由于跨平台代码语法差异很大，因此在比较上通常是计算语义相似性.当前跨平台解决方案采用两种技术来实现.一是语法分析，先利用中间语言表示技术，把二进制代码提升到和平台无关的中间语言表示上，然后在中间语言表示上完成相同的语法分析，这样就实现了和原来平台架构无关，如文献［10］提出的BinGo方案和文献［2］提出的FirmUp方案.二是特征分析，为每一个平台架构设计单独的模块获取特征向量，捕获二进制代码的语义信息，利用监督学习机制在跨平台间打上标签，如来自同一份源代码则表示相似标记为1，否则标记为0，然后将数据喂入模型训练从而得到分析模型，BinDNN方案^［47］、INNEREYE方案^［48］和SAFE方案^［49］. ...

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

一种大规模的跨平台同源二进制文件检索方法

2

2018

... 文献［50］抽取二进制文件数据段中的ASCII（American Standard Code for Information Interchange）格式字符串、代码段中的ASCII格式字符串和数据段中的Unicode字符串，组合得到可读字符串序列，借助深度学习编码可读字符串，随后对编码向量施加LSH计算从而实现快速检索. ...

... 有学者将基于神经网络技术应用到跨平台二进制代码相似性搜索上.VDNS（Vulnerability Detection based on Neural network and Structures matching）方案^［81］以函数为最小关联单元，对函数间调用图ICFG、函数内CFG、函数基本信息进行特征选择和特征编码，然后利用反向传播神经网络计算函数相似度.文献［50］认为不同编译配置下编译而生成的多个同源二进制文件中，可读字符串的内容和顺序基本保持一致，基于这种可读字符串的编译不变性，提出一种基于双层双向门控循环单元（Gated Recurrent Unit， GRU）模型的字符串序列编码方法.MIRROR方案^［82］将基本块中的操作码和操作数看作一个符号序列，利用NMT（Neural Machine Translation）在x86和ARM之间实现翻译，从而实现跨平台的相似性搜索. ...

一种大规模的跨平台同源二进制文件检索方法

2

2018

... 文献［50］抽取二进制文件数据段中的ASCII（American Standard Code for Information Interchange）格式字符串、代码段中的ASCII格式字符串和数据段中的Unicode字符串，组合得到可读字符串序列，借助深度学习编码可读字符串，随后对编码向量施加LSH计算从而实现快速检索. ...

... 有学者将基于神经网络技术应用到跨平台二进制代码相似性搜索上.VDNS（Vulnerability Detection based on Neural network and Structures matching）方案^［81］以函数为最小关联单元，对函数间调用图ICFG、函数内CFG、函数基本信息进行特征选择和特征编码，然后利用反向传播神经网络计算函数相似度.文献［50］认为不同编译配置下编译而生成的多个同源二进制文件中，可读字符串的内容和顺序基本保持一致，基于这种可读字符串的编译不变性，提出一种基于双层双向门控循环单元（Gated Recurrent Unit， GRU）模型的字符串序列编码方法.MIRROR方案^［82］将基本块中的操作码和操作数看作一个符号序列，利用NMT（Neural Machine Translation）在x86和ARM之间实现翻译，从而实现跨平台的相似性搜索. ...

基于simhash与倒排索引的复用代码快速溯源方法

1

2016

... 文献［51］将SimHASH哈希技术应用到函数相似性检测中，依据函数中代码块的SimHASH值快速发现相似代码块.文献［52］提出的BinHASH方案将函数表示为一组行为特征集合，利用输入输出分析获得基本块内的行为，如内存操作行为、寄存器操作行为，然后将这些行为特征施加最小哈希MinHASH运算，从而在大规模函数中实现聚类分析. ...

基于simhash与倒排索引的复用代码快速溯源方法

1

2016

... 文献［51］将SimHASH哈希技术应用到函数相似性检测中，依据函数中代码块的SimHASH值快速发现相似代码块.文献［52］提出的BinHASH方案将函数表示为一组行为特征集合，利用输入输出分析获得基本块内的行为，如内存操作行为、寄存器操作行为，然后将这些行为特征施加最小哈希MinHASH运算，从而在大规模函数中实现聚类分析. ...

Binary function clustering using semantic hashes

3

2012

... 文献［51］将SimHASH哈希技术应用到函数相似性检测中，依据函数中代码块的SimHASH值快速发现相似代码块.文献［52］提出的BinHASH方案将函数表示为一组行为特征集合，利用输入输出分析获得基本块内的行为，如内存操作行为、寄存器操作行为，然后将这些行为特征施加最小哈希MinHASH运算，从而在大规模函数中实现聚类分析. ...

... 文献［52］认为二进制代码片段相似当且仅当代码在机器状态上具有相同的影响，因此从寄存器、内存、函数调用参数、跳转条件4个角度构建基本块的输入输出行为模型.文献［10］将机器状态定义成由内存、通用寄存器和条件标志组成的三元组，然后在执行路径上获得执行前后符号表达式，利用文献［6］提出的输入输出随机产生样本和约束求解技术，进而比较执行前后符号表达式产生的语义是否等价. ...

... 语义哈希是检查两个符号表达式是否具有相同的哈希.如果两个符号公式具有相同的哈希值则认为它们是相等的.BinHASH方案^［52］将内存操作行为、寄存器操作行为用符号公式表示后，利用最小哈希技术计算符号公式的哈希值.GitZ方案^［13］将不同平台的指令转换到中间语言后，抽取基本块中数据依赖的相关指令并符号化为公式，利用MD5技术生成语义哈希.语义哈希尽管效率高，仍存在两个本来相等的公式在归一化和简化后会具有不同哈希值，如指令重新排序会引起符号公式中的符号项发生变化，从而产生不同的哈希值. ...

Kam1n0： MapReduce-based assembly clone search for reverse engineering

2

2016

... 文献［53］提出的Kam1n0方案认为现有哈希技术不能很好地处理分布不均匀的数据，认为：基本块越小，相似性越高；基本块越大，向量空间呈稀疏分布，相似性越低.因此，在LSH的基础上，提出了一种新的自适应局部敏感哈希（Adaptive LSH， ALSH）算法，该算法对于稠密区域可以得到较少的点，对于稀疏区域可以得到较多的点，并证明性能等效近邻搜索. ...

... 指令序列可定长也可变长.定长指令序列通过运用滑动窗口大小或步长来实现.滑动窗口大小也就是指令序列中指令的数量，步长是指从窗口开始处开始滑动的指令个数.当步长小于滑动窗口大小时，连续序列重叠.当步长为n时，产生的序列称之为N-Gram.例如，给定一个指令助记符序列｛MOV，SUB，ADD｝，当N=2时，指令助记符序列会得到｛MOV，SUB｝和｛SUB，ADD｝两个指令序列.Rendezvous方案^［40］、Kam1n0方案^［53］以及ILINE方案^［26］在各自的系统中都采用了N-Gram作为相似性比较的方法. ...

Identifying almost identical files using context triggered piecewise hashing

1

2006

... 文献［54］提出的Ssdeep方案认为同源文件以相同的顺序共享相同的位集（sets of bits），因此，通过使用滚动方式获得数据的边界，提出一种上下文触发的分段散列（Context-Triggered Piecewise Hashing， CTPH）算法.这种散列可以用来识别未知输入和已知文件之间的有序同源序列，当文件的部分变化发生时，如修改、增加、删除等操作，使用Ssdeep均能发现与源文件的相似关系.这是因为模糊哈希不仅捕捉二进制代码相似性，也捕捉了可执行文件中数据的相似性.文献［55］的结果证实，模糊哈希能够识别具有共同代码或库程序之间的相似性.他们发现即使相同的源代码在编译的时候采用不同编译优化选项，可执行文件的数据部分仍然相同^［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

Beyond precision and recall： understanding uses （and misuses） of similarity hashes in binary analysis

2

2018

... 文献［54］提出的Ssdeep方案认为同源文件以相同的顺序共享相同的位集（sets of bits），因此，通过使用滚动方式获得数据的边界，提出一种上下文触发的分段散列（Context-Triggered Piecewise Hashing， CTPH）算法.这种散列可以用来识别未知输入和已知文件之间的有序同源序列，当文件的部分变化发生时，如修改、增加、删除等操作，使用Ssdeep均能发现与源文件的相似关系.这是因为模糊哈希不仅捕捉二进制代码相似性，也捕捉了可执行文件中数据的相似性.文献［55］的结果证实，模糊哈希能够识别具有共同代码或库程序之间的相似性.他们发现即使相同的源代码在编译的时候采用不同编译优化选项，可执行文件的数据部分仍然相同^［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

... ［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

Mining malware to detect variants

1

2014

... 文献［54］提出的Ssdeep方案认为同源文件以相同的顺序共享相同的位集（sets of bits），因此，通过使用滚动方式获得数据的边界，提出一种上下文触发的分段散列（Context-Triggered Piecewise Hashing， CTPH）算法.这种散列可以用来识别未知输入和已知文件之间的有序同源序列，当文件的部分变化发生时，如修改、增加、删除等操作，使用Ssdeep均能发现与源文件的相似关系.这是因为模糊哈希不仅捕捉二进制代码相似性，也捕捉了可执行文件中数据的相似性.文献［55］的结果证实，模糊哈希能够识别具有共同代码或库程序之间的相似性.他们发现即使相同的源代码在编译的时候采用不同编译优化选项，可执行文件的数据部分仍然相同^［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

Experimental study of fuzzy hashing in malware clustering analysis

1

2015

... 文献［54］提出的Ssdeep方案认为同源文件以相同的顺序共享相同的位集（sets of bits），因此，通过使用滚动方式获得数据的边界，提出一种上下文触发的分段散列（Context-Triggered Piecewise Hashing， CTPH）算法.这种散列可以用来识别未知输入和已知文件之间的有序同源序列，当文件的部分变化发生时，如修改、增加、删除等操作，使用Ssdeep均能发现与源文件的相似关系.这是因为模糊哈希不仅捕捉二进制代码相似性，也捕捉了可执行文件中数据的相似性.文献［55］的结果证实，模糊哈希能够识别具有共同代码或库程序之间的相似性.他们发现即使相同的源代码在编译的时候采用不同编译优化选项，可执行文件的数据部分仍然相同^［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

BitShred： feature hashing malware for scalable triage and semantic analysis

1

2011

... 文献［54］提出的Ssdeep方案认为同源文件以相同的顺序共享相同的位集（sets of bits），因此，通过使用滚动方式获得数据的边界，提出一种上下文触发的分段散列（Context-Triggered Piecewise Hashing， CTPH）算法.这种散列可以用来识别未知输入和已知文件之间的有序同源序列，当文件的部分变化发生时，如修改、增加、删除等操作，使用Ssdeep均能发现与源文件的相似关系.这是因为模糊哈希不仅捕捉二进制代码相似性，也捕捉了可执行文件中数据的相似性.文献［55］的结果证实，模糊哈希能够识别具有共同代码或库程序之间的相似性.他们发现即使相同的源代码在编译的时候采用不同编译优化选项，可执行文件的数据部分仍然相同^［55］，这对数据相似性分析引入到二进制代码相似性搜索中具有指导意义.类似的实现方案还有TLSH（Trend LSH）方案^［56］、nextGen-hash方案^［57］和BitShred方案^［58］. ...

peHash： a novel approach to fast malware clustering

1

2019

... 文献［59］提出的peHash方案对一个PE（Portable Executable）可执行文件，选择在编译和加壳过程中很少发生变化的区域上进行哈希计算，如初始化栈大小、堆大小.文献［60］提出的ImpHash方案认为加壳变种后功能是一样的，则认为导入表同样也是一样，因此在计算的时候仅仅对导入表进行哈希计算.由于恶意代码在加壳过程中加入一些不相关可执行文件，并重构导入表，从而造成错误率很高. ...

Tracking malware with import hashing

1

... 文献［59］提出的peHash方案对一个PE（Portable Executable）可执行文件，选择在编译和加壳过程中很少发生变化的区域上进行哈希计算，如初始化栈大小、堆大小.文献［60］提出的ImpHash方案认为加壳变种后功能是一样的，则认为导入表同样也是一样，因此在计算的时候仅仅对导入表进行哈希计算.由于恶意代码在加壳过程中加入一些不相关可执行文件，并重构导入表，从而造成错误率很高. ...

BinClone： detecting code clones in malware

2

2014

... 指令序列通常是指函数中的指令在空间上是按照线性连续地排列.指令序列在比较时需要指令归一化，归一化主要包括操作码归一化和操作数归一化.文献［61］提出的BinClone方案采用操作数归一化，将常量用VAL符号代替，内存地址用MEM符号代替、寄存器用REG符号代替.与BinClone不同的是，文献［11］提出的BinSequence方案将常量分为内存偏离量和立即数.文献［45］采用操作码符归一化，将操作码区分为逻辑计算、数据传输、栈操作、数学运算、函数调用、地址操作等类别.由于指令是代码搜索最基本的组成单位，因此通常将指令比较的结果作为相似性搜索的前提.典型的指令比较主要包括N-Gram、N-Perm、指令哈希和指令对齐方式. ...

... 指令哈希是指从一个变长的指令序列中得到固定长度个数的指令序列后，运用哈希计算，如果两者之间哈希值一样，则认为序列相似，如SMIT（Symantec Malware Indexing Tree）方案^［19］、BinClone方案^［61］以及SPAIN（Security Patch Analysis for bINary）方案^［34］. ...

Function matching-based binary-level software similarity calculation

2

2013

... 三种有向图的输入是不同的.CG或ICFG以整个二进制程序或文件作为输入，基于CFG的方法是以二进制函数作为输入.多数方案不在图上进行二次加工.如文献［62］采用CG方式，文献［63］采用CFG方式，文献［64］采用ICFG方式. ...

... 由于图同构要求图中所有节点要相同，比较代价较高，因此当前二进制代码比较通常是采用子最大公共子图同构，即找到两个图中的最大同构子图.为了减少图比较对的数目以及图大小，文献［62］对相同签名的CFG和差异较大CFG不进行比较，iBinHunt方案^［68］只比较具有相同污点标签的节点.SMIT方案^［19］和BinSlayer方案^［69］把图相似度模型归结为图优化问题.SMIT利用制高点树（Vantage Point Tree， VPT）技术将搜索问题转换为近邻搜索，BinSlayer利用匈牙利算法（Hungarian Algorithm， HA）加快搜索速度.文献［22］采用子图匹配的方案，其基本思想是把函数CFG图分割成多个子图，为每个子图产生一个指纹，通过统计子图指纹匹配数量来确定两个图之间的相似度. ...

Fast location of similar code fragments using semantic juice

1

2013

... 三种有向图的输入是不同的.CG或ICFG以整个二进制程序或文件作为输入，基于CFG的方法是以二进制函数作为输入.多数方案不在图上进行二次加工.如文献［62］采用CG方式，文献［63］采用CFG方式，文献［64］采用ICFG方式. ...

Compiler-agnostic function detection in binaries

1

2017

... 三种有向图的输入是不同的.CG或ICFG以整个二进制程序或文件作为输入，基于CFG的方法是以二进制函数作为输入.多数方案不在图上进行二次加工.如文献［62］采用CG方式，文献［63］采用CFG方式，文献［64］采用ICFG方式. ...

SIGMA： a semantic integrated graph matching approach for identifying reused functions in binary code

1

2015

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

Library functions identification in binary code by using graph isomorphism testings

1

2015

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

Common program similarity metric method for anti-obfuscation

1

2018

... 有些方案赋予图更多的语义信息.Genius方案^［9］和Gemini方案^［15］融入基本块的统计属性，文献［23］融入边的属性，把CFG中的边标记为控制流转移类型.SIGMA（Semantic Integrated Graph Matching Approach）方案^［65］融入图的属性，提出一种包含CFG、CG和寄存器流程图的语义集成图.文献［66］融合CFG调用的内联函数和库函数，提出执行依赖图（Execution Dependence Graph， EDG）.文献［67］使用指令依赖关系图（Reductive Instruction Dependent Graph， RIDG），认为虽然指令的顺序发生了变化，但指令之间的依赖关系图却保持不变.这意味着指令依赖关系图具有天然抗指令重排序的特性，因此引入RIDG实现一种通用且抗混淆的二进制程序相似性分析. ...

iBinHunt： binary hunting with inter-procedural control flow

2

2012

... 由于图同构要求图中所有节点要相同，比较代价较高，因此当前二进制代码比较通常是采用子最大公共子图同构，即找到两个图中的最大同构子图.为了减少图比较对的数目以及图大小，文献［62］对相同签名的CFG和差异较大CFG不进行比较，iBinHunt方案^［68］只比较具有相同污点标签的节点.SMIT方案^［19］和BinSlayer方案^［69］把图相似度模型归结为图优化问题.SMIT利用制高点树（Vantage Point Tree， VPT）技术将搜索问题转换为近邻搜索，BinSlayer利用匈牙利算法（Hungarian Algorithm， HA）加快搜索速度.文献［22］采用子图匹配的方案，其基本思想是把函数CFG图分割成多个子图，为每个子图产生一个指纹，通过统计子图指纹匹配数量来确定两个图之间的相似度. ...

... iBinHunt^［68］为基本块中的每个寄存器和内存变量都产生一个符号表达式，然后基于定理证明器来检查两个符号公式是否相等.方案假设输入变量共享相同的值，符号公式执行后如果输出变量具有相同的值，则两个符号公式相等.通常一个基本块有多个寄存器和内存变量组成，这样会生成多个输出，由于每一个输出都需要单独的符号公式，因此iBinHunt须实现多对输入输出结果间的比较.XMATCH方案^［12］、Expose方案^［74］和BinSim方案^［75］则采用从系统调用参数的执行路径轨迹上抽取符号公式，然后利用定理证明器方案进行相等验证.基于定理证明器方法能够实现代码片段的相等比较，不足在于计算代价高，符号公式越长搜索比较时间越长，受到定理证明器的约束. ...

BinSlayer： accurate comparison of binary executables

1

2013

... 由于图同构要求图中所有节点要相同，比较代价较高，因此当前二进制代码比较通常是采用子最大公共子图同构，即找到两个图中的最大同构子图.为了减少图比较对的数目以及图大小，文献［62］对相同签名的CFG和差异较大CFG不进行比较，iBinHunt方案^［68］只比较具有相同污点标签的节点.SMIT方案^［19］和BinSlayer方案^［69］把图相似度模型归结为图优化问题.SMIT利用制高点树（Vantage Point Tree， VPT）技术将搜索问题转换为近邻搜索，BinSlayer利用匈牙利算法（Hungarian Algorithm， HA）加快搜索速度.文献［22］采用子图匹配的方案，其基本思想是把函数CFG图分割成多个子图，为每个子图产生一个指纹，通过统计子图指纹匹配数量来确定两个图之间的相似度. ...

Order matters： semantic-aware neural networks for binary code similarity detection

1

2020

... VulSeeker方案^［14］首先构建标签语义流图（Labeled Semantic Flow Graph， LSFG）；然后提取每个基本块的特征向量，利用DNN（Deep Neural Network）模型生成函数图嵌入；最后计算余弦距离得到相似度.文献［70］认为CFG节点的顺序对于图相似度检测很重要，因此融入语义感知、结构感知、顺序感知等信息，使用BERT（Bidirectional Encoder Representations from Transformers）^［71］预训练模型提取语义信息，并使用卷积神经网络（Convolutional Neural Network， CNN）模型提取节点顺序信息. ...

BERT： pre-training of deep bidirectional transformers for language understanding

1

2019

... VulSeeker方案^［14］首先构建标签语义流图（Labeled Semantic Flow Graph， LSFG）；然后提取每个基本块的特征向量，利用DNN（Deep Neural Network）模型生成函数图嵌入；最后计算余弦距离得到相似度.文献［70］认为CFG节点的顺序对于图相似度检测很重要，因此融入语义感知、结构感知、顺序感知等信息，使用BERT（Bidirectional Encoder Representations from Transformers）^［71］预训练模型提取语义信息，并使用卷积神经网络（Convolutional Neural Network， CNN）模型提取节点顺序信息. ...

Binary code clone detection across architectures and compiling configurations

1

2017

... 文献［72］遍历CFG，识别函数执行过程用到的参数，通过函数的多路交换语句识别出所有的间接调转地址，然后选择一个随机值作为输入来产生语义签名，最后比较签名值来进行相似性度量.文献［34-35，73］提出的方案均将相同的输入送入到基本块中并执行，然后比较代码执行后的输出是否相等.相同输入的比较优势在于处理流程可能需要多次，依据测试多种可能的输入输出结果进而判定两个片段是否相等.如果任一个输入产生的输出不同，则两个片段不相等.这对一些不重要的二进制片段来讲是不切合实际的. ...

In-memory fuzzing for binary code similarity analysis

2

2017

... 文献［72］遍历CFG，识别函数执行过程用到的参数，通过函数的多路交换语句识别出所有的间接调转地址，然后选择一个随机值作为输入来产生语义签名，最后比较签名值来进行相似性度量.文献［34-35，73］提出的方案均将相同的输入送入到基本块中并执行，然后比较代码执行后的输出是否相等.相同输入的比较优势在于处理流程可能需要多次，依据测试多种可能的输入输出结果进而判定两个片段是否相等.如果任一个输入产生的输出不同，则两个片段不相等.这对一些不重要的二进制片段来讲是不切合实际的. ...

... 通过比较机器学习得到的分类结果或预测结果，也可以实现二进制代码相似性比较.BinDNN^［47］将相似性比较定义为一个二分类任务，采用神经网络分类器去判定两个来自相同源代码的不同编译函数是否相似.ZeeK方案^［80］将二进制函数中的每个基本块分割成多个串（strand），使用文献［13］中的方法将每一个串进行归一化和标准化，之后采用MD5哈希这些标准化表示转换成一个类似one-hot的稀疏向量.这样，每个函数转换成向量之后，利用全连接网络判定两个函数是否属于同一类.Zeek没有考虑函数之间的调用信息，串的分割损失串内部的信息以及串之间的控制流程信息.文献［73］在汇编指令级上捕获trace内的程序行为集合并编码为向量后，采用基于树的机器学习模型来预测两个函数相似概率值. ...

Expose： discovering potential binary code re-use

1

2013

... iBinHunt^［68］为基本块中的每个寄存器和内存变量都产生一个符号表达式，然后基于定理证明器来检查两个符号公式是否相等.方案假设输入变量共享相同的值，符号公式执行后如果输出变量具有相同的值，则两个符号公式相等.通常一个基本块有多个寄存器和内存变量组成，这样会生成多个输出，由于每一个输出都需要单独的符号公式，因此iBinHunt须实现多对输入输出结果间的比较.XMATCH方案^［12］、Expose方案^［74］和BinSim方案^［75］则采用从系统调用参数的执行路径轨迹上抽取符号公式，然后利用定理证明器方案进行相等验证.基于定理证明器方法能够实现代码片段的相等比较，不足在于计算代价高，符号公式越长搜索比较时间越长，受到定理证明器的约束. ...

BinSim： trace-based semantic binary diffing via system call sliced segment equivalence checking

1

2017

... iBinHunt^［68］为基本块中的每个寄存器和内存变量都产生一个符号表达式，然后基于定理证明器来检查两个符号公式是否相等.方案假设输入变量共享相同的值，符号公式执行后如果输出变量具有相同的值，则两个符号公式相等.通常一个基本块有多个寄存器和内存变量组成，这样会生成多个输出，由于每一个输出都需要单独的符号公式，因此iBinHunt须实现多对输入输出结果间的比较.XMATCH方案^［12］、Expose方案^［74］和BinSim方案^［75］则采用从系统调用参数的执行路径轨迹上抽取符号公式，然后利用定理证明器方案进行相等验证.基于定理证明器方法能够实现代码片段的相等比较，不足在于计算代价高，符号公式越长搜索比较时间越长，受到定理证明器的约束. ...

Efficient estimation of word representations in vector space

1

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

Distributed representations of sentences and documents

1

2014

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

A Cross-architecture instruction embedding model for natural language processing-inspired binary code analysis

1

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

Asm2vec： boosting static representation robustness for binary clone search against code obfuscation and compiler optimization

1

2019

... Genius方案^［9］首次使用图嵌入实现二进制代码相似性分析，将基本块中的统计属性和结构属性编码为向量.Gemini沿用Genius思路，增加Structure2vec模型得到图嵌入向量.借助自然语言处理技术如Word2vec^［76］、Doc2vec^［77］实现语义相似度比较，不少方案从图和基本块的研究转移到指令上和原始字节上.文献［78］的方案和INNEREYE方案^［48］把指令看作单词，基本块看作句子，CFG看作有多个基本块组成的段落；SAFE方案^［49］使用Word2vec方法生成函数嵌入；ASM2VEC^［79］则采用Doc2vec形成路径嵌入，综合函数中的不同路径嵌入成一个向量；αDiff方案^［16］认为文献［8，10，15］方案提取的特征存在偏见，因此直接对函数上的原始字节序列进行编码从而生成函数嵌入，该方案仅仅解决了不同版本之间的原始字节粒度的检测，并没有实现函数粒度的检测. ...

Binary similarity detection using machine learning

1

2018

... 通过比较机器学习得到的分类结果或预测结果，也可以实现二进制代码相似性比较.BinDNN^［47］将相似性比较定义为一个二分类任务，采用神经网络分类器去判定两个来自相同源代码的不同编译函数是否相似.ZeeK方案^［80］将二进制函数中的每个基本块分割成多个串（strand），使用文献［13］中的方法将每一个串进行归一化和标准化，之后采用MD5哈希这些标准化表示转换成一个类似one-hot的稀疏向量.这样，每个函数转换成向量之后，利用全连接网络判定两个函数是否属于同一类.Zeek没有考虑函数之间的调用信息，串的分割损失串内部的信息以及串之间的控制流程信息.文献［73］在汇编指令级上捕获trace内的程序行为集合并编码为向量后，采用基于树的机器学习模型来预测两个函数相似概率值. ...

VDNS：一种跨平台的固件漏洞关联算法

1

2016

... 有学者将基于神经网络技术应用到跨平台二进制代码相似性搜索上.VDNS（Vulnerability Detection based on Neural network and Structures matching）方案^［81］以函数为最小关联单元，对函数间调用图ICFG、函数内CFG、函数基本信息进行特征选择和特征编码，然后利用反向传播神经网络计算函数相似度.文献［50］认为不同编译配置下编译而生成的多个同源二进制文件中，可读字符串的内容和顺序基本保持一致，基于这种可读字符串的编译不变性，提出一种基于双层双向门控循环单元（Gated Recurrent Unit， GRU）模型的字符串序列编码方法.MIRROR方案^［82］将基本块中的操作码和操作数看作一个符号序列，利用NMT（Neural Machine Translation）在x86和ARM之间实现翻译，从而实现跨平台的相似性搜索. ...

VDNS：一种跨平台的固件漏洞关联算法

1

2016

... 有学者将基于神经网络技术应用到跨平台二进制代码相似性搜索上.VDNS（Vulnerability Detection based on Neural network and Structures matching）方案^［81］以函数为最小关联单元，对函数间调用图ICFG、函数内CFG、函数基本信息进行特征选择和特征编码，然后利用反向传播神经网络计算函数相似度.文献［50］认为不同编译配置下编译而生成的多个同源二进制文件中，可读字符串的内容和顺序基本保持一致，基于这种可读字符串的编译不变性，提出一种基于双层双向门控循环单元（Gated Recurrent Unit， GRU）模型的字符串序列编码方法.MIRROR方案^［82］将基本块中的操作码和操作数看作一个符号序列，利用NMT（Neural Machine Translation）在x86和ARM之间实现翻译，从而实现跨平台的相似性搜索. ...

Similarity metric method for binary basic blocks of cross-instruction set architecture

1

2020

... 有学者将基于神经网络技术应用到跨平台二进制代码相似性搜索上.VDNS（Vulnerability Detection based on Neural network and Structures matching）方案^［81］以函数为最小关联单元，对函数间调用图ICFG、函数内CFG、函数基本信息进行特征选择和特征编码，然后利用反向传播神经网络计算函数相似度.文献［50］认为不同编译配置下编译而生成的多个同源二进制文件中，可读字符串的内容和顺序基本保持一致，基于这种可读字符串的编译不变性，提出一种基于双层双向门控循环单元（Gated Recurrent Unit， GRU）模型的字符串序列编码方法.MIRROR方案^［82］将基本块中的操作码和操作数看作一个符号序列，利用NMT（Neural Machine Translation）在x86和ARM之间实现翻译，从而实现跨平台的相似性搜索. ...

Debin： Predicting debug information in stripped binaries

2

2018

... Debin方案^［83］将变量识别为一个二分类问题，然后利用概率推导来预测变量值.该方案采用极端随机树（Extremely randomized Tree， ET）分类模型，用于程序变量的恢复和抽取.如果模型将寄存器或内存偏移识别为变量，则在寄存器和变量、内存偏离和变量之间打上变量标签.在变量值预测方面，Debin给每一个未知节点分配一个属性值，在概率图模型上进行最大后验概率推导，根据图的结构信息来预测所有未知节点的全局最优值. ...

... 从漏洞发现角度出发，融入数据语义相似性和数据流分析技术可能会产生比较好的语义相等结果，从而有助于漏洞进化研究.因此，结合二进制代码类型恢复^［94］，定位代码使用中的变量并对变量相关的操作进行分类^［95］，生成携带调试信息的参数^［83］，进一步挖掘二进制的高级语义信息是二进制代码逆向分析的趋势，其研究结果更有助于搜索等下游任务的实现. ...

DIRE： A neural approach to decompiled identifier naming

1

2019

... Debin概率图中的节点是函数、寄存器变量、内存偏离变量、数据类型、标志、指令、常量、位置和一元操作共计9种类型，节点之间通过函数关系、变量关系、类型关系和因子关系建立连接，这些关系的引入更加接近高级语义，因此有助于代码搜索.调试信息恢复方案不同于以往的函数相似性搜索，而是从数据相似性角度搜索代码片段中是否包含感兴趣的变量或关系.但是，Debin方案预测准确率低至68.8%，在代码混淆处理上准确率更低.类似的工作还有Dire方案^［84］. ...

Neural reverse engineering of stripped binaries using augmented control flow graphs

1

2020

... Nero方案^［85］通过建立神经网络翻译模型，对给定的一个剥离二进制函数，能够预测产生API调用序列高级语义名称.具体实现为，提取函数的形成API调用序列后，借助切片技术获得API参数的具体值或最大概率抽象值，从而形成增强Call调用序列，然后将这些Call调用序列喂入Encoder-Decoder算法模型中从而实现预测.由于Nero方案是利用API调用序列来描述高级语义，能处理代码混淆问题，却无法处理调用的用户自定义内部函数.如果函数不包含API，是无法得到高级语义的. ...

Karonte： detecting insecure multi-binary interactions in embedded firmware

1

2020

... Karonte方案^［86］认为设备通常使用多个二进制文件实现其功能，因此建模和跟踪多个二进制文件的函数交互来分析嵌入式设备固件.该方案最大的优势在于不仅仅利用了多个文件，同时还利用了多个函数，因此能在多文件多函数之间传播污染信息，进而检测出不安全的交互并识别漏洞. ...

知识表示学习研究进展

1

2016

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

知识表示学习研究进展

1

2016

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

面向知识图谱的知识推理研究进展

1

2018

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

面向知识图谱的知识推理研究进展

1

2018

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

ERNIE： enhanced language representation with informative entities

1

2019

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

Translating embeddings for modeling multi-relational data

1

2013

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

Modeling relation paths for representation learning of knowledge bases

1

2015

... 近些年知识图谱在很多任务中展现巨大应用潜力.知识图谱是以图的形式表现客观世界中的实体（概念）及其之间关系的知识库.知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，高效地计算实体、关系及其之间的复杂语义关联^［87］，进而理解搜索的语义，提供更精准的搜索答案^［88］.以Word2vec、Doc2vec和BERT为代表的预训练语言模型，能从文本抽取出丰富的语言信息，但是很少考虑将知识图谱的结构化信息融入其中，从而提高语言的理解.ERNIE（Enhanced language Representation with Informative Entities）方案^［89］通过训练一个增强的语言表示模型，能够同时利用词汇、语义和知识信息，使得实体能够增强语言表示.因此，从n个目标中找到k个最相似的代码搜索问题，可以尝试利用TransE（Translating Embeddings for modeling multi-relational data）^［90］代表的知识表示学习二进制代码语义信息，从多个维度实现异质信息融合.将二进制代码片段看作是一个知识图谱，通过知识图谱推理结果^［91］来比较代码片段，在准确性和可解释性上可能会效果更好. ...

LEMNA： explaining deep learning based security applications

1

2018

... 深度学习的不透明特性为找到网络安全解决方案带来挑战.深度神经网络利用数以万计的神经元在大量的数据集上进行训练而成.训练本身带来的高度复杂性和黑盒操作，使得研究人员很难理解神经网络的某些决策，从而导致无法信任神经网络给出的安全结果，对于错误的结果也无法有效判断神经网络的错误出现在哪里.LEMNA（Local Explanation Method using Nonlinear Approximation）方案^［92］开启了二进制代码逆向和恶意软件聚类的可解释性问题的研究，重点关注寻找函数边界，确定函数类型，以及定位相似代码，实验阐释了为什么聚类操作会作出正确或者错误的决定. ...

Malware lineage in the wild

1

2018

... 由于动态分析发生在运行时，代码运行时的内存地址、操作值和控制流去向都非常明确，因此可以处理部分代码混淆从而应用于语义相等比较.但是动态分析在混淆代码的处理上也存在困难，主要是因为一次只能执行一个路径，并且只能在这个路径执行中比较相似性.二进制代码仍会面临代码混淆带来的挑战.研究表明由于函数边界识别问题，当前脱壳技术会造成20%～60%的原始代码丢失^［93］，如对采用虚拟化加壳器技术带来的混淆并没有较好的解决方案. ...

Type inference on executables

1

2016

... 从漏洞发现角度出发，融入数据语义相似性和数据流分析技术可能会产生比较好的语义相等结果，从而有助于漏洞进化研究.因此，结合二进制代码类型恢复^［94］，定位代码使用中的变量并对变量相关的操作进行分类^［95］，生成携带调试信息的参数^［83］，进一步挖掘二进制的高级语义信息是二进制代码逆向分析的趋势，其研究结果更有助于搜索等下游任务的实现. ...

Learning types for binaries

1

2017

... 从漏洞发现角度出发，融入数据语义相似性和数据流分析技术可能会产生比较好的语义相等结果，从而有助于漏洞进化研究.因此，结合二进制代码类型恢复^［94］，定位代码使用中的变量并对变量相关的操作进行分类^［95］，生成携带调试信息的参数^［83］，进一步挖掘二进制的高级语义信息是二进制代码逆向分析的趋势，其研究结果更有助于搜索等下游任务的实现. ...

Identifying Linux bug fixing patches

1

2012

... 安全漏洞分析和bug搜索中也会面临这样的需求，如很多程序在更新补丁信息后并不会透露更新细节.安全补丁大多是微小变化^［96］，92%的安全补丁是在一个文件中，30%的补丁修复仅仅包含一行条件^［97］.这样一来，基于相似性的方法在识别细微变化上会更难，从而无法有效地区分补丁版本和未补丁版本，从而在bug搜索或者漏洞发现时会产生很高的误报率或漏报率.研究高级语义的描述，识别不同应用场景的进化模式，可能是进化性搜索的解决之道. ...

Dissection of a bug dataset： anatomy of 395 patches from Defects4

1

2018

... 安全漏洞分析和bug搜索中也会面临这样的需求，如很多程序在更新补丁信息后并不会透露更新细节.安全补丁大多是微小变化^［96］，92%的安全补丁是在一个文件中，30%的补丁修复仅仅包含一行条件^［97］.这样一来，基于相似性的方法在识别细微变化上会更难，从而无法有效地区分补丁版本和未补丁版本，从而在bug搜索或者漏洞发现时会产生很高的误报率或漏报率.研究高级语义的描述，识别不同应用场景的进化模式，可能是进化性搜索的解决之道. ...

Inferring phylogenetic network of malware families based on splits graph

1

2017

... 有学者从演化网络入手，研究恶意代码之间的多继承关系.文献［98］提出了利用分割图的恶意代码家族世袭网络构建算法，能够自动构建包含多继承关系的演化网络.该方案虽然能够自动地进行分析，但面对海量待分析恶意代码时，计算时间将急剧增加.有学者从基因视角来描述恶意代码之间的演化关系^［99-100］，通过计算基因之间的相似性来判断恶意代码之间的相似性.为识别相似的恶意代码之间是否发生进化，文献引入时间特征来反映恶意代码出现的先后顺序，从而指导恶意代码演化网络的建立. ...

Malware homology identification based on a gene perspective

1

2019

... 有学者从演化网络入手，研究恶意代码之间的多继承关系.文献［98］提出了利用分割图的恶意代码家族世袭网络构建算法，能够自动构建包含多继承关系的演化网络.该方案虽然能够自动地进行分析，但面对海量待分析恶意代码时，计算时间将急剧增加.有学者从基因视角来描述恶意代码之间的演化关系^［99-100］，通过计算基因之间的相似性来判断恶意代码之间的相似性.为识别相似的恶意代码之间是否发生进化，文献引入时间特征来反映恶意代码出现的先后顺序，从而指导恶意代码演化网络的建立. ...

基于基因视角的恶意代码分析及关键技术研究

1

2019

... 有学者从演化网络入手，研究恶意代码之间的多继承关系.文献［98］提出了利用分割图的恶意代码家族世袭网络构建算法，能够自动构建包含多继承关系的演化网络.该方案虽然能够自动地进行分析，但面对海量待分析恶意代码时，计算时间将急剧增加.有学者从基因视角来描述恶意代码之间的演化关系^［99-100］，通过计算基因之间的相似性来判断恶意代码之间的相似性.为识别相似的恶意代码之间是否发生进化，文献引入时间特征来反映恶意代码出现的先后顺序，从而指导恶意代码演化网络的建立. ...

基于基因视角的恶意代码分析及关键技术研究

1

2019

... 有学者从演化网络入手，研究恶意代码之间的多继承关系.文献［98］提出了利用分割图的恶意代码家族世袭网络构建算法，能够自动构建包含多继承关系的演化网络.该方案虽然能够自动地进行分析，但面对海量待分析恶意代码时，计算时间将急剧增加.有学者从基因视角来描述恶意代码之间的演化关系^［99-100］，通过计算基因之间的相似性来判断恶意代码之间的相似性.为识别相似的恶意代码之间是否发生进化，文献引入时间特征来反映恶意代码出现的先后顺序，从而指导恶意代码演化网络的建立. ...

名称	实现	优点	不足
局部敏感哈希	对代码原始字节集合进行分片哈希	能够在向量空间中实现快速近似查找	精确度不高，受限于阈值设置
模糊哈希	对整个文件进行分片哈希	考虑了数据相似性，便于快速同源性分析	无法识别变化
可执行文件哈希	对可执行文件部分内容进行哈希	抗混淆能力强	错误率高

名称	实现	优点	不足
N-Gram	在指令序列上产生步长为n的有序的操作码序列	考虑了指令之间的空间、时间顺序	未考虑操作数，指令丢失部分语义
N-Perm	在指令序列上产生步长为n的无序的操作码序列	能够捕获序列中的指令重新排序状况	未考虑操作数，指令丢失部分语义
指令哈希	指令归一化后进行哈希计算	比较速度快	归一化造成指令丢失部分语义
指令对齐	指令归一化后进行最长公共子序列计算	指令序列覆盖率高	Trace的长度影响比较结果，针对基本块较少（少于3个）的函数影响较大

名称	实现	优点	不足
图相似性	图之间是否存在互相包含关系	相似的代码具有较高的图相似度	代价高
路径相似性比较	比较图之间的顶点序列是否相似	路径全覆盖	图的大小影响比较效果
图嵌入	将图用一个向量表示	计算速度快	可解释性不足

二进制代码相似性搜索研究进展

Research progress on binary code similarity search

0 引言

1 二进制代码相似性搜索体系架构

1.1 二进制代码

图1

1.2 二进制代码相似性搜索流程

图2

1.2.1 二进制代码片段提取

1.2.2 二进制代码片段比较

1.2.3 二进制代码资源池

1.3 代码转换与相似性搜索

图3

1.4 讨论与小结

2 基于语法的二进制代码相似性搜索

2.1 基于哈希的搜索技术

2.1.1 局部敏感哈希

2.1.2 模糊哈希

2.1.3 可执行文件哈希

2.1.4 讨论与小结

2.2 基于指令序列的搜索技术

2.2.1 N-Gram

2.2.2 N-Perm

2.2.3 指令哈希

2.2.4 指令对齐

2.2.5 讨论与小结

2.3 基于图结构的搜索技术

2.3.1 图相似性比较

2.3.2 路径相似性比较

2.3.3 图嵌入向量相似性比较

2.3.4 讨论与小结

2.4 小结

3 基于语义的二进制代码相似性搜索

3.1 基于基本块语义的搜索技术

3.1.1 输入输出行为

3.1.2 符号公式

3.1.3 讨论与小结

3.2 基于特征语义的搜索技术

3.2.1 嵌入比较

3.2.2 机器学习比较

3.2.3 讨论与小结

4 基于语用的二进制代码相似性搜索

4.1 调试信息恢复

4.2 函数语义识别

4.3 小结

5 展望与挑战

5.1 可解释性问题

5.2 语义识别问题

5.3 进化性问题

6 结语

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子