Skip to main content

Table 3 Distribution of n-gram sizes, chosen by each feature selection method, for the two n-grams sets that consist of varying n-grams sizes.

From: Detecting unknown malicious code by applying classification techniques on OpCode patterns

  

Top 1800 over all n-grams

Top 300 for each n-gram size

Feature selection

Top features

1

2

3

4

5

6

1

2

3

4

5

6

DF

50

0.3

0.42

0.24

0.04

0

0

1

0

0

0

0

0

DF

100

0.17

0.39

0.28

0.13

0.03

0

1

0

0

0

0

0

DF

200

0.11

0.27

0.36

0.21

0.06

0.01

1

0

0

0

0

0

DF

300

0.08

0.25

0.34

0.23

0.09

0.01

1

0

0

0

0

0

FS

50

0.06

0.18

0.38

0.16

0.1

0.12

0.54

0.08

0.16

0.1

0.06

0.06

FS

100

0.03

0.17

0.36

0.26

0.12

0.06

0.43

0.12

0.19

0.1

0.11

0.05

FS

200

0.02

0.13

0.33

0.27

0.18

0.08

0.35

0.14

0.2

0.14

0.12

0.08

FS

300

0.02

0.1

0.3

0.3

0.21

0.08

0.3

0.15

0.2

0.15

0.11

0.08

GR

50

0

0.16

0.36

0.22

0.22

0.04

0.06

0.2

0.36

0.14

0.1

0.14

GR

100

0

0.12

0.33

0.29

0.17

0.09

0.03

0.19

0.36

0.23

0.11

0.08

GR

200

0.01

0.13

0.31

0.32

0.16

0.09

0.04

0.15

0.31

0.22

0.17

0.12

GR

300

0.01

0.17

0.3

0.28

0.15

0.08

0.04

0.14

0.28

0.24

0.18

0.13