Атрибуция  /  Определение информативных параметров


Применяемая в данной работе процедура атрибуции, как и любая классификационно-типологическая процедура, невозможна без осуществления важнейшего этапа исследования, предшествующего использованию алгоритма распознавания, – выбора параметрического пространства и снижения его размерности. Параметрическое пространство составили 54 параметра из априорного словаря параметров, и следующий этап исследования заключается в отборе из полученного априорного словаря небольшого числа информативных параметров.

Для определения информативного набора параметров был проведен эксперимент по описанию априорных классов на языке параметров из априорного словаря параметров, для чего были сделаны прикидочные случайные выборки объемом в 200 предложений для каждого априорного класса. Статистические данные для априорных классов и атрибутируемых объектов приведены в табл. 6.1 - 6.3.3).

Таблица 6.1

Статистические характеристики распределений параметров

для класса Gary

Параметр

Xср.i

σ

Параметр

Xcp.i

σ

1

2

3

4

5

6

X01

4,450

6,362

X28

1,405

1,349

X02

1,945

1,241

X29

0,390

0,735

X03

0,430

0,545

X30

1,970

1,268

X04

0,515

1,094

X31

1,375

1,096

X05

0,025

0,234

X32

0,300

0,593

X06

0,615

0,917

X33

0,965

2,137

X07

0,500

0,744

X34

0,350

0,906

X08

0,120

0,383

X35

0,040

0,221

X09

0,010

0,100

X36

0,065

0,402

X10

0,010

0,141

X37

0,385

2,294

X11

1,365

1,099

X38

0,080

0,338

X12

0,010

0,100

X39

0,405

1,998

X13

0,060

0,295

X40

1,725

2,199

X14

0,085

0,489

X41

0,170

0,471

X15

12,950

10,911

X42

0,975

1,458

X16

5,715

5,913

X43

0,765

1,276

X17

4,330

4,444

X44

0,315

0,615

X18

1,955

2,337

X45

1,125

2,568

X19

2,465

2,037

X46

0,005

0,071

X20

2,040

1,333

X47

0,030

0,424

X21

1,000

1,338

X48

0,020

0,140

X22

0,845

1,144

X49

0,100

0,709

X23

2,935

3,177

X50

2,235

2,466

X24

0,855

1,274

X51

2,080

2,369

X25

0,335

0,704

X52

8,365

10,165

X26

0,545

0,907

X53

6,005

7,181

X27

0,245

0,563

X54

2,490

3,543

Таблица 6.2

Статистические характеристики распределений параметров

для класса Pavlowitch

Параметр

Xcp.i

σ

Параметр

Xcp.i

σ

1

2

3

4

5

6

X01

5,675

7,303

X28

0,990

1,190

X02

1,675

1,337

X29

0,240

0,533

X03

0,280

0,472

X30

1,525

1,098

X04

0,505

0,987

X31

0,730

0,996

X05

0,070

0,309

X32

0,305

0,659

X06

0,335

0,660

X33

0,625

1,282

X07

0,300

0,591

X34

0,235

0,763

X08

0,030

0,171

X35

0,070

0,355

X09

0,000

0,000

X36

0,035

0,210

X10

0,000

0,000

X37

0,190

1,145

X11

0,820

1,018

X38

0,075

0,282

X12

0,040

0,197

X39

0,495

1,977

X13

0,020

0,140

X40

1,510

2,190

X14

0,020

0,140

X41

0,175

0,419

X15

9,710

7,375

X42

0,865

1,235

X16

3,910

3,726

X43

0,660

1,039

X17

3,880

3,323

X44

0,690

1,068

X18

1,830

2,339

X45

2,680

5,032

X19

1,230

1,459

X46

0,030

0,222

X20

1,500

1,147

X47

0,120

0,916

X21

0,480

0,736

X48

0,020

0,173

X22

0,690

0,900

X49

0,065

0,585

X23

1,780

2,094

X50

2,150

2,093

X24

0,550

0,825

X51

1,725

1,854

X25

0,150

0,367

X52

6,875

8,947

X26

0,410

0,688

X53

5,000

6,411

X27

0,280

0,731

X54

1,895

2,788

Таблица 6.3.1

Статистические характеристики распределений параметров

для атрибутируемого объекта А1

Параметр

Xcp.i

σ

Параметр

Xcp.i

σ

1

2

3

4

5

6

X01

3,245

5,581

X28

1,604

1,261

X02

2,642

1,991

X29

0,566

0,721

X03

0,509

0,608

X30

2,547

1,845

X04

0,755

1,142

X31

2,094

1,471

X05

0,000

0,000

X32

0,566

0,747

X06

1,057

1,598

X33

1,377

1,799

X07

0,642

0,943

X34

0,150

0,533

X08

0,226

0,577

X35

0,113

0,375

X09

0,094

0,354

X36

0,057

0,233

X10

0,057

0,233

X37

0,226

0,954

X11

2,038

1,454

X38

0,019

0,137

X12

0,000

0,000

X39

0,151

1,099

X13

0,094

0,354

X40

1,642

2,193

X14

0,076

0,267

X41

0,113

0,320

X15

14,377

10,529

X42

0,868

1,241

X16

5,717

5,168

X43

0,491

0,912

X17

3,660

3,442

X44

0,283

0,632

X18

2,000

2,481

X45

0,887

2,063

X19

3,321

2,702

X46

0,000

0,000

X20

2,585

1,791

X47

0,000

0,000

X21

0,962

0,808

X48

0,000

0,000

X22

1,302

1,353

X49

0,000

0,000

X23

2,472

2,454

X50

1,830

1,827

X24

1,415

1,447

X51

1,811

1,991

X25

0,566

0,844

X52

7,189

8,380

X26

0,849

0,886

X53

5,170

6,182

X27

0,547

0,798

X54

2,057

2,515

Таблица 6.3.2

Статистические характеристики распределений параметров

для атрибутируемого объекта А2

Параметр

Xcp.i

σ

Параметр

Xcp.i

σ

1

2

3

4

5

6

X01

0,578

2,245

X28

2,031

1,368

X02

3,359

1,567

X29

0,531

0,776

X03

0,922

0,625

X30

3,328

1,533

X04

1,438

1,308

X31

2,828

1,714

X05

0,016

0,125

X32

0,313

0,639

X06

1,516

1,247

X33

0,818

1,825

X07

1,109

0,779

X34

0,188

0,588

X08

0,297

0,525

X35

0,063

0,351

X09

0,063

0,244

X36

0,063

0,244

X10

0,032

0,250

X37

0,263

1,087

X11

2,594

1,761

X38

0,031

0,175

X12

0,031

0,175

X39

0,078

0,447

X13

0,172

0,456

X40

0,984

1,339

X14

0,141

0,350

X41

0,047

0,213

X15

16,531

8,837

X42

0,936

1,511

X16

6,766

5,206

X43

0,313

0,614

X17

3,734

2,967

X44

0,156

0,366

X18

1,500

1,670

X45

0,422

1,138

X19

4,594

2,718

X46

0,000

0,000

X20

3,313

1,689

X47

0,000

0,000

X21

1,516

1,553

X48

0,016

0,125

X22

1,484

1,436

X49

0,047

0,375

X23

2,453

2,462

X50

2,125

1,915

X24

2,078

1,515

X51

1,500

1,501

X25

0,984

1,031

X52

5,875

7,278

X26

1,063

1,067

X53

4,140

5,061

X27

0,594

0,811

X54

1,734

2,674

Таблица 6.3.3

Статистические характеристики распределений параметров

для атрибутируемого объекта А3

 

Параметр

Xcp.i

σ

Параметр

Xcp.i

σ

1

2

3

4

5

6

X01

3,735

7,479

X28

1,578

1,170

X02

2,398

1,431

X29

0,699

1,176

X03

0,542

0,570

X30

2,325

1,458

X04

0,892

1,210

X31

2,084

1,416

X05

0,012

0,110

X32

0,325

0,543

X06

0,880

1,162

X33

0,843

1,526

X07

0,615

0,713

X34

0,205

0,639

X08

0,169

0,437

X35

0,048

0,216

X09

0,060

0,361

X36

0,024

0,154

X10

0,024

0,154

X37

0,060

0,394

X11

2,145

1,466

X38

0,036

0,188

X12

0,012

0,110

X39

0,133

0,694

X13

0,024

0,154

X40

1,084

1,232

X14

0,024

0,154

X41

0,108

0,313

X15

13,723

7,882

X42

0,843

1,392

X16

5,398

4,442

X43

0,350

0,652

X17

3,374

2,607

X44

0,289

0,507

X18

1,277

1,252

X45

0,988

2,092

X19

3,289

2,371

X46

0,000

0,000

X20

2,470

1,451

X47

0,000

0,000

X21

1,566

1,571

X48

0,012

0,110

X22

1,675

4,814

X49

0,061

0,549

X23

2,181

2,061

X50

1,904

1,764

X24

1,289

1,566

X51

1,434

1,290

X25

0,506

0,955

X52

6,000

6,143

X26

0,771

0,902

X53

4,181

4,362

X27

0,337

0,753

X54

1,747

2,089

Результаты эксперимента были представлены в виде объектно-признаковых матриц данных размерностью nxN=200x54, где n – число параметров, а N – объем выборки. Общее число элементов матриц данных составило по 10 800. Ввиду большого объема выборки было использовано обратное построение матриц данных, при котором набор значений параметров представляется соответствующей строкой матрицы, а значения всех параметров на объектах (предложениях) – соответствующим столбцом. Затем были вычислены статистические характеристики анализируемых объектов: среднее арифметическое ( x ) и стандартное отклонение ( σ ) для каждого класса.

При формировании набора информативных параметров была применена схема Бонгарда, предусматривающая двухступенчатое свертывание параметрического пространства [Бонгард, 1967].

На первом этапе происходит разбиение априорного набора информативных параметров на два подмножества параметров, релевантных и не релевантных для различения априорных классов. Для этого была произведена автоматическая классификация параметров в одномерном пространстве. Релевантность параметров для различения априорных классов определяется по t-критерию Стьюдента, пороговое значение которого при уровне значимости α=0,05 равно 1,96 [Герасимович, Матвеева, 1978, с. 71]. Процесс классификации заключается в сравнении значений критерия с пороговым значением (табл. 7). Если наблюдаемое значение критерия больше порогового, то параметр относится к числу релевантных для различения априорных классов, в противном случае он исключается из дальнейшего рассмотрения.

Таблица 7

Проверка статистической гипотезы существенности разности двух средних

Параметр

Gary / Pavlowitch)

Параметр

Gary / Pavlowitch

 

t

 

t

1

2

3

4

X01

1,789

X28

3,262

X02

2,093

X29

2,336

X03

2,944

X30

3,753

X04

0,096

X31

6,160

X05

1,642

X32

0,080

X06

3,506

X33

1,930

X07

3,052

X34

1,372

X08

3,038

X35

1,016

X09

1,418

X36

0,936

X10

1,000

X37

1,076

X11

5,193

X38

0,161

X12

1,926

X39

0,453

X13

1,733

X40

0,980

X14

1,807

X41

0,112

X15

1,485

X42

0,814

X16

1,662

X43

0,902

X17

1,160

X44

1,306

X18

0,535

X45

1,893

X19

6,971

X46

1,517

X20

4,382

X47

1,260

X21

4,816

X48

0,000

X22

1,555

X49

0,539

X23

4,292

X50

0,372

X24

2,842

X51

1,669

X25

3,386

X52

1,556

X26

1,740

X53

1,477

X27

0,537

X54

1,867

Из табл. 7 видно, что статистически значимой является разность средних для параметров Х02, Х03, Х06, Х07, Х08, Х11, Х19, Х20, Х21, Х23, Х24, Х25, Х28, Х29, Х30, Х31 (наблюдаемые значения t-критерия больше критического). Все остальные параметры оказываются нерелевантными для различения априорных классов.

В дальнейшем подмножество диагностических параметров будет формироваться на основе группы из 16 параметров, релевантных для разделения априорных классов.

Второй этап схемы Бонгарда предусматривает процедуру свертывания параметрического пространства на подмножестве информативных параметров.

Процедура свертывания параметрического пространства происходит путем обработки матрицы связей параметров, для построения которой из двух объектно-признаковых матриц данных была составлена связная объектно-признаковая матрица, вектор-строки которой соответствуют параметрам, а вектор-столбцы – предложениям. Полученная матрица данных имеет размерность Nxn, где N=400, а n=54.

На основе объектно-признаковой матрицы была сформирована корреляционная матрица связей параметров, элементами которой являются выборочные коэффициенты корреляции.

Содержательный критерий информативности набора параметров заключается в слабой корреляции информативных параметров между собой и сильной их корреляции с остальными параметрами, не вошедшими в эту группу.

На основе корреляционной матрицы были определены средняя внутригрупповая корреляция [A] и средняя внегрупповая корреляция [B] каждого параметра. Затем были вычислены критерии эффективности каждого параметра [C].

Таблица 8

Критерий эффективности

Параметр

A

B

C

Х02

0,264

0,645

0,410

Х03

0,204

0,578

0,352

Х06

0,264

0,676

0,391

Х07

0,240

0,609

0,394

Х08

0,179

0,441

0,404

Х11

0,203

0,637

0,318

Х19

0,222

0,648

0,343

Х20

0,290

0,694

0,417

Х21

0,202

0,441

0,457

Х23

0,389

0,410

0,951

Х24

0,302

0,594

0,509

Х25

0,192

0,533

0,360

Х28

0,276

0,496

0,557

Х29

0,150

0,321

0,467

Х30

0,277

0,686

0,403

Х31

0,216

0,656

0,329

Из табл. 8 видно, что подмножество из шестнадцати параметров разбивается, в свою очередь, на подмножество из трех параметров (Х23, Х24, Х28), значения для эффективности которых лежат в интервале [0,509 – 0,951], и на подмножество из тринадцати параметров, значения для эффективности которых лежат в интервале [0,318 – 0,467].

Т.о., из подмножества шестнадцати параметров удалось выделить подмножество из трех параметров, удовлетворяющих сформулированным ранее требованиям сильной корреляции с другими параметрами совокупности и способности к разделению объектов на классы.

В дальнейшем в эксперименте по классификации текстов каждый априорный класс и роман будут характеризоваться набором из трех диагностических (информативных) параметров (табл. 9), а классификация объектов будет производиться в 3-мерном пространстве, осями которого являются данные параметры.

 

Таблица 9

Информативные параметры

Код параметра

Наименование параметра

X23

Число предлогов

X24

Число союзов

X28

Число прямых дополнений

<<Читать далее про определение координат распознаваемых объектов и эталонов априорных классов

Полезные ссылки:
Авторы исследований
проф. Марусенко М.А.
Родионова Е.С.
Синелёва А.В.
Слаутина М.Ю.
Хозяинов С. А.
Чепига В.П.
Шувалова Е.Е.
Петрова A.Д.
Фотогалерея
Санкт-Петербургский государственный университет
©2009-2011 Все права защищены и принадлежат авторам сайта corneille-moliere.com
Использование любых материалов, опубликованных на данном сайте, возможно только при письменном разрешении авторов.
©2009 - 2011 Generatum Ltd.