![]() |
|
сделать стартовой | добавить в избранное |
![]() |
Анализ машиночитаемых документов компьютерными средствами |
Е.В. Злобин, И.В. Попенков Расширение компьютерного инструментария историков - задача не только важная, но и достаточно сложная в силу своей специфичности, трудности наработки программного обеспечения для "чистого" обществоведа. Система KLEIO, программы проф. Яна Олдерволла представляются скорее исключением, подтверждающим общее правило. Предлагаемая работа претендует на попытку разработки собственного программного обеспечения, в чем-то дополняющего имеющиеся пакеты математической статистики, в то же время, ввиду специфики своей разработки, ориентированного на ввод и анализ качественных признаков, измеренных в шкале наименований, которая в абсолютном большинстве случаев используется историками. Другим побудительным мотивом для данного исследования явился кризис исторической информатики, о котором пишет П. Доорн в своих известных тезисах. Он в какой-то степени должен стимулировать интерес к методической стороне процесса, а именно, к методам исследования полученных в ходе грандиозных "набивок" баз данных. Нами описывается одна из систем для анализа больших массивов структурированных данных смешанной - числовой и нечисловой - природы. Весьма часто при изучении исторических явлений или процессов приходится иметь дело с задачами классификации объектов по одному количественному признаку - числовому - (измеренному в шкале отношений), который является выходным, и по нескольким признакам, измеренным в шкале наименований (входным). Задача классификации - минимизировать дисперсию выходного признака по каждому входному. Решается она в ряд этапов. На первом этапе первоначальная матрица данных разбивается на группы. При этом по выходному признаку и одному из входных выбирается такое разбиение, при котором сумма внутригрупповых дисперсий минимальна. Объекты могут попадать в разные группы с одним и тем же значением входного признака. Затем идет анализ распределения внутри каждой из групп. Тем самым число входных признаков уменьшается на единицу. Процесс этот идет до тех пор, пока изменение суммы внутри группового признака становится минимальным (менее заданного порога). В результате получаются однородные по всей совокупности входных признаков и по их отношению к выходному признаку группы. Типично исследовательской задачей такого рода является изучение влияния возраста на формирование тех или иных групповых качественных характеристик исторических личностей. Подобного рода анализ проводился одним из авторов при выявлении внутренней структуры высшего выборного органа КПСС - ее Центрального Комитета и Политбюро последнего, "предсмертного" состава. Уже тогда было ясно, что реальный математический и программный аппарат для такого рода задач не наработан. Особенно ценным представляется использование данного подхода при анализе просопографических баз данных, которые зачастую с трудом поддаются формализации и количественной оценке, но в которых возрастная графа наличествует обязательно. Помимо чисто возрастной графы в просопографических базах присутствуют различные поля типа даты (времени) получения различных должностей (образования, наград и пр.)
, которые позволяют вычислить срок пребывания в той или иной категории. Данные количественные показатели уже позволяют применить описанные выше подходы. Предлагаемый подход к классификации обьектов, описанных качественными признаками, может быть полезен и потому, что наиболее часто применяемые методы кластерного анализа, в общем случае, пригодны только для шкал отношений. Для других шкал возможно использование т.н. информационного подхода, но это не всегда является удобным, и приводит, по видимому, к некоторому огрублению полученнного результата, позволяющая в масштабе реального времени решать задачи классификации для 5 и более (опробована модель на 15) тыс. обьектов. Программа реализована на 32-битном FOR RA e, в соответствии со стандартом FOR RA 90 . При использовании ее процессор переводится в защищенный режим работы, тем самым позволяя использовать реально всю физическую память, установленную на машине. Имеется возможность компиляции программы специально для использования под Wi dows в расширенном режиме, которая снимает все ограничения на объемы используемых массивов. Состав системы приведен в приложении 1. Входными для программы являются файлы типа ASCII, которые реализуются исходя из имеющихся баз данных, и один рассчитываемый файл прямого доступа, а также задаваемый исследователем критерий изменения дисперсии в группе (от 0,01 до 0,5). Выходным - обычный текстовый файл с подробный распечаткой результатов расчета. Структурная схема работы программы представлена на Рис. 1. Она тривиальна и подчеркивает особенность системы - ввод наименований нечисловых признаков (т.н. словарей значений). Рис. 1 Подсистема ведения архива также решает стандартные для любой СУБД задачи. Особенностью ее является наличие дружественного интерфейса и ориентированность на подготовку данных для собственно расчетных задач (см. Рис. 2). Рис. 2. Специально выделенная подсистема работы со словарями также выполняет тривиальные задачи СУБД с одним ограничением - ориентированностью на ввод наименований признаков, ограниченных одной строкой не более 40 символов. Данное ограничение вызвано реальными размерами экрана машины и большим расходом оперативной памяти на массив наименований значений. Функции ее раскрыты на Рис. 3. Рис. 3 Подсистема классификации проводит классификацию на основе информации, содержащейся в записях и словарях базы данных. Классификация состоит в разбиении заданного множества записей на непересекающиеся по входным признакам классы так, чтобы суммарная по всем классам дисперсия выходного признака была минимальна. Выходной и входные признаки, характеризующие объекты исследования, берутся из записей базы (общие для всей совокупности ), причем выходной признак обязательно числовой (например, возраст, объем доходов, численность работающих, населения и т.п.), а входные признаки могут быть и качественными, но задаются символьными кодами (до 15 символов). Диалог пользователя с системой строится с вводом следующей информации: - название базы данных; - определение совокупности записей из архива для проведения классификации; - выходной (числовой ) признак, по которому проводится классификация; - набор входных признаков, с помощью которых описываются группы; - параметр разбиения, определяющий число групп.
Эксплуатация данного программного продукта максимально проста. При работе с программой для выбора в системе меню используются клавиши дополнительной клавиатуры, а для подтверждения выбора клавиша . Для выхода и продолжения действия в большинстве пунктов используется клавиша . Перечень используемых клавиш постоянно приводится в нижней строчке экрана. Описываемая программа предъявляет жесткие требования к "железу" компьютера и предназначена для использования на IBM-совместимых ПЭВМ, имеющих процессор с разрядностью не ниже 32 (то есть, 386 и выше) и требует для работы не менее 4 мБ общей ОЗУ и не менее 600 кБ в нижней памяти (co ve io al). Данное ограничение на память введено ввиду огромной размерности просчитываемых массивов (в данной версии число объектов 5000). Для получения максимально возможного обьема памяти рекомендуется использовать операционную систему версии 6.2 и выше. Для освобождения "нижней" памяти необходимо драйверы устройств загружать в "верхнюю" память и в блоки UMB, туда же помещать и операционную систему. Точно также требуется и максимально возможное количество резидентных программ грузить "наверх". Все это достигается использованием драйверов HIMEM.SYS и EMM386.EXE, команд DEVICEHIGH и LH, реализуемых стандартным образом. Драйвер EMM386 запускается с ключом OEMS. В случае выдачи сообщения о нехватке памяти при запуске базы возможны следующие пути преодоления этой проблемы: - включение ключа OVCPI в командную строку драйвера EMM386; - включение строки SE CLIPPER=E в файл AU OEXEC.BA . В приложении 2 предлагаются варианты конфигурации операционной системы, применительно к высказанным рекомендациям на компьютера с ОЗУ 4 мБ, включенной звуковой картой, CD-диском и прозрачным архиватором винчестера S ACKER. В случае потребности в другой конфигурации ОС на ПЭВМ, имеет смысл реализовать данные файлы с меню выбора при загрузке. Опишем кратко расчетные программы. Программа VVPR формирует вектор-запись в файл прямого доступа OBPR. Содержательно эта запись представляет собой значения очередного признака для всех выбранных объектов. Обращение к программе VVPR происходит в цикле (по числу признаков) из базовой программы при обработке выбранных признаков Вход: имя файла размер содержимое PARAM. X 1 запись-4 поля ob - число выбранных объектов i1 - номер текущего признака opr - название выходного признака eps - точность PROB. X 1 запись - ob полей значения текущего признака для всех выбранных объектов Выход: Файл прямого доступа OBPR (матрица объект-признак) строка - признак, столбец - объект, размерность - число выбранных объектов, умноженное на число выбранных признаков, первая строка - значения выходного признака для всех объектов, остальные строки - значения соответствующих входных признаков для всех выбранных объектов (в ходе дальнейшей работы стирается). Программа VVPR за один проход формирует одну запись типа строка - признак и готовит данные для работы программы RASH - собственно расчетную программу. У этой программы: Вход: Файлы OBPR, PARAM. X , APR, AZPR. Файлы APR и AZPR формируются в программе базы на основе информации, содержащейся в словарях.
Оно считает проявление скорби болезненным, в то время как для психологов болезненным является именно вынужденный отказ от траура, имеющий опасные последствия для человеческой психики. Насколько сильно чувство, изгоняющее смерть, показывает такой факт: все идеи психологов и психоаналитиков, касающиеся сексуальности или развития ребенка, получили широкое распространение и были в вульгаризированной форме заимствованы общественным сознанием; напротив, их взгляды на смерть и траур были полностью проигнорированы и не нашли ни в обществе, ни в средствах массовой информации никакого сочувственного отклика. Общество оказалось готово воспринять одни идеи, другие же отвергло. Критика психологами отношения общества к проявлениям скорби не смогла ни на секунду поколебать массовое сознание в его отталкивании всего, что связано со смертью. Сами того не желая, психологи сделали свой анализ траура документом истории, свидетельством того, как исторически относительны все научные истины. Специалисты исходят из того, что смерть дорогого существа наносит глубокую рану, которая, однако, исцеляется естественным образом, если не затягивать ее исцеление
1. Технико-экономический анализ. Анализ наличия и состояния средств труда долговременного пользования
2. Компьютерные средства обучения
4. Учет и анализ операций с денежными средствами в кассах и на счетах в банках
5. Анализ эффективности использования основных средств на ЗАО "Вольво-Восток"
9. Анализ и управление денежными средствами
11. Анализ эффективности использования основных средств на примере ООО "Производственная фирма "Прайд"
12. Анализ товарооборота и основных средств торгового предприятия
13. Анализ формы и средств выразительности хора № 19 "Гроза" из оратории Йозефа Гайдна "Времена года"
14. Техническое обслуживание средств вычислительной техники и компьютерных систем
15. Средства визуализации изображений в компьютерной томографии и цифровых рентгенографических системах
16. Анализ собственных оборотных средств в новых экономических условиях
19. Технико-экономический анализ. Анализ использования средств труда длительного пользования
20. АХД. Анализ использования основных средств (задачи)
21. Преступления в сфере компьютерной информации : криминологический анализ личности преступника
26. Анализ состояния и эффективности использования основных средств на примере ООО шахта Добропольская
27. Этимологический Анализ Слов как Средство Развития Орфографической Грамотности
28. Стилеобразующие средства на уровне слова в документах XVII века (на примере жанра "Память")
29. Бухгалтерский учет, аудит и экономический анализ движения денежных средств на предприятии АПК
30. Учет и анализ средств на оплату
31. Поддельный документ как предмет и средство совершения преступления
32. Анализ основных средств предприятия
33. Анализ состояния собственных и привлеченных средств банка
35. Учет денежных средств и денежных документов
36. Учет и анализ движения денежных средств
37. Учет и анализ движения денежных средств в организациях (на материалах ООО "Таир-Дон")
41. Учет основных средств и анализ эффективности их использования
42. Анализ использования денежных средств
43. Аудит и анализ нематериальных активов и основных средств предприятия ОАО "АвтоВАЗагрегат"
44. Документ как предмет и средство совершения преступлений
48. Компьютерные вирусы. Методы и средства защиты
49. Построение компьютерного стола средствами AutoCad 2007
50. Анализ системы компьютерного оборудования
51. Анализ процессов в электрических цепях с ключевыми элементами на основе компьютерных технологий
52. Товароведческий анализ лекарственных средств. Нестероидные противовоспалительные препараты
53. Анализ организации контроля исполнения документов
57. Фармакоэкономический анализ рынка лекарственных средств для социально незащищённых групп населения
58. Анализ использования бюджетных средств в муниципальном учреждении
60. Анализ и оценка состояния основных средств ОАО "АСТЗ"
61. Анализ использования ооборотных средств предприятия
62. Анализ использования основных средств ОАО "Нечкинское"
63. Анализ обеспеченности денежными средствами ЗАО "Пинскдрев"
64. Анализ оборачиваемости оборотных средств предприятия
66. Анализ основных средств предприятия ООО "Империя Мебели"
69. Анализ себестоимости продукции. Эффективность использования основных средств
73. How "DNA" testing works Анализ "ДНК" как проверяющие работы)
74. Анализ повадок отряда ДЯТЛООБРАЗНЫЕ - Piciformes семейства ДЯТЛОВЫЕ – Picidae
75. Социально-политический анализ Военной доктрины Российской Федерации
76. Классификация коллективных средств защиты и правила поведения людей в убежищах
77. Характеристика современных средств поражения и последствия их применения
81. Статистический анализ демографической ситуации в Российской Федерации
82. Обзор средств для автоматизации геодезических вычислений
83. Анализ бюджетного дефицита за 1990-1996 годы
84. Анализ регулирования и финансирования бюджетного дефицита с 1985 и по наши дни
85. Нормативное регулирование перемещения через таможенную границу транспортных средств
89. Экологические и компьютерные преступления
90. Международные документы о правах женщин
91. Либерализм и марксизм: сравнительный анализ
92. Личные (гражданские) (права и свободы в конституциях США и Испании /сравнительный анализ/)
93. Сравнительный анализ Конституции Литовской и Латвийской Республик
94. Анализ мотивации и оплаты труда на предприятии
95. Анализ пенсионногозаконодательства Украины и других стран
97. Местное самоуправление в Украине (историко-правовой анализ)
98. Системы органов государственной власти субъектов РФ и штатов Индии (сравнительный анализ)
99. Способы формирования муниципальной собственности: правовое регулирование и сравнительный анализ