Библиотека Рефераты Курсовые Дипломы Поиск
Библиотека Рефераты Курсовые Дипломы Поиск
сделать стартовой добавить в избранное
Кефирный гриб на сайте www.za4et.net.ru

Компьютеры, Программирование Компьютеры, Программирование     Программное обеспечение Программное обеспечение

Структурные методы распознавания сложноорганизованных исторических табличных форм

Браслет светоотражающий, самофиксирующийся, желтый.
Изготовлены из влагостойкого и грязестойкого материала, сохраняющего свои свойства в любых погодных условиях. Легкость крепления позволяет
66 руб
Раздел: Прочее
Ручка "Помада".
Шариковая ручка в виде тюбика помады. Расцветка корпуса в ассортименте, без возможности выбора!
25 руб
Раздел: Оригинальные ручки
Мыло металлическое "Ликвидатор".
Мыло для рук «Ликвидатор» уничтожает стойкие и трудно выводимые запахи за счёт особой реакции металла с вызывающими их элементами.
197 руб
Раздел: Ванная

В.М. Кляцкин, Е.В. Щепин, К.М. Зингерман, В.В. Лазарев Аннотация Данная работа посвящена проблематике структурного распознавания сложных табличных форм, встречающихся в исторических источниках. Предложена оригинальная модель "связанных иерархий", в рамках которой может быть распознано и описано обширное семейство табличных форм и бланков. Применение модели "связанных иерархий" в табличном структуризаторе OCR-системы Crip позволило успешно распознавать сложноструктурированные табличные формы из различных исторических источников . Введение Сфера применения систем оптического распознавания непрерывно расширяется не только вширь (по различным областям человеческой деятельности), но и вглубь (по уровню сложности вводимых документов). Уровень сложности зависит от многих факторов и может быть охарактеризован с точки зрения содержания вводимых листов (структура представленной на листе информации, шрифты и другие типографские параметры), качества печати и условий сканирования. Спектр доступных для оптического распознавания структур печатных листов достаточно широк, и тем не менее им не исчерпываются потребности практического использования OCR для распознавания различных исторических источников. В данной работе проведен обзор современных методов структурного распознавания печатной продукции и предпринята попытка расширить диапазон автоматически обрабатываемых OCR- системами структур документов в сторону сложнооорганизованных табличных форм, распространенных в исторических исследованиях. Подлежащие обработке таблицы могут обладать многоуровневой горизонтальной и вертикальной иерархиями, уровни которых могут иметь нерегулярную (не всегда линейно упорядоченную) структуру. Помимо того, структура ячеек таблицы может быть достаточно сложной, несводимой к традиционному описанию текстов "параграф-строка-слово-символ". В ячейках могут встречаться объекты различной структуры, например математические выражения (индексы, дроби, спецсимволы), многоточия, нелинейно-связанные строки. Для анализа подобных структур авторами предложена достаточно универсальная модель "связанных иерархий", позволяющая распознавать, описывать и представлять в текстовой форме широкий класс табличных форм и бланков. Разработанная методология структурного распознавания таблиц основана на модели "связанных иерархий". Программной реализацией этой методологии является табличный структуризатор Crip , входящий в одноименную OCR-систему. Применение табличной версии OCR-системы Crip к анализу табличных форм из различных исторических источников показало конструктивность предложенной модели и ее алгоритмического наполнения. В статье приведены иллюстрации основных этапов структурного распознавания таблиц исторического характера. Обзор методов анализа сложных иерархических форм В последние годы системы оптического распознавания символов (OCR-системы) применяются к распознаванию источников различной природы: рукописных текстов, технических публикаций и музыкальных произведений. Во многих случаях листы документов, предназначенных для автоматического ввода, определенным образом структурированы.

Например, страница книги или научного журнала может быть разбита на колонки, может содержать заголовки, примечания, чертежи и рисунки, страница газет может быть разбита на блоки, содержать оконтуривающие рамки и прочие разделяющие графические элементы. Одним из наиболее типичных примеров структурированного способа представления информации являются таблицы. Для правильной интерпретации структурированных документов необходимо сначала выделить элементы структуры (колонки и блоки в технических публикациях, графы, строки и ячейки в таблицах) и только после этого распознавать отдельные символы этих элементов. Проблемы выделения структурных блоков на изображении листа документа рассмотрены в ряде работ. Так, создана система выделения блоков текста, основанная на синтаксическом анализе "снизу-вверх" и использующая некоторую информацию о структуре документа, предварительно заданную пользователем . Эта система позволяет выделять на листе изотетичные прямоугольные блоки. При разделении текста на блоки авторы этих работ используют тот факт, что текстовые блоки обычно отделены друг от друга белыми промежутками, ширина которых больше межсловного интервала и интервала между строками. Этот же факт используется для выделения текстовых блоков в других работах, но здесь могут иметь более сложную форму. Особенность предложенного в этих работах подхода в том, что он не требует каких-либо предварительных знаний о структуре листа и осуществляет разметку листа, используя только информацию о размерах белых промежутков между габаритными рамками компонент. Метод основан на общем для большинства форматов текстовых документов предположении о том, что текстовые блоки отделяются друг от друга белыми (то есть незаполненными текстом) промежутками. Можно ввести понятие максимальных белых прямоугольников (под которыми понимаются прямоугольники фона, все стороны которых касаются границ рамок компонент текста) и рассматривается алгоритм нахождения всех максимальных белых прямоугольников на растре . Методы, используемые при выделении текстовых блоков, могут быть использованы и для анализа структуры таблиц. Отметим, что во многих случаях (хотя и не всегда) колонки и строки таблиц могут быть разделены линиями разграфки. Используя информацию о расположении этих линий, можно более надежно разделить элементы таблицы, чем используя только информацию о межколонных и межстрочных промежутках в таблице. Однако для этого система анализа структуры листа должна располагать средствами обнаружения линий. Необходимы также средства объединения отрезков линий в прямоугольные рамки, ограничивающие элементы таблиц. Один из алгоритмов быстрого обнаружения горизонталей и вертикалей на изображении и выделения ограниченных ими элементов таблицы представляеьтся весьма эффективным . Приведем краткое описание алгоритма поиска сплошных горизонтальных линий. Растровое бинарное изображение просматривается в направлении сверху вниз и на нем фиксируются последовательности черных пикселов, длина которых превышает заранее заданный порог. Затем связанные (граничащие друг с другом в смысле 8-связности) последовательности объединяются, образуя элементы линий и для каждого такого элемента вычисляется его средняя толщина.

Слишком толстые элементы отбрасываются. В качестве кандидатов в элементы пунктирных линий рассматриваются все компоненты связности, которые не слишком велики и являются достаточно "плотными" ("плотность" компоненты определяется как отношение числа черных пикселов к площади ее рамки). Затем для объединения оставшихся компонент в горизонтальные пунктирные линии выполняется следующая процедура: для каждой пары элементов линии проверяется выполнение двух условий: 1)горизонтальный промежуток между двумя элементами линий меньше заранее заданного порога; 2)эти элементы линий перекрываются по вертикали. Если некоторая пара элементов линии удовлетворяет обоим этим условиям, то эти элементы считаются близкими. В результате выполнения этой процедуры выделяются кластеры линейных фрагментов. Особенность другого алгоритма выделения прямоугольных блоков, ограниченных горизонтальными и вертикальными линиями состоит в том, что сначала посредством скелетизации изображения находятся точки пересечения линий, а затем проверяется наличие самих линий. Средствами выделения текстовых блоков и обработки таблиц располагает также система Exper Visio . Историками-исследователями за последние годы накоплен определенный опыт по автоматизированному вводу документов сложной сруктуруры в компьютер с использованием различных OCR-пакетов. Так, в ряде работ приведены примеры распознавания отсканированных исторических документов, представляющих собой таблицы различной структуры. В статье Г. Торвальдсена рассмотрены четыре примера распознавания документов, имеющих табличную структуру с помощью OCR-системы Om ipage Professio al. На рис. 1a этой статьи приведена копия листа архивной информации, содержащего записи о рождении (отметим, что в таблице отсутствует разграфка), а на рис. 1b - результат распознавания. В работе отмечено, что при обработке документов указанного типа результат может быть интерпретирован в отсутствие информации принадлежности данных к определенной колонке таблицы, поэтому автором не предпринимались какие-либо меры для сохранения этой информации при распознавании. В результате в выходном документе табличная структура данных нарушена. На рис. 2a этой статьи приведено изображение списка эмигрантов. Разделительные линии между колонками и строками в этом исходном документе также отсутствуют. Автор отмечает, что в этом примере формат документа более важен для его понимания, поскольку в одном из столбцов таблицы содержится информация о пункте назначения и стоимости проезда, расположенная в двух смежных строках и относящаяся не к отдельным эмигрантам, а к семьям. Отмечается, что система Om ipage в целом способна правильно распределить информацию по колонкам, вставляя в нужные места строки знаки табуляции, которые могут быть обработаны текстовым процессором. Как видно из рис. 2b, в выходном документе табличная структура входного документа сохранена. На рис. 3a статьи приведено изображение другого списка эмигрантов, а на рис. 3b - результаты распознавания. На исходном изображении колонки разделены вертикальными линиями, что, по мнению автора, создает дополнительные проблемы для OCR, а именно, способствует перепутыванию символов между колонками.

Это значит, что из известной нам основополагающей триады философии Истины, Добра и Красоты здесь в качестве приоритетной ценности выступает взятая сама по себе вне прямой этической или эстетической оценки Истина. Наука определяется (по А. Г. Спиркину, 1998) как исторически сложившаяся форма человеческой деятельности, направленная на познание и преобразование объективной действительности; это такое духовное производство, которое имеет своим результатом целенаправленно отобранные и систематизированные факты, логически выверенные гипотезы, обобщающие теории, фундаментальные и частные законы, а также методы исследования. Наука - это одновременно и система знаний, и их духовное производство, и практическая деятельность на их основе. Возьмем еще одно определение. Наука - это специфическая форма деятельности человека, обеспечивающая получение нового знания (о при 108 родной, социальной и духовной действительности), вырабатывающая средства воспроизводства и развития познавательного процесса, осуществляющая проверку, систематизацию и распространение его результатов

1. Метод лінгвістичної географії. Зіставний метод. Структурний метод у лінгвістичних дослідженнях

2. Методы обучения и их назначение (таблица)

3. Геолого-технологические методы и аппаратура для контроля и управления процессом проводки горизонтальных скважин

4. Метод структурно-логічного кодування

5. Метод анализа иерархий Т. Саати

6. Структурные уровни организации материи. Микро, макро, мега миры
7. Изучение миксомицетов среднего Урала, выращенных методом влажных камер
8. Методы исследования в цитологии

9. Сравнительная таблица митоза и мейоза

10. Методы психогенетики

11. Первичная клеточная оболочка и ее структурные особенности

12. Метод радиоавтографии в биологии

13. Виды стихийных бедствий и методы борьбы с ними

14. Статистика населения. Методы анализа динамики и численности и структуры населения

15. Гамма – каротаж. Физические основы метода

16. Метод Бокового каротажа

Пакеты с вырубной ручкой "Stones & Samson", 50х40 см (50 штук).
Размер: 50х40 см. В упаковке: 50 штук. Материал: полиэтилен (ПВД).
331 руб
Раздел: Узоры
Набор со стикерами и фоном "Транспорт".
Этот красочный набор стикеров включает в себя 5 глянцевых картинок, на которых изображены различные местности, а также более 165 виниловых
479 руб
Раздел: Альбомы, коллекции наклеек
Доска гладильная НВ1 Валенсия. Принт чехла "Доброе утро", 46x123,5 см..
Гладильная доска выполнена из высококачественного металла. Рабочая поверхность оснащена отверстиями для пара и обтянута чехлом из хлопка.
2647 руб
Раздел: Доски гладильные

17. Структурная геология один из вариантов

18. Структурные типы и районирование месторождений нефти и газа

19. Государственное регулирование экономики: формы и методы

20. Сущность, методы и формы государственного регулирования внешнеэкономической деятельности Российской Федерации

21. Нелегальная миграция в России и методы борьбы с ней

22. Предмет и метод гражданского права
23. Законы XII таблиц
24. Предмет, метод и система гражданского процессуального права /Украина/

25. Корпорация BBC. Формы и методы государственного контроля вещания

26. Формы и методы выхода предприятий на внешний рынок

27. Основные виды деликтов в законах XII таблиц

28. Теория государства и права (ТГП) в таблице

29. Финансовый контроль: формы, методы, органы

30. Эффективные методы изучения иностранных языков

31. Специфика преподавания иностранного языка и метод проектов

32. Естественная и гуманитарная культуры. Научный метод

Жидкое средство для стирки детских вещей "Meine Liebe", 800 мл.
Концентрат абсолютно безопасен для здоровья. Не содержит хлора, фосфатов, ароматизаторов, красителей и других химически агрессивных
320 руб
Раздел: Для стирки детских вещей
Датчик утечки газа "Страж".
очевидной пользы, бытовой газ несет страшную опасность: риск отравления или даже взрыва. Датчик утечки газа «Страж» обезопасит Ваш дом от
610 руб
Раздел: Детекторы, датчики движения
Подушка с принтом "FIFA 2018", прямоугольная, синий, 40x29 см.
Подушка с символикой чемпионата мира по футболу 2018 года станет прекрасным дополнением к вашему интерьеру. Изделие выполнено из
403 руб
Раздел: Брелоки, магниты, сувениры

33. Русская здрава (методы оздоровления на Руси)

34. Хронологическая таблица: Афанасий Афанасьевич Фет (1812-1892гг.)

35. Структурные и понятийные аспекты языка

36. Хронологическая таблица жизни И.С. Тургенева

37. Методы исследования литературы

38. Метод комплексного археолого-искусствоведческого анализа могильников
39. Конвертер программы с подмножества языка Си в Паскаль с использованием LL(1) метода синтаксического анализа (выражения)
40. Методы компьютерной обработки статистических данных. Проверка однородности двух выборок

41. Решение транспортной задачи методом потенциалов

42. Решение дифференциальных уравнений 1 порядка методом Эйлера

43. Оценка методов и средств обеспечения безошибочности передачи данных в сетях

44. Структурная схема ЭВМ

45. Метод Дэвидона-Флетчера-Пауэлла

46. Защита информации от несанкционированного доступа методом криптопреобразования /ГОСТ/

47. Обучение начальных курсов методам программирования на языке Turbo Pascal

48. Применение методов линейного программирования в военном деле. Симплекс-метод

Набор карандашей цветных "Сафари", 36 цветов.
Цветные карандаши "Сафари" непременно, понравятся вашему юному художнику. Набор включает в себя 36 ярких насыщенных цветных
317 руб
Раздел: Более 24 цветов
Мягкая игрушка "Груффало".
Ой, мама, это груффало! Оно меня понюфало! Как этот страшный зверь сумел сюда попасть? Какие острые клыки, чудовищная пасть! Ножищи как
865 руб
Раздел: Персонажи мультфильмов, сказок
Шарики, 100 шт.
Диаметр: 8 и 6 см.
787 руб
Раздел: Шары для бассейна

49. Вычисление площади сложной фигуры методом имитационного моделирования (Windows)

50. Математические методы и языки программирования: симплекс метод

51. Лекции по высокоуровневым методам информатики и программированию

52. Метод Симпсона на компьютере

53. Полином Гира (экстраполяция методом Гира)

54. Компьютерные вирусы, типы вирусов, методы борьбы с вирусами
55. Работа с таблицами в Word
56. Компьютерный файлово-загрузочный полиморфный стелс-вирус ONEHALF 3544, особенности алгоритма и методы борьбы с ним

57. Анализ криптостойкости методов защиты информации в операционных системах Microsoft Window 9x

58. Работа с электронными таблицами Excel. Работа с графическим пакетом Corel Draw

59. Использование электронных таблиц в Power Poin

60. Применение метода частотных диаграмм к исследованиям устойчивости систем с логическими алгоритмами управления

61. Лабораторная работа №2 по "Основам теории систем" (Решение задач линейного программирования симплекс-методом. Варианты разрешимости задач линейного программирования)

62. Основные формулы тригонометрии. Таблица частных случаев для тригонометрических функций. Таблица углов sin, cos, tg, ctg

63. Решение задач - методы спуска

64. Решение смешанной задачи для уравнения гиперболического типа методом сеток

Магнитная азбука. Жукова Н.С.
В новом издании знаменитой «Магнитной азбуки» букв стало еще больше. И еще увеличилось количество строк на магнитном мольберте-доске. А
649 руб
Раздел: Буквы на магнитах
Качели.
Летом на даче не обойтись без качелей! Качели можно подвесить с помощью специального каната. Качаться на качалях - полезное для здоровья
346 руб
Раздел: Качели, кресла-качалки, шезлонги
Набор маркеров-текстовыделителей "Boss Original Pastel", 4 цвета.
Набор текстовыделителей — классика в пастельных тонах, ориентированный на течение в индустрии моды. Выполненный в спокойной цветовой
535 руб
Раздел: Текстовыделители

65. Решение систем дифференциальных уравнений методом Рунге-Куты 4 порядка

66. Решение систем линейных алгебраических уравнений методом Гаусса и Зейделя

67. Использование численных методов для решения дифуpов (2-го порядка) (, демонстрация применения интерполяции в среде MATHCAD-а)

68. Вычисление определенного интеграла методами трапеций и средних прямоугольников

69. Решение нелинейного уравнения методом касательных

70. Методы корреляционного и регрессионного анализа в экономических исследованиях
71. Современные криптографические методы
72. Математические методы в организации транспортного процесса

73. Метод последовательных уступок (Теория принятия решений)

74. Построение графика функции различными методами (самостоятельная работа учащихся)

75. Краткая методичка по логике

76. Методы решения систем линейных неравенств

77. Вычисление двойных интегралов методом ячеек

78. Методы обучения математике в 10 -11 класах

79. Решение задач линейной оптимизации симплекс – методом

80. Приближённые методы решения алгебраического уравнения

Коробка подарочная "Большая медведица".
Коробка подарочная. Материал: мелованный, ламинированный, негофрированный картон плотностью 1100 г/м2. Отделка: полноцветный декоративный
302 руб
Раздел: Коробки
Настольная игра "Сумасшедший лабиринт".
Логическая, веселая и азартная игра нацелена на развитие внимания, ловкости и скорости мысли. Игроки в постоянном напряжении, передвигая
1990 руб
Раздел: Игры-ходилки с фишками
Набор детской складной мебели "Первоклашка. Осень".
В комплект входит стол-парта и стул с мягким сиденьем, пенал. Металлический каркас. Столешница облицована пленкой с тематическими
1637 руб
Раздел: Наборы детской мебели

81. Решение дифференциальных уравнений 1 порядка методом Эйлера

82. Методы расчета электрических полей

83. Метод Алексея Юрьевича Виноградова для решения краевых задач

84. Решение задач на построение сечений в многогранниках методом следов

85. Новый метод «дополнительных краевых условий» Алексея Юрьевича Виноградова для краевых задач

86. Электрографический метод - метод регистрации и анализа биоэлектрических процессов человека и животных
87. Механические и хирургические методы контрацепции
88. Карл Леонгард: методы диагностики личности

89. Стафилококки. Выявление резистентности к метициллину и другим b-лактамным антибиотикам методом скрининга

90. МЕТОДЫ НАРОДНОЙ МЕДИЦИНЫ. ЗАКАЛИВАНИЕ ОРГАНИЗМА

91. Основные методы обследования больного

92. Детский травматизм и методы самостоятельной помощи

93. Современные методы электрокардиостимуляции

94. Современные методы лечения псориаза у детей

95. ДЭНС-ТЕРАПИЯ как новый и современный метод лечения в медицине

96. Русская здрава (методы оздоровления на Руси)

Бустер Happy Baby "Booster Rider" (цвет: aqua, 15-36 кг).
Rider — бустер группы II-III (от 15 до 36 кг). Бустер без спинки с мягкими подлокотниками. Форма бустера обеспечивает правильное положение
999 руб
Раздел: Группа 2 (15-25 кг)
Ручки шариковые "Replay. Пиши-стирай", 4 штуки, 1 мм.
Шариковая ручка со стираемыми чернилами. Исправления делаются просто, и поэтому она идеальна для использования в школе. Стирательная
307 руб
Раздел: Цветные
Эжектор концентрат Dr.Klaus от муравьёв других насекомых, 1 л.
Концентрированное средство Dr.Klaus "Insect Super" используется для уничтожения муравьев, клещей, блох, тараканов и других
674 руб
Раздел: От тараканов и прочих насекомых

97. Методичка по экспериментальной хирургии (МБФ РГМУ)

98. Современные методы контрацепции

99. Использование криминалистических средств и методов в установлении лица совершившего преступление


Поиск Рефератов на сайте za4eti.ru Вы студент, и у Вас нет времени на выполнение письменных работ (рефератов, курсовых и дипломов)? Мы сможем Вам в этом помочь. Возможно, Вам подойдет что-то из ПЕРЕЧНЯ ПРЕДМЕТОВ И ДИСЦИПЛИН, ПО КОТОРЫМ ВЫПОЛНЯЮТСЯ РЕФЕРАТЫ, КУРСОВЫЕ И ДИПЛОМНЫЕ РАБОТЫ. 
Вы можете поискать нужную Вам работу в КОЛЛЕКЦИИ ГОТОВЫХ РЕФЕРАТОВ, КУРСОВЫХ И ДИПЛОМНЫХ РАБОТ, выполненных преподавателями московских ВУЗов за период более чем 10-летней работы. Эти работы Вы можете бесплатно СКАЧАТЬ.