Войти в личный кабинет
Корзина

  • Ваша корзина пуста
Войти в личный кабинет
Корзина

  • Ваша корзина пуста

Статья «СРАВНЕНИЕ ОЦИФРОВАННЫХ СТРАНИЦ ДЕЛОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ РАСПОЗНАВАНИЯ, "Сенсорные системы"»

Авторы:
  • Андреева Е. И.1
  • Манжиков Т. В.2
  • Славин О. А.3
стр. 35-41
Платно
1 Федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)", 2 Федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)"; ООО "Смарт Энджинс Сервис", 3 ООО “Смарт Энджинс Сервис”, 117312 Москва, просп. 60-летия Октября, д. 9; Институт системного анализа Федерального исследовательского центра “Информатика иуправление” Российской академии наук, 117312 Москва, просп. 60-летия Октября, д. 9; ООО "Смарт Энджинс Сервис"; Институт системного анализа Федерального исследовательского центра "Информатика и управление" Российской академии наук
Ключевые слова:
  • алгоритмы сравнения оцифрованных копий документов
  • автоматическое распознавание текста
  • расстояние Левенштейна
  • algorithms for comparing digitized copies of documents
  • automatic text recognition
  • Levenshtein distance
Аннотация:
В работе исследуется задача сравнения оцифрованных страниц деловых документов. Такая задача возникает при сравнении двух экземпляров документов, подписанных двумя сторонами с целью найти возможные модификации, внесенные одной стороной. Данная задача является практически значимой в банковской сфере при заключении договоров в бумажной форме. Предложен способ сравнения двух оцифрованных экземпляров на основе алгоритмов распознавания текста, состоящий в сравнении наборов слов, полученных в результате применения такого рода алгоритмов к эталонной и тестовой страницам. Описанные эксперименты были проведены с использованием OCR Tesseract. Достоинствами предложенного способа является универсальность алгоритма сравнения и высокая точность сравнения. В качестве главного недостатка предложенного алгоритма можно отметить - зависимость от гарнитуры и размера шрифта, использованного для печати.
Пожалуйста, авторизуйтесь, чтобы получить бесплатный доступ к статье.