20 августа 2014

Ищем информацию!

Для начала я поиграю в капитана-очевидность, и скажу, что работа с архивными документами неизбежно связана с поиском, будь то исполнение запросов социально-правового характера, оказание платных информационных услуг или самостоятельная работа пользователей.

Традиционно, я бы даже сказал «издревле», задача поиска практически во всех отраслях человеческой деятельности решалась систематизацией объектов и созданием научно-справочного аппарата к ним — всевозможных каталогов, картотек и прочих аналоговых средств, упрощающих нахождение требуемой единицы хранения. В своё время они обеспечили действительный скачок в эффективности поиска. Однако экспрессивный рост объёмов информации и её документированной формы в XX веке привели к усложнению поисковых механизмов. Они становились всё более «объёмными» — документы обрастали не одним, а несколькими наборами реквизитов, причём зачастую не взаимосвязанными, расширялось использование цветовой кодировки и т.д.

На фоне этого огромную роль приобрела компетенция сотрудника, на плечи которого ложилась ответственность не только за факт нахождения требуемой информации, но и за выбор средства и пути максимально быстрого поиска.

Фактически архивы как держатели наиболее больших документных массивов столкнулись с задачей, аналогичной сегодняшним проблемам, объединяемым термином «BigData».

С развитием компьютерной эры на выручку архивам пришли информационные технологии. Создание электронного НСА, каким бы сложным и тернистым процессом оно не было, привело к значительному упрощению навигации по фондам. Если у вас оцифрованы описи, современные программные продукты позволяют найти искомый номер, ключевое слово или словосочетание одновременно во всём массиве электронных заголовков, литер и названий фондов, описей, дел. А при необходимости и опуститься на уровень документа.

Во-первых, простота навигации не упростила поиск конкретного документа в деле, даже если оно полностью отсканировано и доступно для просмотра непосредственно из информационной системы. Какая разница — листать и просматривать глазами 250 бумажных листов или столько же электронных образов?! Во-вторых, никогда не стоит забывать про внешних пользователей — граж­дан, у которых есть потребность в самосто­ятельном поиске, и для многих из которых работа с фондовым каталогом не привычна и не знакома.

Сегодня я расскажу о нескольких реализованных подходах по расширению возможностей поиска, но уже не архивных документов, а именно информации, в них содержащейся.

Подтвердите, пожалуйста

Первая тема, которой хотелось бы коснуться, — это запросы социально-правового характера. Если говорить про подтверждение стажа и льгот, то здесь ситуация более-менее в порядке. Точнее, здесь часть функций поиска ложится на плечи самого заинтересованного гражданина — чем точнее он опишет начальные параметры поиска (ФИО, диапазон дат, наименование работодателя и т.д.), тем выше шанс получить желаемый результат. С этим связана и первая возможная проб­лема: когда гражданин не может достаточно точно указать эти самые начальные парамет­ры, вероятность нахождения информации снижается. Но благодаря электронному НСА трудозатраты архивного работника в этом случае возрастают незначительно.

Гораздо серьезней другая проблема, проявившаяся в ряде субъектов РФ с активной сферой земельно-имущественных отношений. Помимо кадровой документации, существует другой огромный пласт — правоустанавливающие документы.

В чём особенность этих документов? В том, что в отличие от кадровой документации, которая в основном необходима Пенсионному Фонду и социальным службам, правоустанавливающие документы требуются в процессе и для оказания огромного количества государственных и муниципальных услуг, связанных с улучшением жилищных условий граждан, развитием коммунальной инфраструктуры, эффективным распоряжением государственным имуществом и т.д. То есть процессов, обеспечивающих динамику развития территорий и наполненность бюджета.

Так вышло, что во многих из этих услуг получение копии документа из архива занимает до 86% общего времени, что, согласитесь, не может не вызывать недовольства руководителя, ответственного за сферу госуслуг в регионе или муниципалитете. Тем более, если процесс оказания этих услуг отлажен, переведён в электронную форму и может проводиться в кратчайшие сроки.

Чтобы решить эту проблему, в ряде администраций пошли на интересный шаг. Было решено при оцифровке востребованного массива документов выделить средства на небольшое дополнительное индексирование — извлечение всех встречающихся данных о персоналиях. Отмечу, что в случае машинного текста распознавание может быть автоматическим, то есть быстрым и недорогим.

В качестве примера приведу опыт Главархива города Москвы, для которого эта задача является перманентно острой в силу ряда объек­тивных обстоятельств. Но стоит отметить, что подобный подход был использован, например, при оцифровке муниципального архива города Сочи, где скорость исполнения имущественных услуг оказалась с 2008 года критически важным параметром.

Итак, суть подхода проста. Скажем, И.И. Петров просит подтвердить его права на гараж по такому-то адресу. Сколько займёт поиск архивного документа в этом случае? Будет ли он однозначно успешен? Будут ли обеспечены социальные гарантии гражданина? Согласитесь, исход не однозначен. Но даже в случае положительного ответа поиск потребует значительных усилий и времени.

А теперь представьте, что вы просто указываете ФИО, нажимаете кнопку «искать», и тут же видите постановление тогда ещё поселкового совета о выделении участка в пойме под строительство гаражного кооператива, с перечислением его членов. Красота!

Конечно, я утрирую. В реальности вы, скорее всего, увидите список из нескольких документов с указанием их фондовой принадлежности, по которой уже можно уточнить запрос. Но поиск уже окажется в разы проще: по нажатию открывается не дело, а непосредственно лист документа, содержащий искомую информацию. Про то, что не надо идти в архивохранилища и перемещать тяжелые архивные короба, я и не говорю.

Подытожим: создание электронного фонда пользования ­— дело благое и нужное по ряду причин. Но при формировании электронного НСА вспомните про возможности, которые открывает маленькая дополнительная услуга — извлечение данных персоналий. Она требуется лишь для некоторых социально значимых фондов, зато эффект от неё увидят руководители всех учреждений и организаций, запрашивающих данную архивную информацию в рамках госуслуг или основной деятельности. Да и обосновать её финансирование перед начальством не составит труда, т.к. экономический расчёт провести довольно легко.

Доверьтесь «умному поиску»

Как я уже говорил, вторая проблема становится очевидной, если обратиться к задаче популяризации архивных документов и рассмотреть доступ к архивной информации глазами пользователя.

Предложение рождает спрос. Простое предоставление уникальной исторически значимой документации в открытом доступе уже повысит посещаемость сайта учреждения и количество тематических запросов. Однако пользователю важен не только сам факт доступа, но и его удобство, заключающееся в первую очередь в наличии сервисов, упрощающих и повышающих качество исследований.

И здесь, благодаря объединению двух технологий, открылись широкие возможности для архивных фондов, состоящих из печатных документов. Не рукописных, а именно печатных! Дело в том, что из этих документов можно быстро извлечь всю напечатанную информацию с помощью программных средств. Достаточно отсканировать документ с разрешением от 200 точек на дюйм и использовать одну из программ OCR-распознавания.

Но ведь процент брака велик, скажете вы. Я согласен, даже в случае идеально напечатанного текста производители програм­много обеспечения гарантируют не более 98% точности. Но я недаром сказал о симбиозе технологий, потому что вторым элементом данного подхода является система корпоративного поиска. Современные поисковые машины позволяют нивелировать большинство ошибок распознавания.

К примеру, представьте, что вы ищете упоминание в документах города N, и в его названии допущена ошибка. Ручаюсь, что нужный документ вы не пропустите: практика показала, что географические наименования, имена собственные и специфичные определения редко упоминаются единожды. Кроме того, вы всегда можете воспользоваться нечётким поиском — указать фрагмент искомого слова в окружении символа «*». Или использовать другие поисковые средства, аналогично тому, как вы ищете информацию в Интернете.

Это лишь малая часть, базовые функции любой поисковой машины. Её возможности легче всего показать на примере реализации, что я и предлагаю сделать.

В 2013 году начался крайне интересный проект в Российском государственном военном архиве (РГВА). Создание информационно-поисковой системы «Трофейный фонд» было инициировано извне — самими пользователями с российской и немецкой стороны, заинтересованными в изучении документов Второй мировой войны.

После сканирования и распознавания, документы были «скормлены» поисковой системе для автоматического анализа. Обладая собственными встроенными аналитическими средствами, система смогла самостоятельно определить наличие в тексте географических названий и имен, а также сформировать терминологические справочники как на русском, так и на немецком языках. Причем алгоритм анализа включал автоматическое определение слов, распознанных с ошибками, и замену их верным написанием.

Таким образом, пользователь может искать архивные документы «Трофейного фонда» не только классическими средствами. В его распоряжении картографическая основа, к которой привязаны документы, шкалы времени и другие средства ранжирования и уточнения информации. Процесс поиска информации стал удобным и наглядным, что открыло новые возможности для исследовательской работы.

Если не требуется ручная верификация данных при оцифровке фондов, полнотекстовое распознавание не будет стоить дорого. Зато, реализовав впоследствии любую поисковую систему, вы сможете значительно расширить круг своих пользователей, обеспечив им качественный и удобный доступ к документам.

Найти предка

Другим востребованным направлением является генеалогия. И, так как генеалогия предусматривает оказание платных услуг, развитие электронных ресурсов здесь — это шаг к финансовому благополучию самих архивных учреждений.

Но в случае генеалогии, — метрических книг, ревизских сказок, исповедальных ведомостей и пр., — мы имеем дело с рукописными документами. Поэтому говорить о преимуществах авто­матического распознавания здесь неуместно. Пользователи, которые проводят генеалогические исследования, ищут конкретные персоналии. Но распознавание рукописей — сложный и долгий процесс. Извлечение фамилий и имен из них требует больших трудозатрат.

Однако решение этой задачи тоже можно оптимизировать. Очень интересный социальный проект был осуществлён в Пермском крае. Там задача индексирования была решена путём временного трудо­устройства местных жителей, которым для работы требовалось только установить специальное приложение на домашние компьютеры. Таким образом, большинство затраченных на проект средств осталось в регионе. Результатом проекта стал Портал, на котором пользователи могут не только искать информацию и изучать древние генеалогические документы, но и общаться, составлять родословные и пользоваться ещё множеством социальных сервисов.