По следам форума «Банковская автоматизация» мы обсуждаем тему обработки документов в POS-кредитовании с Юрием Спельником, директором по работе с корпоративными заказчиками корпорации «ЭЛАР»
— Живой интерес в банковской среде вызвал ваш недавний доклад об опыте построения системы в одном из банков — лидеров данного сегмента. Скажите, насколько эта тематика актуальна на фоне мобильности, биометрии, блокчейна и других передовых финтех-направлений?
— В борьбе за клиентов банку важно устранить все слабые места. В POS-точках таким «местом» является скорость одобрения кредита — чем быстрее проведен скоринг, тем выше вероятность получить клиента. А для этого надо максимально автоматизировать обработкупоступающих документов, точнее скан-образов. Фактически, борьба идет за минуты и секунды. Например, в упомянутом вами проекте показатели обработки следующие: 15 документов в секунду, 10 тыс. документов в час, причем на самом обычном сервере.
— Зачем так много? Амбиции мирового лидерства по кредитам?
— Все гораздо прозаичней. POS-кредитование имеет сезонный характер, с ярко выраженными предпраздничными пиками, и от системы требуется справляться с потоком заявок из тысяч точек именно в эти экстремальные периоды.
— Я правильно понимаю, что речь идет об OCR-распознавании документов? Или постановка задачи иная?
— Основная проблема состоит в том, что документы обычно поступают в плохом качестве — «размытые» изображения, отсканированные ксерокопии с «полосами», фотографии паспортов с низким разрешением. Применение распознавания очень ограничено, поэтому OCR — лишь часть комплекса. Основу системы составляют специальные обучаемые алгоритмы.
Во-первых, среди документов надо найти паспорт физлица, извлечь серию и номер для проверки по базам. Казалось бы, тривиальная задача, которая, однако, потребовала применения сложных алгоритмов. Вначале пришлось «научить» программу безошибочно находить скан-образы, на которых есть изображение паспорта, независимо от поворота, засветов и других искажений файла. А уже после извлекать данные.
Всех деталей раскрывать не буду, простите, это интеллектуальная собственность. Скажу лишь, что система работает с изображениями с очень низким разрешением 90 точек на дюйм.
— После этого остается обработать оставшийся пакет документов?
— Этот этап даже важнее. Нам необходимо найти основную заявку, проверить наличие необходимых подписей и комплектность приложений, а затем отправить комплект по нужному процессу скоринга.
Оказалось, что большинство МФУ в точках сканируют не идеально, и на документах присутствуют «шумы» в виде черных вертикальных полос. Потребовалась серьезная математика, чтобы в таких случаях научиться нивелировать шумы и однозначно определять вид документа, места подписей и их наличие/отсутствие. Для этого пришлось серьезно переработать и сами шаблоны банковских документов.
— Имеете в виду консалтинг? Насколько банк был готов к изменениям, и не пришлось ли столкнуться с сопротивлением сотрудников?
— Мы вместе работали ради достижения заранее определенной цели и, как исполнитель, благодарны заказчику за то, что он адекватно воспринимал наш опыт в управлении документами. Даже просто передвинув на несколько сантиметров поля для подписей и дополнив их маленькими черными квадратами — метками для алгоритмов, мы смогли на 15% повысить точность обработки и в итоге довести качество распознавания до уровня не менее 95%. А банк со своей стороны запретил POS-точкам этот шаблон изменять… да, такое бывало!
— И в заключении — про технические аспекты. Насколько система требовательна к вычислительным ресурсам?
— Уход от классического для OCR метода шаблонов позволил значительно снизить требования к вычислительным мощностям. Кроме того, мы априори понимали, что необходимо простое «сезонное» масштабирование в обе стороны и катастрофоустойчивость. Поэтому была выбрана микросервисная архитектура. Обработка документов распределяется между доступными ядрами процессоров, ресурсы каждого ядра используются по максимуму. Того же показателя в 10 000 документов в час удалось достигнуть на 32 ядрах. При недостатке мощности или любой проблеме с действующими ресурсами, автоматически выделяются резервные. Все это настраивается.
— Юрий, благодарю за то, что уделили время, и желаю и дальше реализовывать смелые проекты!
— Спасибо, такими проектами заниматься интересно! Фактически, мы сегодня говорили про ИИ (искусственный интеллект — прим. редакции), который приходит во все сферы жизни, в том числе в обработку документов и данных.