Развитие новых информационных моделей для внутреннего аудита на основе технологии больших данных

1 год назад / Аудит

Автор: Ольга Разина, главный аудитор банка, к.э.н., квалифицированный аудитор, член СРО «Содружество»,
руководитель службы внутреннего аудита, Инвестиционный банк «Веста», член Ассоциации «Институт внутренних аудиторов»

В самом общем смысле термин BIG DATA (большие данные) объединяет информацию из различных источников, включающую цифры, тексты, изображения и звуки, в рамках единого пула. В публикации мы постараемся ответить на вопрос, как большие данные могут быть использованы для создания новых информационных моделей внутреннего аудита, повышающих его добавленную стоимость для основного клиента – руководства и акционеров, а также рассмотреть – с какими проблемами могут столкнуться внутренние аудиторы при обработке крупных массивов данных в условиях временных ограничений, особенно при влиянии внешних и внутренних факторов.

Традиционно, во внутреннем аудите огромное внимание уделяется обработке структурированной информации, которая впоследствии превращается в готовый продукт аудита для использования в целях аналитики. Однако в последнее время во внутреннем аудите все большее внимание уделяется обработке неструктурированной информации, позволяющей сопоставить между собой логически несвязанные предметы и факты, поведенческие характеристики клиентов, объединив их в единый информационный пул.

И прежде чем переходить к практическому направлению использования больших данных во внутреннем аудите, немного остановимся на теоретической части, пояснив основные аспекты.

BIG DATA – это использование передовых аналитических методов в отношении очень больших и разнообразных наборов данных, которые включают в себя различные типы, такие как структурированные / неструктурированные и потоковые / пакетные данные. Большие данные – это термин, применяемый к наборам данных, размер или тип которых недоступен традиционным реляционным базам данных для сбора, управления и обработки данных с низкой задержкой. И он имеет одну или несколько из следующих характеристик: большой объем, высокая скорость или высокое разнообразие. Большие данные поступают от датчиков, устройств, сетей, журнальных файлов, транзакционных приложений, видео/ аудиоустройств, Интернета и социальных сетей – большая часть из них генерируется в реальном времени и в очень больших масштабах.

Анализ больших данных позволяет аудиторам принимать более эффективные и быстрые решения с использованием ранее недоступных или непригодных данных. Используя современные аналитические методы, такие как текстовая аналитика, машинное обучение, интеллектуальная аналитика, интеллектуальный анализ данных, статистика и обработка естественного языка, аудиторы могут анализировать ранее неиспользованные источники данных независимо друг от друга или вместе с их существующими корпоративными данными, чтобы получить новые идеи, продукты и подходы, значительно снижающие текущие трудозатраты.

Сегодня в мировой практике, большие данные (BIG DATA) уже не являются сторонним компонентом внутреннего аудита, а создают его встроенный процесс, определяя совместную модель развития банковских и финансовых технологий между несвязанными между собой факторами для предоставления расширенных возможностей по подготовке к проверке.

Во внутреннем аудите более массовое распространение приобретает развитие новых технологий и способов, направленных на анализ больших данных с использованием внешних социальных сетей и внутренних информационных каналов. Социальные сети представляют собой ценнейший набор характеристик клиентов, определяющих их экономический профиль для компании или работодателя. Использование социальных сетей во внутреннем аудите будет обосновано и в целях выявления случаев корпоративного мошенничества.

По данным международного исследования PwC1, в России лишь в 60% корпоративных случаев мошенничества мошенников могут уволить, в 23% – возбудить гражданское дело по возмещению ущерба, и только в 15% случаев компании обращаются в правоохранительные органы. Тогда как в мировой практике уровень обращений к правоохранительным органам составляет более 40%. Исследование PwC позволило также выявить рост числа сообщений от российских организаций, ставших жертвами мошенничества и иных экономических преступлений, – с 48% в 2016 году до 66% в 2018 году. Общемировой показатель респондентов, которые сталкиваются с экономическими преступлениями, составляет 49%, и это на 13% больше, чем было в 2016 году. Наиболее существенная доля экономических преступлений приходится на незаконное присвоение активов. Российская специфика проявляется в том, что на втором месте находятся коррупционные правонарушения и киберпреступность. Несмотря на то, что и в России, и за рубежом большую часть экономических преступлений совершают руководители среднего звена, доля вовлечения менеджмента высшего звена в совершение преступлений за период 2016-2018 гг. выросла с 15% до 39%. Именно вовлечение руководителей высшего звена в незаконную деятельность можно отнести к факторам, затрудняющим противодействие преступлениям и требующим активного подхода к управлению рисками внутри компаний, особенно в условиях развития интернет-технологий. 

Интернет-технологии сегодня все активнее используются внутренними аудиторами в целях выявления нарушений и корпоративных преступлений.

В конце 1990-х гг. на фоне активного развития интернет-технологий впервые была сформулирована концепция всеобщего планирования ресурсов, определяющая дальнейшие перспективы развития финансового посредничества во всем мире в условиях свободной конкуренции.

Парадигма конкуренции в кредитно-финансовом секторе обосновывает необходимость использования различных ресурсов для противостояния противоправным действиям на финансовом рынке. Ключевые положения концепции всеобщего планирования ресурсов связаны с необходимостью постоянного взаимодействия человеческих, финансовых и материальных ресурсов, образующих основное конкурентное преимущество компании на рынке, однако их влияние не будет оказывать ключевого воздействия при отсутствии информационных ресурсов, определяющих связи организации во внутренней и внешней среде.

В середине 90-х концепция использования ресурсов кредитно-финансового сектора претерпела существенные изменения, что большинство экспертов и аналитиков связывают с внедрением нового стандарта2, описывающего общие процессы и подходы в практике финансовых и нефинансовых компаний. Теоретические положения, обосновывающие научную значимость данного стандарта позволили связать воедино бизнес-процессы и бизнес-цели компании в рамках существующих ресурсов (рис.1).

Рис. 1 Концепция стандарта на основе взаимосвязи бизнесе-процессов и бизнес-целей компаний в рамках существующих ресурсов

Концептуально новым элементом данного стандарта стали информационные данные, определяющие необходимость использования больших данных и их последующую обработку на цикличной основе. Позднее упомянутая концепция стандарта на основе взаимосвязи бизнесе-процессов и бизнес-целей компаний кредитно-финансового сектора в рамках существующих ресурсов была преобразована в отдельную методологию CRISP-DM3, в основе которой заложено пошаговое руководство по достижению бизнес-целей компании. При реализации любого проекта методология предусматривает последовательную реализацию пяти основных шагов:

  1. Анализ бизнеса компании;

  2. Анализ данных;

  3. Подготовка данных;

  4. Моделирование процесса;

  5. Оценка его результата и практическое внедрение.

Важнейшая особенность данной методологии состоит в изучении бизнеса компании или клиента на предмет соответствия бизнес-целям, что позволяет воспринимать любой проект в качестве «песочницы» для внедрения эксперимента. Не менее существенной особенностью является детальное документирование каждого шага, что позволяет в дальнейшем принять более правильное решение.

В таблице 1 обобщены основные характеристики данной методологии в целях ее использования для внутреннего аудита и раскрыты основные мероприятия, реализуемые аудитором в рамкам подготовки к моделированию информационных данных.

Для проведения анализа бизнеса компании внутренний аудит используется следующие действия: определяет бизнес-цели, проводит оценку текущей ситуации, определяет цели для подготовки аналитики и наконец, осуществляет подготовку плана проекта.

Анализ информационных данных в целях внутреннего аудита охватывает сбор, описание и изучение информационных данных, а также их качество.

В целях подготовки информационных данных проводится их выборка, очистка, сортировка, генерация и интеграция, по итогам чего, осуществляется их форматирование.

Непосредственно моделирование информационных данных происходит на основе выборки алгоритмов, подготовки плана тестирования и обучения моделей, с учетом чего, проводится оценка качества модели. Таблица 1

Компоненты методологии CRISP-DM для целей внутреннего аудита

Бизнес-анализ деятельности компании на рынке

Анализ информационных данных

Подготовка информационных данных

Моделирование информационных данных

Определение бизнес-целей

Сбор информационных данных

Выборка информационных данных

Выборка алгоритмов для моделирования

Оценка текущей ситуации

Описание информационных данных

Очистка/сортировка информационных данных

Подготовка плана тестирования

Определение целей аналитики

Изучение информационных данных

Генерация информационных данных

Обучение моделей

Подготовка плана проекта

Проверка качества информационных данных

Интеграция информационных данных

Оценка качества моделей

__________


____________


Форматирование информационных данных

_____________


Однако использование методологии не может стать основой для автоматизации задач внутреннего аудита, она лишь позволяет оценить качество проекта, связанного с развитием новых информационных моделей.

В этой связи считаем, что определяющим этапом по построению информационной модели для внутреннего аудита является формирование обучающей выборки на основе уже имеющихся факторов или схем.

Основной целью обучающей выборки является возможность построения информационной модели для выявления отклонений, мошеннических действий или нетипичных операций в деятельности организации. Модель должна уметь распознавать такие операции на основе уже имеющихся больших данных, среди которых будут присутствовать, как типичные, так и нетипичные операции. Процесс обучения модели будет включать в себя следующие основные этапы.

1. Определение организационной структуры и цели создания комплексной информационной модели.

Основной проблемой, с которой сталкиваются внутренние аудиторы при автоматизации процедур аудита, является необходимость подготовки обоснования для руководства, включающего формализацию сроков реализации проекта аудита с учетом возможности выявления финансовых рисков, объема и источников информационных данных, а также определения заинтересованных сторон, обладающих наиболее существенной информацией.

Иными словами, аудиторы должны создать не только agile-команду для реализации конкретного проекта, но и обосновать примерные сроки его окупаемости с учетом потенциальных выгод от практического внедрения.

2. Определение круга задач, решаемых в рамках аналитики больших данных.

Цель данного этапа – создание комплексной системы структурированных и неструктурированных данных, определяющих неочевидные и очевидные закономерности в бизнес-процессах. Внутреннему аудитору необходимо учитывать, что работа информационной модели объединяет не только отдельные бизнес-процессы, но и позволяет решать специализированные задачи с учетом потребностей конкретного клиента.

Например, жизненный цикл проекта интеллектуального анализа информационных данных в целях аудита может состоять из отдельных этапов (фаз), допуская переход на предыдущий этап для уточнения исходных данных, что придает ему характер «спирали». В тоже время, начало второго этапа обуславливает необходимость первоначального сбора информационных данных с целью изучения и идентификации проблем, лежащих в основе первоначальных наблюдений. В рамках этого этапа осуществляются: первичный сбор информационных данных; их описание и изучение, а также проверка качества исходной информации.

Для цели внутреннего аудита необходимо учитывать, что большие данные собраны, как правило, в едином хранилище, но имеют особенную структуру и свойства, поэтому для их использования необходимо поставить не только первоначальную задачу, но и сформировать перечень потенциальных вопросов, на основе которых будут строиться проверочные мероприятия. Таким образом, проверка качества информационных данных будет включать в себя оценку их достоверности в рамках подготовки к следующему этапу.

3. Формирование единого хранилища для анализа информационных данных.

Анализ больших информационных данных предполагает определение их сильных и слабых сторон с целью формализации источников, обоснования и возможности для дальнейшего использования во внутреннем аудите. Иными словами, аудитору необходимо убедиться в достаточности информационных источников и определить место единого хранилища больших данных.

4. Подготовка информационных данных в целях внутреннего аудита может включать в себя этап подготовки обучающей выборки для дальнейшего использования и моделирования.

Например, на данном этапе может определяться потенциальная релевантность к решаемым задачам, а также может быть сформирован список конкретных кейсов и исходных атрибутов. Именно этот этап позволяет провести первоначальную интеграцию данных из корпоративного хранилища в заранее подготовленную витрину информационных данных. Иными словами, происходит горизонтальное и вертикальное объединение информационных данных в единую аналитическую таблицу для создания обучающей выборки.

5. Моделирование информационных данных на основе сравнения гиперпараметров для получения лучшей комбинации данных с учетом заданной аналитики.

Что такое моделирование информационных данных, и для чего оно необходимо внутреннему аудитору? Именно на этом этапе возникает максимальное количество вопросов у внутренних аудиторов, поскольку их (данных) последующая интеграция определяет не только сложности в дальнейшем форматировании, но и достаточность используемых информационных источников. Данный процесс может занять достаточно продолжительное время, однако именно процесс моделирования и «примерка» будущей информационной модели позволяют убедиться в нужных объемах используемой информации и при необходимости увеличить или уменьшить их.

6. Тестирование и обучение модели (т.е. выбор наиболее удачных параметров в результате тестирования данных), оценка полученных результатов.

С одной стороны, данный этап характеризует завершение проекта с учетом определения возможностей для дальнейшего моделирования, однако с другой – определяет основные проблемы, возникающие ввиду сложности построения любого алгоритма, состоящего не только в объеме полученных данных, но и последующей совместимости различной информации с учетом круга решаемых задач. Кроме того, данный этап определяет возможность дальнейшей валидации данных и переобучения модели в целях определения наиболее надежного информационного канала.

С нашей точки зрения, отдельного внимания заслуживает процесс обучения модели с целью поиска наиболее эффективного алгоритма и выявления возможных закономерностей. Например, если предсказание вероятности совершения «аналогичных» по параметрам операций оказались неверны, это может отразиться на качестве исходной модели, нуждающейся в дальнейшем переобучении.

В обучающей выборке могут быть дополнительно заложены примеры, ошибочно классифицируемые алгоритмом на предварительных этапах апробации, что позволяет присваивать рейтинг не только каждому клиенту, но и каждой совершенной им транзакции в целях упорядочивания операций по степени потенциального риска.

7. Оценка полученного результата моделирования с целью возможности практического применения.

Для чего внутреннему аудитору необходим этот этап? Как правило, именно на этом этапе выявляются основные проблемы и недостатки, не фиксируемые на промежуточных этапах, поскольку происходит технический анализ качества модели, оценка заданных критериев качества, достижения бизнес-целей и пр. Например, в рамках заранее заданной модели может быть спрогнозирован массовый отток клиентов равный 95%, тогда как на практике он не превышает 10-15%. В этом случае модель признается нерезультативной, и принимается решение о ее повторной доработке.

8. Практическое внедрение и настройка мониторинга модели может предполагать как запуск пилотного проекта в рамках утверждения его технического плана, так и его тиражирование для создания новых проектов на основе больших данных. Однако окончательный этап завершается отчетом о моделировании и может включать в себя дальнейшие рекомендации по развитию и доработки модели.

Например, если в процессе проведения пробного тестирования в зону высокого риска попали операции, не обладающие признаками рисковых операций, это может определить необходимость введения дополнительных критериев не только для клиентов, но и для сотрудников, совершающих такие операции. В число дополнительных критериев также могут быть внесены такие характеристики, как изменение бизнес-плана и продуктовой линейки, изменение в мотивации сотрудников и пр.

В заключительной части публикации постараемся структурировать и обобщить основные проблемы, с которыми может столкнуться внутренний аудитор при создании информационной модели на основе больших данных.

Во-первых, это преобразование неструктурированных данных в структурированные данные. Данная проблема характерна для большинства информационных моделей, включающих в себя большое количество признаков, характеристик, паттернов, не поддающихся количественной оценке. Иными словами, некоторые характеристики клиента не могут быть преобразованы в числовые переменные. Поэтому при возникновении сложных ситуаций целесообразно расширять потенциальные характеристики или паттерны поведения клиентов для цели последующего преобразования информации.

Во-вторых, еще одной проблемой выступает нецелесообразность автоматизации отдельных критериев по причине высокой вероятности возникновения ошибок или получения некорректных данных, что повышает трудозатраты для его обработки с помощью средств машинного обучения. Постоянное обогащение модели новыми характеристиками позволит снизить количество ошибок и уменьшить объем предварительной выгрузки операций.

В-третьих, существенной проблемой выступает качество анализа дополнительной информации конкретным специалистом или экспертом в результате проводимого отбора или анализа. Даже совершенная автоматизация не создает новых подходов для мониторинга или анализа, поэтому с целью снижения подобных проблем и рисков необходимо настроить процесс «обучения» модели для выборки на опыте каждого эксперта, с тем, чтобы в процессе мониторинга не возникало спорных ситуаций. Иными словами, процесс обучения модели должен быть апробирован всеми сотрудниками, реализующими функции апробации информационной модели.

В-четвертых, наряду с уже указанными проблемами, еще одной проблемой выступает определение размера выгрузки больших данных с учетом ограниченного набора информационных источников. С моей точки зрения, разумное ограничение количества информационных данных будет способствовать снижению рисков и повышению качества полученной классификации признаков и характеристик клиентов, а также повышению качества конечного алгоритма работы модели с целью более точного подтверждения необходимых характеристик или признаков операций.

В-пятых, создаваемая внутренними аудиторами информационная модель может попросту не сработать по причине недостаточности ретроданных. Для того, чтобы обучить модель, необходим достаточный объем «плохих» и «хороших» примеров по уже проведенным операциям, что предполагает формирование качественной ретроспективной информационной базы.

Таким образом параметры практической реализации информационной модели в целях внутреннего аудита должны учитывать особенности и ограничения, связанные с практической реализацией проекта в части:

  • сбора информационных данных и методик в целях осуществления регулярного мониторинга;

  • выгрузки характеристик клиентов и паттернов для обучающего и тестового набора используемых примеров;

  • организации дополнительного «обучения» алгоритма классификации признаков, лежащих в основе поведения клиентов для цели использования тестового набора признаков;

  • организации дополнительной проверки классификаций и характеристик отдельных информационных источников;

  • возможности масштабирования модели на отдельные направления деятельности в целях использования унифицированных информационных данных;

  • обеспечения необходимого объема ретроданных для обучения модели на основе «плохих» и «хороших» операций.

С моей точки зрения, даже самая совершенная информационная модель для внутреннего использования не может быть абсолютно эффективна для всех анализируемых операций или сделок, что определяет учет специфики деятельности организации в рамках обоснованных трудозатрат на ее практическую реализацию.

В тоже время, реализация информационной модели для предсказания рисковых событий, мошенничества, нетипичного поведения клиентов, нестандартных операций или платежей может быть использована не только в целях внутреннего аудита, но и для разработки скорингового продукта, совершенствования СRM-модели, адаптированной под потребности конкретного клиента или группы клиентов, а также для снижения трудозатрат при подготовке аналитической информации для менеджмента. Развитие больших данных сегодня связано также с необходимостью превращения знаний в интегрированные информационные модели в целях совершенствования и создания новых конкурентоспособных продуктов и услуг для компаний. В эпоху развития цифровых технологий многие компании, особенно в высокотехнологичном секторе экономики, сосредоточены на преобразовании человеческого и интеллектуального капитала в структурный капитал, однако основная задача больших данных заключается в возможности интеграции знаний в информационное поле для повышения эффективности и скорости их передачи конечному пользователю.


1 Прим. автора. Исследование PWC опубликованное в докладе об экономических преступлениях в РФ [http://rapsinews.ru/incident_news/20180516/282711572.html]

2 Прим. автора. CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных проектах независимо от конкретной задачи и индустрии.

3 Прим. автора. Методология разработана в 1996 году по инициативе трех компаний (нынешние DaimlerChrysler, SPSS и Teradata) и далее дорабатывалась при участии 200 компаний различных индустрий, имеющих опыт data-mining проектов.

Назад

Материалы по теме

Другие материалы рубрики

3 года назад / Аудит

Аудиторы и ЦБ: мнение о предложенных изменениях закона "Об аудиторской деятельности"

3 года назад / Оценка

Потенциальный экономический эффект трудовой жизни человека (подход к теме и попытка её раскрытия)

3 года назад / Оценка

Народнохозяйственный потенциал трудящегося человека

Есть бизнес – задача? Доверьте ее решение нам!

Оставить заявку на бесплатную консультацию.

Заполните указанные ниже поля или позвоните по бесплатному номеру 8 (800) 200 - 33 - 08, чтобы один из наших специалистов мог связаться с Вами и ответить на все вопросы, связанные с оценкой бизнеса или другими нашими услугами. Это абсолютно бесплатно.

Отправляя заполненную форму, я даю своё согласие на обработку моих персональных данных в соответствии с законом № 152-ФЗ «О персональных данных» от 27.07.2016.