Глобальная отраслевая государственная информационная система «ВетИС», внедренная Россельхознадзором, стала предметом изучения ученых из РАН и РАНХиГС. Ее самостоятельный модуль – ФГИС «Меркурий» – самый новый, девятый по счету из входящих в единую информационную систему, став главной интригой года, потребовал больших усилий по внедрению и от презентовавших новую систему, и со стороны тех, кто уже начал оформлять с его помощью электронные ветеринарные сертификаты.
Чтобы понять, насколько эффективно работает ФГИС, было принято решение о привлечении к ее оценке экспертов в области математического анализа. Итогом исследований стало научно обоснованное заключение о работоспособности системы и пользе ее для ветеринарной отрасли.
Главными экспертами выступили специалисты Федерального исследовательского центра «Информатика и управление» РАН – доктор физико-математических наук Олег Сенько и кандидат физико-математических наук Александр Докукин. Они провели статистический анализ динамики продолжительности обработки запросов ФГИС «Меркурий». На плечи их коллег из РАНХиГС – директора кафедры системного анализа и информатики экономического факультета Дмитрия Стефановского и старшего преподавателя этой же кафедры Олега Виниченко – легла практическая часть анализа по сбору данных. Свое коллективное интервью эксперты согласились дать в стенах РАНХиГС. Любезно проведя экскурсию по институту, продемонстрировав материально-технический потенциал одной из ведущих кузниц молодых и перспективных кадров для экономики России, меня пригласили на кафедру системного анализа.
– Сегодня методы машинного математического анализа применяются ко всем областям. Мы проводим исследования с химиками, предсказывая свойства неорганических соединений, с медиками, прогнозируя появление гипертонии, с фольклористами (совместно с известным историком и этнографом Юрием Березкиным), анализируя мифологические традиции, – начал разговор Олег Сенько, строго следуя поставленной задаче – провести со мной «курс молодого бойца» и доступно объяснить то, что на схемах и в сухих математических комментариях итогового заключения выглядит как арабская вязь для неподготовленного читателя. – Они помогают доказать факт какой-либо закономерности. Математика сегодня очень востребована. К нам обращаются люди из самых разных областей, потому что результаты исследований позволяют почерпнуть новое.
Как человек, влюбленный в свое дело, Олег Валентинович рассказал о широких перспективах науки, сообщив, что сейчас происходит революция в прикладной математике, связанная с наличием огромного объема данных, что позволяет оценивать большое количество параметров, выявлять более сложные закономерности, что делает доказательства более убедительными.
В ЧЕМ СУТЬ ИССЛЕДОВАНИЯ?
Как пояснили эксперты, в данном исследовании главным критерием для определения эффективности системы стала оперативность ответа на информационные запросы потребителей.
ОЛЕГ ВИНИЧЕНКО:
– Мы разработали несколько утилит, установили их на ряд компьютеров. Они ежеминутно делали запросы в ФГИС «Меркурий» и получали ответ. Сейчас пользователей системы несколько миллионов, оформлено несколько десятков миллионов сертификатов. Чтобы сравнение в исследовании было корректным, за основу брался стандартный запрос – оформленный ветеринарный сертификат, к которому ежеминутно обращалась система. Так мы собирали статистику. Затем показатели суточной информации работоспособности системы поступали для оценки к Олегу Валентиновичу.
ОЛЕГ СЕНЬКО:
– Мы подошли к анализу сложной информационной системы как к стохастическому, то есть случайному, процессу. Время обработки – это проблемный момент в системе и величина непостоянная, которая меняется в некоторых пределах от запроса к запросу. С этим ничего не сделать. Важно, чтобы она менялась не очень сильно. Если изменения будут большими, то система просто зависнет и станет бесполезной: пользователи не смогут в течение длительного времени получить нужную информацию. В каких случаях это может происходить?
Существует понятие нестационарности, что означает изменение во времени. Его разновидность – детерминированная нестационарность. Это закономерные изменения, когда мы заранее знаем, что в какой-то момент изменится время обработки запроса – оно вырастет или уменьшится. За счет чего это происходит? Потому что люди начинают делать запросы одновременно. Обратно пропорционально количеству запросов снижается время обработки. Такие ситуации очень легко исследовать. И с ними легко бороться. Достаточно просто установить параллельные системы обработки.
Чтобы стало понятнее, мне предложили увидеть этот самый «скачок», или увеличение, прогнозируемых изменений на графике, созданном на основе показателей исследования специалистами РАНХиГС. Чем больше запросов, тем больше времени требуется для их обработки. Спасти ситуацию в данном случае может небольшой апгрейд, увеличивающий мощности системы.
ОЛЕГ ВИНИЧЕНКО:
– Те данные, которые мы получаем, являются следствием живого процесса: идет оформление сертификатов в хозяйствах, на полях, в магазинах. На каком-то промежутке времени количество оформлений увеличивается. Система при нагрузках ведет себя предсказуемо: с ростом количества операций, время отклика незначительно увеличивается.
Однако, как сообщили ученые, есть и другая, стохастическая нестационарность, которая тормозит динамику системы. Как заметил Олег Сенько, ее действие сродни биржевой игре – когда курс начинает расти, люди начинают покупать акции, показатели котировок поднимаются резко вверх, а потом обрушиваются. Такая нестационарность, связанная со случайностью, обозначается в профессиональной среде «броуновским движением». И она непредсказуема.
ОЛЕГ СЕНЬКО:
– Если система наталкивается на что-то непредсказуемое, то на каких-то интервалах времени, в силу самой случайной природы процесса, происходит дисперсия (разброс). При этом резко возрастает время. Это и есть следствие стохастической нестационарности.
Чтобы доказать или опровергнуть ее наличие, прибегают к стандартным, хорошо апробированным статистическим процедурам. В данном случае к тесту Дики – Фуллера. Эта методика разработана еще в 70-е годы прошлого века и используется в прикладной статистике и эконометрике для анализа временных рядов для проверки на стохастическую нестационарность.
ВРЕЗ
Из рисунка видно, что распределение продолжительности запросов является положительно скошенным с резким обрывом слева и несколько более пологим, но также достаточно быстрым, убыванием справа. Несмотря на видимое быстрое убывание, сохраняется заметная вероятность высоких отклонений от средней продолжительности, представленная в таблице.
Превышение среднего на | Число наблюдений | Доля |
3σ
|
517 | 0,16% |
5σ | 231 | 0,07% |
7σ | 156 | 0,05% |
10σ | 97 | 0,03% |
Видно, что вероятность отклонений выше 3σ для распределения продолжительностей запросов заметно превышает вероятность аналогичных отклонений для нормального распределения, для которого вероятность отклонения 3,8σ уже составляет 0,01%. («Статистический анализ эффективности функционированя государственной информационной системы в области ветеринарии ФГИС «ВетИС».)
– Тест Дики – Фуллера показывает, что процесс стационарен и, следовательно, доля запросов с высокой продолжительностью будет сохраняться, но это не страшно, потому что никак не отразится на эффективности системы. При всех сколь-либо вероятных превышениях средней продолжительности система может работать быстро.
Далее, следуя теории деления людей на «физиков» и «лириков», Олег Валентинович пытается приблизить математическую истину к пониманию гуманитария:
– Это как из книги Нассима Талеба «Черный лебедь. Под знаком непредсказуемости» – отклонение от среднего быть большим не может. Большое отклонение от того, что есть, – это и есть «черный лебедь». Так вот в этой системе «черных лебедей» не предвидится!
Используя научный метод, мы доказали, что система «Меркурий» ведет себя предсказуемо. Ее код работает нормально. Никаких больших сложностей ей не грозит. Она оказалось стохастически стационарной, а значит, программисты сделали свою работу хорошо!
ЧЕМ ГРОЗИТ СТОХАСТИЧЕСКАЯ НЕСТАЦИОНАРНОСТЬ?
ОЛЕГ СЕНЬКО:
– В этом случае система непредсказуема, а значит, от нее можно ожидать чего угодно. В какой-то период продолжительность обработки запросов может увеличиться в десятки раз. Система встанет. И чтобы ликвидировать нестационарность второго типа, нужно ее анализировать. Потребуется долгий и сложный анализ кода для выяснения причины отклонений.
«СИРАНО», «ЦЕРБЕР», «МЕРКУРИЙ»… ЧТО ДАЛЬШЕ?
ДМИТРИЙ СТЕФАНОВСКИЙ:
– Россельхознадзор создал колоссальное количество информационных систем, входящих в «ВетИС». По сути, уже подготовлены данные для нового типа «гугла» – отраслевого. Не хватает только географической информационной системы. Но все необходимые данные уже есть. А вот функции поиска и анализа данных пока не разработаны. Решение этой актуальной задачи – в ближайшей перспективе. Специалистам сегодня нужна конкретная информация о том, какого типа почва находится в том или ином регионе, какая среднегодовая температура определяется в тот или иной момент. Система будет отличаться от традиционного «гугла», основанного на библиотечных ресурсах. Это будет библиотека нового типа, нечто похожее на Digital Humanities. При этом произойдет оцифровка не только информационного ресурса, но и создание моделей, с которыми можно работать, например анализировать влияние эпидемий или почвы, погоды и ветра на происходящие процессы. Google этого сделать не позволяет. Новая система позволит получить преимущество – идти быстрее к намеченным целям.
Россия имеет сложную территорию для занятия сельским хозяйством – много географических поясов, зоны рискованного земледелия, животноводство, требующее восстановления, этнические предпочтения в питании. Ни в одной стране такого разнообразия нет, поэтому необходима система. Россельхознадзор на сегодня – единственная структура, которая занимается этим и знает, куда идти дальше. Оцифровали транспортные потоки – создадут модели предприятий. Через компартменты уже начали это делать. Далее – следующие шаги. Все это приведет к созданию очень сложной, но интересной системы.
По мнению эксперта, новый формат взаимодействия, создаваемый специалистами Россельхознадзора, несет мощный потенциал для отраслевого развития. Это отличный управленческий инструмент. И чем быстрее его освоят пользователи, тем раньше получат преимущество, которое особенно актуально в нынешних условиях жесткой экономической конкуренции.
ВОЗМОЖНА ЛИ ИНТЕГРАЦИЯ СИСТЕМЫ «ВетИС» С ДРУГИМИ СТРУКТУРАМИ?
ДМИТРИЙ СТЕФАНОВСКИЙ:
– Возьмите, к примеру, министерство природных ресурсов и экологии, фиксирующее гнездовья птиц, кабанов и прочих животных, которые могут переносить инфекции. Если свести данные этого ведомства с данными Россельхознадзора, то может получиться уникальный источник информации, который позволит прогнозировать, к примеру, наличие на территории запаса белков, жиров и углеводов и хватит ли их для питания определенного количества людей. И если закрыли регион в период возникшей эпизоотии, то можно оперативно принимать решения по предупреждению ее дальнейшего распространения.
Беседовала Елена Чиликина