Президентская программа
исследовательских проектов

Горячо, тепло, холодно… Как выудить из моря информации самое ценное

Источник: GarryKillian/Shutterstock.com

Проблему Больших данных относят к одному из глобальных вызовов, стоящих перед человечеством. Несмотря на то что сам термин Big Data возник относительно недавно, около пятнадцати лет назад, а стремительный рост популярности и начало бурного развития технологий относятся к 2011 году, ученые столкнулись с гигантскими объемами информации гораздо раньше. В 1970-1980-х годах физики стали регистрировать сотни миллиардов событий на ускорителях частиц. Данные нужно было собирать, хранить, сортировать, анализировать… С пуском Большого адронного коллайдера в ЦЕРН эти задачи еще более усложнились, поскольку информация, поступающая с БАК, превысила сотни терабайт в сутки. С появлением новых технологий работы с данными, понятие Big Data шагнуло далеко за пределы физики высоких энергий. Астрофизика, генетика, материаловедение, гуманитарные и социальные науки сегодня сталкиваются с необходимостью сбора и анализа нарастающего вала информации.

Пять лет назад в РЭУ им. Г.В.Плеханова была открыта лаборатория облачных технологий и аналитики Больших данных. Возглавил ее доктор технических наук, директор лаборатории информационных технологий Объединенного института ядерных исследований Владимир КОРЕНЬКОВ. Первый вопрос, который невозможно не задать Владимиру Васильевичу, как он, авторитетнейший специалист в области компьютинга в физике высоких энергий, многолетний участник научной программы ЦЕРН, почти 30 лет возглавляющий компьютерную инфраструктуру в ОИЯИ, оказался в числе профессоров экономического университета? Оказалось, почти случайно.

– Несколько лет назад после моего доклада на одном из мероприятий, посвященных развитию цифровизации в России, научный руководитель РЭУ Сергей Валентей посетовал, что в экономике вся цифровизация «на нуле». Его заинтересовали технологии сбора и анализа Больших данных, которые мы используем в физике, а также возможность подготовки специалистов по этому направлению в РЭУ. Вскоре мне предложили открыть в этом вузе лабораторию для решения соответствующих задач. Я долго сомневался, но через некоторое время среди моих коллег из Дубны подобралась команда ученых, которые интересовались методами аналитики Больших данных не только для задач фундаментальной науки, но и приложений в социально-экономической сфере. После этого я дал согласие, поделился В.Кореньков.


Фото: Владимир Кореньков. Источник: Виталий Белоусов/РИА Новости

За пять лет лабораторией получен целый ряд значимых результатов, реализовано несколько крупных проектов, в том числе пилотный проект «Автоматизированная информационная система мониторинга и анализа кадровых потребностей по номенклатуре специальностей высшего учебного заведения», выполненный по заказу РЭУ. По заказу Министерства труда и социальной защиты РФ выполнен проект по исследованию состояния рынка труда РФ. Во взаимодействии с Федеральной службой финансового мониторинга разработана система выявления сбора средств на финансирование экстремизма на основе мониторинга социальных сетей. С целью выявления цепочки контрагентов и конечных бенефициаров разработан прототип системы для автоматизированного анализа деятельности компаний-нерезидентов РФ. Для нужд научных исследований и организации образовательного процесса в РЭУ созданы облачная инфраструктура и инфраструктура для суперкомпьютерных вычислений, разработаны новые учебные курсы по распределенным вычислениям и аналитике Больших данных, проведен целый ряд школ для студентов, аспирантов и молодых ученых.

А недавно Российским научным фондом был поддержан проект лаборатории В.Коренькова «Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса «мегасайенс» на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения», который будет реализовываться в течение четырех лет в рамках мероприятия «Проведение исследований научными лабораториями мирового уровня в рамках реализации приоритетов научно-технологического развития Российской Федерации» Президентской программы исследовательских проектов.

Еще один вопрос, который напрашивался одним их первых, как за столь короткое время и практически с нуля удалось в непрофильном вузе создать лабораторию мирового уровня в области Data Science, для работы которой нужны мощные суперкомпьютеры, современные хранилища данных, хорошая облачная инфраструктура?

– Все перечисленное появилось благодаря взаимодействию с Лабораторией информационных технологий (ЛИТ) в ОИЯИ, где создана передовая программно-аппаратная среда для моделирования и решения сложных научных задач. Инфраструктура РЭУ объединена с ресурсами ОИЯИ в рамках единой международной облачной инфраструктуры. Пользователям доступны облачные ресурсы не только ОИЯИ, но и ряда других исследовательских организаций, при этом виртуальные машины могут мигрировать с одной облачной инфраструктуры на другую, – объяснил В.Кореньков.

По словам ученого, в качестве современного инструмента для вычислений (в том числе для обработки больших объемов данных, поступающих с Большого адронного коллайдера) в ОИЯИ создана локальная облачная инфраструктура, действуют многокомпонентные хранилища данных, а весной прошлого года установлен мощный суперкомпьютер «Говорун».

– Вся эта инфраструктура была «заточена» на решение физических задач, в первую очередь тех, что формируют научные коллаборации ЦЕРН? 

– Не только, хотя ЦЕРН всегда был «законодателем мод» во многих сферах: WWW, GRID-технологии, симбиоз GRID, облачных и суперкомпьютерных вычислений тоже появились в ЦЕРН.

– Есть ли здесь место задачам в области гуманитарных наук, которые решаются в вашей лаборатории в РЭУ?

– Сегодня все говорят про цифровую платформу, цифровую экономику, которая как раз и является в некотором смысле продолжением того, чем мы уже достаточно давно занимаемся в ЦЕРН. Технологии, которые там возникли для решения физических задач, постепенно переходят и в другие сферы.

– Не могли бы вы привести примеры таких задач из «других сфер», где могут быть применимы технологии анализа Больших данных, созданные для нужд физики? 

– К примеру, задача анализа рынка труда: как этот рынок организован в России, каковы его региональные особенности? Какие профессии востребованы сегодня, а какие будут востребованы завтра? Используя методы машинного обучения, мы анализировали информацию о вакансиях, собранных за четыре года по всем доступным базам данных, причем больше всего нас интересовали специальности высшего образования. Ведь бывает так, что университеты выпускают специалистов с компетенциями, в которых нет потребности на рынке труда, зато есть большое количество запросов на специалистов, которых просто не готовят в конкретном регионе. Кстати, как мы выяснили, это несоответствие имеет значительные масштабы.

– Какие же здесь Большие данные? Разве сравнимо количество информации о вакансиях с тем потоком данных, который генерируют ускорители частиц? 

– Большие данные – это не только сами данные, но и технологии их сбора, обработки, анализа, моделирования. С этой задачей как раз работают технологии Big Data. Как распознавать треки частиц, используя методы машинного обучения, или выполнять другие научные задачи в области физики высоких энергий, мы понимали. А как эти же механизмы могут работать в социально-экономической сфере, мы не очень хорошо представляли, поэтому начали пробовать и получили довольно интересные результаты. Еще одна задача: исходя из ситуации на рынке труда, дать прогноз вузам, какие направления подготовки надо переориентировать, какие новые специальности открыть, а какие закрыть. Кто может сказать, каких профессий не будет через 3-4 года? Это очень важно знать для формирования социальной политики государства. Совсем недавно считалось, что потребуется большое количество сотрудников call-центров, а сейчас их массово заменяют роботы. Есть прогноз, что в течение несколько лет исчезнут около 80 профессий, зато появятся 120 других. К такому сценарию надо подготовиться заранее и успеть вовремя скорректировать учебные программы.

Другой пример связан с понятием «умный город». Мы пробуем решать задачи по оптимизации дорожного движения. Здесь учитываются поток данных с городских видеокамер, видеорегистраторов, распределение транспортных потоков, планы по строительству новых транспортных узлов, архитектурному развитию Москвы на ближайшие годы. На основе этих факторов можно прогнозировать, как должен быть организован общественный транспорт через год, два. При этом прогнозные задачи требуется решать по-новому, с использованием аналитики Больших данных.

Но цель деятельности лаборатории в РЭУ не ограничивается анализом Big Data для социально-экономических областей. В рамках гранта РНФ мы будем заниматься компьютингом для мегапроектов, которые сейчас рождаются в России. Прежде всего, это ускоритель НИКА в Дубне, ПИК в Гатчине, «Циклотрон» в Новосибирске, ряд экспериментов нейтринной программы, в которых будут генерироваться достаточно серьезные потоки данных.

– Как же не утонуть в этом море информации? Какие данные являются ценным, а какие – нет? Где хранить Большие данные и как долго? 

– Информация ранжируется по уровню доступа и своей ценности. Существует «горячая», «теплая» и «холодная» информация. «Горячая» – это та, которая нужна всем и всегда. Она хранится на самых высоких уровнях доступа и более быстрых носителях. Есть «теплые» данные, частота обращений к которым на порядки меньше, – их собирают на обычных дисковых серверах. А есть «холодная» информация – к ней обращаются редко, ее можно хранить на ленточных носителях, скорость доступа к которым не очень высока. Например, при открытии бозона Хиггса создавались наборы данных, содержащих признаки полезных событий, эти наборы реплицировались в различные научные центры, где многократно обрабатывались с целью получения надежных результатов. Безусловно, это были «горячие» данные. Если мы говорим о транспортных потоках, то «горячие» данные – это, в первую очередь, ситуация на основных магистралях, а транспортная картина на небольших улочках с малоинтенсивным движением почти никак не влияет на общее состояние дел (это «холодные» данные). Таким образом, есть три уровня иерархии данных. И если мы научимся с ними правильно работать, то количество средств хранения можно оптимизировать.

– Вы описали амбициозную программу работ, которая направлена в самые разные сферы. Что же должно стать итогом выполнения задания по гранту РНФ?

– В первую очередь создание цифровой платформы, которая включает в себя GRID-технологии, облака, суперкомпьютеры и системы хранения. Эта программная среда должна облегчить жизнь проектам, пользователям, обеспечить доступ к разного рода установкам. Кроме того, с ее помощью можно моделировать и решать разнообразные классы задач, визуализировать многие процессы. Мы должны создать набор систем для сбора и передачи разнородных данных от различных датчиков и детекторов, систем видеонаблюдения, из социальных сетей и т.д. Затем необходимо выполнить их фильтрацию, упаковку, систематизацию, обеспечить хранение. После этого, используя алгоритмы машинного обучения (или какие-то другие), мы должны наладить работу с этими данными: осуществить классификацию, моделирование, прогнозирование, визуализацию. И, наконец, приступить к решению прикладных задач, в числе которых может быть анализ данных БАК, коллайдера НИКА, данных по рынку труда или зондирования Земли из космоса. Готовая платформа должна быть рассчитана на самый широкий класс задач.

– Кто в вашей команде? Какими силами будет выполняться этот грант?

– Команда у нас смешанная, в нее входят специалисты не только из РЭУ – в общей сложности это около 30 человек. Все эти люди – «штучные» профессионалы, ведь аналитиков Больших данных ни один вуз в стране пока не готовит. Моя давняя идея заключается в том, чтобы в 20 лучших российских университетах отобрать группы по 5-6 студентов для углубленной подготовки в области аналитики Больших данных. Недавно в Дубне прошла Летняя компьютерная школа по этой тематике, организованная с участием ОИЯИ, РЭУ, Университета Дубна и ряда других организаций, во время которой свыше 80 студентов из 20 ведущих университетов различных регионов России погрузились в мир Data Science, прослушали лекции ведущих российских и зарубежных специалистов. В ходе реализации проекта по гранту РНФ планируется создать учебный курс по фундаментальным основам и прикладным аспектам современных технологий машинного обучения и анализа Больших данных, подготовить группу молодых специалистов мирового уровня в этом направлении.

Возврат к списку