Проект «Российские архивы онлайн» (РАО): состояние и перспективы развития. | Бухштаб Юрий Александрович Заведующий сектором Институт прикладной математики им. М.В.Келдыша РАН Адрес: 125047,Москва,Миусская пл.4, ИПМ РАН Тел.: (095) 250-78-15 E-mail: kikom@online.ru
|
Евтеева Наталия Николаевна - к.ф.-м.н., старший научный сотрудник Института прикладной математики им. М.В. Келдыша РАН Содержание : Основной целью проекта «Российские архивы онлайн» является создание и представление в Интернет обьемных баз данных, содержащих описания материалов аудиовизуальных коллекций российских архивов. Этот проект направлен на обеспечение доступа к архивным материалам многочисленных пользователей в России и во всем мире. Хотя хранилища многих Российских архивов хорошо организованы на основе традиционных, "до компьютерных" методов, их материалами можно воспользоваться только после длительных исследовательских усилий непосредственно в архивах при помощи карточек бумажных каталогов, написанных вручную или напечатанных на машинке. Даже в России не все знают о богатых аудиовизуальных коллекциях архивов, поэтому потенциальные возможности использования хранящихся в них материалов только начинают реализовываться.
Важным направлением деятельности, осуществляемой в рамках проекта, является создание образовательных ресурсов в Интернет (в частности, связанных с историей России), базирующихся на коллекциях этих архивов.
Кроме того, составною частью проекта является организация электронной коммерции: платного предоставления архивами прав на использование копий их аудиовизуальных материалов, отобранных на основе создаваемых баз данных. Предполагается, что вырученные средства будут направляться (и это уже происходит) на цели обеспечения сохранности коллекций.
Проект был поддержан рядом международных организаций - Агенством международного развития США, Интерньюс, Институтом "Открытое Общество", ЮНЕСКО, а также Российским фондом фундаментальных исследований. В работе , кроме сотрудников архивов, принимают участие Институт прикладной математики им. М.В. Келдыша РАН, Московский и Техасский университеты, а также компания Абамедиа (США).
Хотя название «Российские архивы онлайн» появилось немногим более года назад, фактически работы по проекту были начаты еще в 1996 году, когда было принято решение о создании электронного каталога Российского государственного архива кинофотодокументов в Красногорске (РГАКФД). Этот архив представляет собой самое крупное хранилище документальных фильмов и фотографий, отражающих историю России и советских республик. В Красногорском архиве хранятся более 215 тысяч коробок с фильмами: свыше 38 тысяч названий; более 1 тыс. относятся к дореволюционному периоду. Архив располагает также более чем 1 миллионом фотографий и негативов, в том числе уникальными альбомами царской семьи. Красногорская коллекция, представляющая собой иллюстрированную историю России с середины прошлого века, вызывает интерес не только у кинодокументалистов и представителей средств массовой информации во всем мире, но и является важнейшим источником получения материалов при проведении научных исследований, в первую очередь исторических. Материалы архива играют не менее важную роль для всего широкого спектра деятельности, связанной с образованием, как в самой России, так и за ее пределами.
К настоящему моменту в базе данных электронного каталога Красногорского архива содержатся описания большей части его коллекции фильмов (25 000 описаний). Каталог доступен в Интернет (http://rgakfd.internews.ru/catalog.htm) и распространяется на CD. Работы по созданию этого каталога продолжаются, и через год в базе данных будут содержаться описания всей коллекции фильмов. В этом году также были начаты работы по созданию англоязычной версии электронного каталога, а именно: была разработана и опробована методология использования системы машинного перевода Systran Professional с последующим редактированием текстов для создания базы данных электронного каталога, содержащей описания фильмов из коллекции РГАКФД на английском языке. Осуществлен перевод 3000 описаний и они размещены в Интернет (http://rgakfd.internews.ru/ecatalog.htm). Анализ полученных результатов показал, что использование такой методологии для перевода обьемной базы данных на английский язык дает приемлемый с точки зрения качества результат при сравнительно низкой стоимости работ. Предполагается, что весь электронный каталог фильмов из Красногорска будет таким способом переведен на английский язык. Работы по завершению формирования информационного фонда каталога Красногорского архива и его переводу на английский финансируются Институтом «Открытое Общество».
Кроме каталога Красногорского архива в рамках проекта к настоящему моменту созданы и размещены в Интернет еще два каталога, которые представлют коллекцию Российского государственного архива научно-технической документации (РГАНТД). В этом архиве хранится большое количество уникальных фотографий и фильмов, отражающих историю становления и развития космонавтики и ракетно-космической техники. В рамках проекта создан каталог, включающий 3 000 наиболее интересных фотографий и их описания из коллекции этого архива. Работы по созданию фотокаталога на космическую тему финансировались ЮНЕСКО. Этот каталог размещен в Интернет
(http://rgantd.ru/elcatalog/photocat.htm) и подготовлена его версия на CD.
Также создан и размещен в Интернет (http://rgantd.ru/ecfilm/catalog.htm) электроный каталог, содержащий описания документальных фильмов, посвященных освоению космоса из коллекции Российского государственного архива научно-технической документации. Эта работа финансировалась Институтом «Открытое Общество».
Естественно, что первочередной целью разработчиков проекта в тот момент, когда он был начат, стал выбор адекватного поставленным целям программного обеспечения. Прежде всего следует отметить, что выбор организации такого обеспечения определялся необходимостью реализовать поиск не только на основе внешней классификации документов, но и по их содержанию. Как известно, адекватной методологией для решения такой задачи является использование механизмов полнотекстного поиска на базе автоматического индексирования.
Первая пилотная версия электронного каталога Красногорского архива была разработана на базе полнотекстной СУБД , разработанной американской фирмой "Personal Library Software". Следует отметить, что понадобились значительные усилия программистов - участников проекта для того, чтобы руссифицировать эту СУБД, так как использование русского языка не было предусмотрено ее разработчиками. Однако в дальнейшем от использования этой СУБД пришлось отказатся по причинам сложности распространения каталога на CD (требовалась предварительная инсталяция СУБД на компьютере пользователя и ее настройка). Кроме того, версия этой СУБД, предназначенная для работы в Интернет, в тот момент стоила очень дорого. Первая практически эксплуатируемая версия электронного каталога кинодокументов из Красногорска была создана на базе Мicrosoft Access. Для того, чтобы использовать эту СУБД в проекте, была написана программа, реализующая на ее базе адекватный полнотекстный поиск. Однако бысродействие этой СУБД в таком «чужом» для нее режиме не полностью устраивало разработчиков проекта.
В свете этих обстоятельст было принято решение разработать новую полнотекстную СУБД, которая была бы ориентирована на класс решаемых задач, позволяя пользователям работать с каталогами на CD без предварительной инсталяции и могла функционировать в Интернет используя серверы на различных платформах. Последние два года все разработки, осуществляемые в рамках проекта «Российские архивы онлайн», используют эту СУБД, и опыт ее эксплуатации показал, что она весьма эффективна при решении задач, связанных с организацией различных электронных каталогов. Разработанная СУБД , базирующаяся на структуре B-дерева, позволяет за секунды локализовать нужную информацию среди больших обьемов данных. Поисковыми для нее являются все слова, встречающиеся в записях базы данных, за исключением тех полей, которые обьявлются неиндексируемыми, и так называемых стоп-слов, модифицируемый список которых может быть задан для каждого приложения.
Для задания запросов используются логические комбинации слов, которые могут маскироваться. При этом в запрос могут быть включены имена полей, что дает возможность контролировать место в записи, где именно следует искать поисковые слова. Результаты поиска отображаются в виде, удобном для быстрого отбора наиболее релевантной информации, - в списке, где кратко представляются найденные записи ( например, заголовки ), а сами записи полностью могут быть просмотрены в специальном окне записей.
Рассматриваемая СУБД имеет еще одно удобное средство быстрой выборки релевантной информации - гипертекстовые ссылки, связывающие текст записи с разнородной информацией, имеющей отношение к данному тексту, - фотографией, виде или аудио клипом или внешней по отношению к СУБД программой.
Для заполнения информационных фондов целевых поисковых систем, построенных на базе рассматриваемой СУБД, разработан ряд утилит, обеспечивающих возможность использования текстов, представленных в различных форматах, в том числе в виде документов Мicrosoft Word и записей Мicrosoft Access. Кроме того, разработан специализированный редактор, позволяющий вводить тексты непосредственно в базу данных и модифицировать их.
Важной часть осуществляемых в рамках настоящего проекта работ являются исследования в области разработки систем содержательного поиска видеоинформации. Дело в том, что неоднозначность соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска. Кроме того, приемлемые описания не могут быть созданы автоматически - предполагается участие человека, что существенно замедляет процесс пополнения базы данных.
Технология доступа к коллекциям изображений и видеофильмов по визуальному содержанию реализуется на базе сопоставления им набора визуальных примитивов (характеристик цвета, формы, текстуры, а для видео еще и параметров движения сцены и объектов) и определением количественной оценки близости изображений по значениям примитивов. Таким образом, визуальные примитивы - это характеристики изображения, которые автоматически вычисляются по оцифрованным визуальным данным, позволяют эффективно индексировать их и обрабатывать запросы с использованием визуальных свойств изображения. Поисковый образ изображения, сгенерированный из визуальных примитивов, невелик по размеру в сравнении с самим изображением и удобен для организации поиска. Вычисление подобия изображений заменяет принятую в традиционных СУБД операцию установления соответствия запросу.
Проведенные в рамках проекта исследования были направлены на разработку и реализацию методов анализа, индексирования и поиска изображений и видеоданных на основании визуальных атрибутов. В ходе этих работ были разработаны следующие методы:
- количественной оценки близости статичных изображений по их цветовым гистограммам с использованием техники квадродеревьев;
- выделение границ объектов изображения на основании анализа значений пространственных производных интенсивности, вычисленных в каждой точке изображения;
- измерения текстуры с использованием функций Габора;
- временного сегментирования видеофильма, основанного на сравнении цветовых гистограмм соседних кадров;
- индексирования видеофрагментов с использованием алгоритмов анализа статичных изображений;
- вычисления оптического потока с использованием дифференциальной техники;
- выделения движущихся объектов, а также определения их размеров, расположения и типа движения на основе анализа поля вектора скорости;
- многоуровневая классификация видеофрагментов по типу движения, в частности распознавание характерных функций камеры (приближение, удаление, сдвиг);
- распознования некоторых классов обьектов с помощью нейронной сети.
Предполагается, что первое практическое применение результатов этих исследований будет связано с решением задачи автоматического выделения информативных стоп-кадров. Соответствующие алгоритмы могут основываться на анализе сравнительно простых вычислимых свойств видеоряда, таких как количество однородных кадров, смена планов и т.д. Следует отметить, что возможность выделения стоп-кадров с помощью компьютера позволит автоматизировать работу квалифицированного персонала, требующую значительных затрат времени. Проведение исследовательских работ связанных с разработкой методов анализа, индексирования и поиска изображений и видеоданных финансировалось РФФИ грант № 01-01-00267.
|