Метаданные
Материал из Википедии — свободной энциклопедии
Для термина метаданные нет единственного формального определения. Наоборот, существуют различные определения этого термина . Наиболее общим является дословный перевод:
Метаданные — это данные о данных. Например, значение «123456» само по себе недостаточно выразительно. А если значению «123456» сопоставлено достаточно выразительное имя «почтовый индекс» (что уже является метаданными), то в этом контексте значение «123456» более осмысленно - можно извлечь информацию о местоположении адресата, имеющего данный почтовый индекс.
Поскольку для большинства людей разница между словами данные и информация есть только с философской точки зрения и не существенна с практической точки зрения, то имеют место следующие определения:
- Метаданные это информация о данных.
- Метаданные это информация о информации.
Существуют более изощрённые определения:
Метаданные это структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими[1].
Метаданные это набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых помочь найти объект[2].
Это определение используется гораздо реже, поскольку оно концентрируется на одном из предназначений метаданных — поиск объектов, сущностей, ресурсов — и игнорирует другие предназначения.
Термин метаданные в широком смысле слова используется для любых «данных о данных»: имена таблиц, колонок в таблице, программ и т.п.
Метаданные в общем смысле — это данные из более общей формальной системы, описывающей заданную систему данных.
Для понимания идеи формальных систем — см. теорему Гёделя. DAPRA в качестве нового языка описания web-страниц предлагает DAML- который в значительной степени описывает страницу через метаданные. Предполагается что это значительно повысит эффективность поиска.
[править] Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой.
[править] Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области:
- DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD.
- для описания персон и организаций vCard и FOAF
- для описания библиографических ресурсов предназначены форматы семейства MARC (MARC 21 иcпользуемый в США и Великобритании и UNIMARC используемый в Европе и Азии); UNIMARC в свою очередь подразделяется на национальные расширения этого формата, так в России используется RUSMARC; в силу большой сложности форматов семейства MARC для решения задач интеграции данных был разработан формат MODS.
- для описания музейных и исторических ценностей используется формат CDWA
- для описания издательской продукции используются PRISM и ONIX
- для кристаллографической информации CIF
- для хранения и обмена информацией о погоде в бинарной форме GRIB
- для работы с изображениями со спутников VICAR
- для описания новостей NewsXML
и т. д.