Информация, с которой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурная информация используется в программах, декларативная информация – в данных, с которыми эти программы работают.
Стандартной формой представления информации в ЭВМ является машинное слово, состоящее из определенного для данного типа ЭВМ числа двоичных разрядов – битов. Содержимое памяти образует информационную базу.
Параллельно с развитием структуры ЭВМ происходило развитие информационных структур для представления данных. Появились способы описания данных в виде векторов и матриц, возникли списочные и иерархические структуры. В настоящее время в языках программирования высокого уровня используются абстрактные типы данных, структура которых задается программистом.
Появление баз данных (БД) являлось еще одним шагом на пути организации работы с декларативной информацией. В базах данных могут одновременно храниться большие объемы информации, а специальные средства, образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать данными, извлекать их из базы данных и записывать их в нужном порядке в базу.
Базы данных как информационные системы (ИС) выполняют следующие функции:
– воспринимают входные данные и запросы пользователя;
– обрабатывают данные в соответствии с заданным алгоритмом;
– формируют требуемую выходную информацию.
Однако традиционные информационные системы имеют следующие недостатки:
– не могут решать плохо формализуемые задачи, с которыми финансовые и управленческие работники имеют дело;
– плохо адаптируются к изменениям в предметной области и информационным потребностям пользователей;
– при изменении любого компонента, необходимо полное переписывание программы, что может делать только разработчик.
Перечисленные недостатки устраняются в интеллектуальных информационных системах, в которых произошел переход от базы данных к базе знаний. Совокупность средств, обеспечивающих работу со знаниями, образует систему управления базой знаний (СУБЗ).
Основные особенности информационных единиц, на основании которых данные превращаются в знания, а базы данных переходят в базы знаний (БЗ):
1. Внутренняя интерпретируемость. Каждая информационная единица должна иметь уникальное имя, по которому информационная система находит ее, а также отвечает на запросы, в которых это имя упомянуто. При переходе к знаниям в память ЭВМ вводится информация о протоструктуре информационных единиц, то есть задаются специальные словари, содержащие атрибуты, по которым можно осуществлять поиск информации.
2. Структурированность. Информационные единицы должны обладать гибкой структурой. Для них должен выполняться «принцип матрешки», т.е. рекурсивная вложимость одних информационных единиц в другие. Каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее информационные единицы. То есть, должна существовать возможность произвольного установления между отдельными информационными единицами отношений типа «часть – целое», «род – вид» или «элемент – класс».
3. Связность. В информационной базе между информационными единицами должна быть предусмотрена возможность установления связей различного типа, которые могут характеризовать отношения между информационными единицами. Семантика отношений может носить декларативный или процедурный характер. Например, две или более информационные единицы могут быть связаны отношением «одновременно», две информационные единицы – отношением «причина – следствие» или отношением «быть рядом». Приведенные отношения характеризуют декларативные знания. Если между двумя информационными единицами установлено отношение «аргумент – функция», то оно характеризует процедурное знание, связанное с вычислением определенных функций. Будем различать отношения структуризации, функциональные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии информационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно-следственные связи, четвертые соответствуют всем остальным отношениям.
4. Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее ситуационную близость информационных единиц, т.е. силу ассоциативной связи между информационными единицами. Его можно назвать отношением релевантности для информационных единиц. Такое отношение дает возможность выделять в информационной базе некоторые типовые ситуации (например, «покупка», «регулирование движения на перекрестке»). Отношение релевантности при работе с информационными единицами позволяет находить знания, близкие к уже найденным.
5. Активность. При работе ЭВМ команды являются активными, так как ими инициируются все процессы, а данные – пассивны, так как они используются командами лишь в случае необходимости. Для интеллектуальных информационных систем это не применимо. В них актуализации тех или иных действий способствуют знания, имеющиеся в системе, то есть выполнение программ в ИИС должно инициироваться текущим состоянием информационной базы. Появление в базе фактов или описаний событий, установление связей является источником активности системы.