Извлечение знаний

Как следует из определения, технология инженерии знаний предполагает последовательное прохождение этапов извлечения знаний и концептуального анализа знаний.

Этап извлечения знаний касается выбора формы взаимодействия инженера по знаниям с экспертом. Основной вопрос, который должен быть решен, - это "как" взаимодействовать с экспертом, чтобы получить наиболее полное представление о предметной области и существующих в ней способах принятия решения. Диапазон форм взаимодействия инженера по знаниям с экспертом может быть достаточно широким: от неформальных бесед, интервью, наблюдений, лекций, диалогов, экспертных игр и экспериментов до использования формализованных процедур и компьютерных программ.

Основные аспекты взаимодействия инженера по знаниям с экспертом, стратегии получения экспертных знаний и опыта, а также методы извлечения знаний подробно рассматриваются в этом разделе.

Этап концептуального анализа знаний касается несколько иного аспекта при взаимодействии инженера по знаниям с экспертом. Вопрос заключается не в том, как организовать процесс взаимодействия с экспертом, а в том, "что" надо получить в результате такого взаимодействия и "как" структурировать полученную информацию для решения данной задачи. Концептуальный анализ знаний начинается с выявления терминологии, базовых понятий предметной области, взаимосвязей, семантических отношений, метапонятий, стратегий принятия решений и заканчивается построением модели предметной области. Фактически речь идет о том, чтобы полученные на предыдущем этапе знания перенести в некоторые концептуальные структуры, не зависящие от конкретной программной реализации.

Для осуществления такой работы существуют вполне конкретные структуры и методы, позволяющие выявлять определенные элементы знаний. Подробно концептуальный анализ знаний рассматривается в п. 3.2.3 и 3.2.4, здесь же рассмотрим проблему извлечения знаний.

В англоязычной литературе по инженерии знаний существует понятие "экспертность" (expertise), под которым понимается набор качеств, лежащих в основе высокого уровня работы людей-специалистов, в том числе обширные познания в той или иной области, эвристические правила, упрощающие и улучшающие подходы к решению задач, метазнания и метасознание, а также "компилированные" формы поведения (навыки), обеспечивающие большую экономию при высококвалифицированной работе [Хейес-Рот, Уотерман, Ленат, 1987]. Иными словами, экспертность - это знания, опыт и компетентность, которыми владеет эксперт.

Def	Под извлечением экспертных знаний (knowledge elicitation) понимается процедура взаимодействия инженера по знаниям с экспертом, в результате которой становятся явными процесс рассуждений специалистов при принятии решений и структура их представлений о предметной области.

Проблема извлечения экспертных знаний традиционно считается "узким местом" в проектировании интеллектуальных систем [Feigen-baum, 1980; Boose, 1989; Gaines, 1993]. По количеству цитируемости в литературе это изречение стало классическим и довольно точно отражает состояние дел. В чем же заключаются трудности извлечения экспертных знаний?

Ответы на эти вопросы дают психологические и психолингвистические исследования, касающиеся широкого круга проблем: как формирование опыта решения профессиональных задач специалистами и понимание природы экспертности, применение теоретических знаний на практике и специфика практического мышления, характеристика системы обработки информации человеком и поведение человека при решении профессиональных задач, а также взаимосвязь естественного языка и мыслительного процесса человека.

Вопросы понимания природы экспертности достаточно широко освещены в литературе по психологии [Broadbent et al., 1986; Nisbett, Wilson, 1977]. Так, например, анализ природы экспертности говорит о ее сильном ограничении и зависимости от некоторых неявно выраженных допущений [Hawkins, 1983], а обзор исследований, сделанных на эту тему, показывает, что многое в деятельности человека до конца осознать невозможно [Dixon, 1981].

В психологических исследованиях зависимости между компетентностью человека в отношении реальных профессиональных проблем и уровнем его интеллекта сделан вывод о том, что эти две характеристики не связаны между собой [Холодная, 1997]. Так, при прогнозировании результатов конных скачек опытные знатоки, независимо от величины своего коэффициента интеллекта (IQ), обнаруживали более высокие показатели умозаключающей способности и многовариантность суждений, в отличие от "новичков".

Известен парадоксальный факт: по мере накопления опыта специалист-эксперт все больше и больше утрачивает умение словесно выражать свои знания. Существует достаточно убедительное доказательство того, что люди не всегда в состоянии достоверно описать свои мыслительные процессы. Известный теоретик искусственного интеллекта М. Минский писал, что "самосознание - это сложная, но тщательно сконструированная иллюзия..." и что "...только как исключение, а не как правило, человек может объяснить то, что он знает" [цит. по: Кук, Макдональд, 1986. С. 146].

Другая психологическая гипотеза утверждает, что опыт эксперта - это интуиция, которая трудно поддается выражению в форме правил типа "ЕСЛИ - ТО". Психологические исследования сущности профессионального опыта показывают, что свойство, которое мы называем интуицией, на самом деле может быть высокоразвитой способностью распознавать образы. Например, шахматисты высокого класса способны быстро распознавать и восстанавливать в памяти именно игровое расположение фигур на доске, а не случайное. Кроме того, доказано, что опытный специалист отличается от новичка не только своими знаниями, но и их организацией [Кук, Макдональд, 1986].

Результаты экспериментов по изучению человеческого опыта на основании сравнения когнитивных структур новичков и опытных специалистов [Кук, Макдональд, 1986] показали, что когнитивные структуры профессионалов мало чем различаются между собой и сильно разнятся с когнитивными структурами новичков.

R. Glasek (1984), исследуя способы решения задач опытными физиками и новичками, сделал вывод о том, что "...связь между структурой базы знаний и процессом решения задач опосредуется качеством репрезентации проблемы...", а "...характеристики репрезентации проблемы оказываются обусловленными имеющимися у субъекта знаниями и способами, которыми это знание организовано" [Glasek, 1984. С. 98]. Так, например, эксперты-физики (специалисты) сначала строят физическую репрезентацию проблемы и только потом начинают ее решать, тогда как новички (студенты) более быстро и непосредственно переходят к процессу решения. Далее, эксперты-физики строят репрезентации вокруг фундаментальных принципов, которые характеризуют наиболее обобщенное, а также "подразумеваемое" знание (tacit knowledge) (последнее выступает в виде сложных интуитивных представлений, далеко не всегда четко вербализованных), тогда как новички - вокруг доминантных объектов, которые представлены в соответствующей физической ситуации в явном, очевидном виде. Кроме того, знания экспертов включают знания о возможности применения того, что они знают. Наконец, они успешно извлекают из собственных знаний необходимые для планирования своих дальнейших действий сведения [Холодная, 1997].

Анализ протоколов решения физических задач экспертами и новичками, сделанный другими авторами, также показывает, что эксперт решает задачу с помощью "физической" репрезентации феномена и лишь затем выводит уравнение, а новичок, напротив, не создает такой физической репрезентации и прямо применяет формулы к данным условия задачи [Simon D. P., Simon H. А., 1978].

Интеллектуальные достижения эксперта являются следствием особой формы организации его индивидуальных знаний - как декларативных ("что?"), так и процедурных ("как?") [Chi, Koeske, 1983]. Так, М. Чи обследовала ребенка-вундеркинда четырех с половиной лет, который увлекался проблемой динозавров (у него было много книг о динозаврах и разнообразных моделей этих животных). На основе анализа бесед с ребенком и характера его игры с моделями Чи пришла к выводу, что интеллектуальная одаренность этого мальчика была связана со специфическими характеристиками индивидуальной базы знаний, касающихся темы "динозавры": большим количеством единиц знания, наличием большого числа разнонаправленных связей между ними, высокой степенью их сцепленности (например, существованием очень тесных связей между понятиями о главных динозаврах), а также высокой степенью их иерархичности (этот ребенок четко разделял общие и частные признаки динозавров).

Наблюдения некоторых авторов говорят о том, что эксперты переходят от описания задачи к ее решению без каких-либо промежуточных рассуждений. В большинстве случаев это решение не только правильное, но и быстрое. Такая стратегия сильно отличается от "обратной" стратегии, которую обычно используют новички: от цели - к подцелям, от задачи - к достижимым промежуточным состояниям [Atkinson R. L., Atkinson T. G., Smith, Bern, 1993].

Общепризнанным феноменом является мало осознаваемый характер экспертного умения, состоящий в том, что хотя эксперты без ошибок и устойчиво демонстрируют свое умение принимать решения в процессе профессиональной деятельности, они не всегда могут объяснить, как это делают и какими правилами при этом руководствуются [Kihlstrom, 1987; Nisbett, Wilson, 1977]. Психологические исследования показывают, что такие правила не осознаются, более того, их неосознаваемость носит фундаментальный характер [Lewicki, Hill, Czyzewska, 1992]. Люди далеко не всегда осознают правила принятия решений, играя в шахматы, формируя впечатления о других людях, в процессе творческого мышления, а также при формировании и распознавании образов, в особенности - невербализуемых.

Даже прямые подсказки не позволяют получить от экспертов правдоподобные объяснения. Так, например, в литературе описан эксперимент, в котором испытуемые вырабатывали умение быстро обнаруживать цифры, используя подсказки, спрятанные в условиях задач. Этот эксперимент был организован так, что испытуемому на экране компьютера предъявлялись таблицы с числами, за пределами которых в разных местах экрана появлялась отдельная цифра, а от испытуемого требовалось совместить метку, управляемую мышью, с этой цифрой. Определенное расположение цифр в таблице было подсказкой, указывающей на то, в каком месте экрана появится цифра. Объективная характеристика (время решения) показала, что испытуемые использовали эти подсказки, но они были неспособны не только указать на них, но даже установить факт их существования [Ling, Marinov, 1994].

Феномен неосознаваемости экспертных умений может быть описан в терминах эксплицитной и имплицитной памяти.

Эксплицитная память - это термин, обычно описывающий знание, которое человек может сознательно вспомнить, в противоположность имплицитной памяти, проявляющейся в том, что он лучше выполняет какую-либо задачу.

Примером может служить запоминание клавиатуры печатной машинки (или компьютера). Многие квалифицированные машинистки не могут вспомнить порядок клавиш, не вообразив себя печатающими. Очевидно, что их пальцы знают, где находятся клавиши, но они просто не имеют сознательного доступа к этому знанию. Если попросить машинистку сообщить, где находятся клавиши (их порядок), то можно сделать вывод о том, что она совершенно не знает клавиатуры. Если проверить, как она печатает, то можно сделать вывод о том, что она знает клавиатуру в совершенстве.

Различие между эксплицитной и имплицитной памятью называют диссоциацией. Эксперимент, проведенный Берри и Бродбентом в 1984 году [Андерсон, 2002], прекрасно иллюстрирует эти понятия. В качестве испытуемых были студенты Оксфордского университета. Они должны были контролировать производительность гипотетической сахарной фабрики, которая была смоделирована с помощью компьютерной программы. Испытуемые видели производительность (число) и должны были менять количество работающих. В таблице 3.2 показаны некоторые взаимосвязи в работе гипотетической сахарной фабрики.

Таблица 3.2

Численность работающих	Производительность сахара (т)

Цель состояла в том, чтобы удерживать производство сахара в границах от 8000 тонн до 10 000 тонн.

Можно было попробовать вывести правило, связывающее производство сахара с занятой рабочей силой. Но эта связь не очевидна. Производство сахара в тысячах (С) было связано с количеством рабочей силы в сотнях (Р) и производством сахара в предыдущий месяц в тысячах (С1) следующей формулой: С = 2Р - С1.

Испытуемым давалось 60 попыток, чтобы научиться управлять фабрикой. После 60 попыток они хорошо научились управлять производством сахара, однако не могли сформулировать правило, которым они при этом руководствовались, и заявляли, что они давали ответы на основе "некоторой интуиции" или потому, что это "казалось правильным".

Таким образом, испытуемые были способны приобрести имплицитное знание того, как руководить такой фабрикой, не сообщая об эксплицитном знании. На основании этого можно сделать вывод о том, что испытуемые могут эффективно осваивать процедуры для выполнения задач без какой-либо способности объяснить, что они делают.

Из неосознаваемого характера экспертных знаний следует невозможность их выявления путем прямого опроса экспертов. Эксперты могут сообщить факты, передать знание, содержащееся в книгах, решать задачи классификации, но неспособны вербализовать свое умение.

В одной из работ исследовались процессы передачи знаний между учеными и было сделано заключение, что часть знания вообще невозможно воспринять от эксперта не только потому, что он не может его выразить, но и вследствие того факта, что он не осознает его важность в своей деятельности [Collins, 1985]. О неправильной оценке экспертом важности тех или иных своих знаний для решения задач пишут и другие авторы [Гельфанди др., 1988]

При длительном наблюдении за процессом решения задач экспертами можно обнаружить, что они систематически обращают внимание на определенную информацию, о которой не сообщают ничего. Иными словами, самые компетентные эксперты оказываются некомпетентными при попытке описать знания, которые они используют при выработке решений. Этот эффект известен психологам и в литературе по когнитивной психологии отмечен как феномен слабой корреляции между вербальными сообщениями и ментальным поведением эксперта [Осипов, 1993]. В работе по исследованию восприятия устного изложения также отмечено отсутствие корреляции между вербальными сообщениями и ментальным поведением. Там же указывается, что многие психологи глубоко чувствуют несостоятельность словесной информации [Bainbridge, 1979].

Психологические исследования применения теоретических знаний на практике, исследования мышления при решении практических задач показывают, что специфика практического мышления заключается в направленности на преобразования [Корнилов, 1997]. Познание в теоретическом мышлении направлено на объяснение действительности, его интересуют собственные свойства элементов окружающего мира. Поэтому для теоретического мышления характерна созерцательная позиция, стремление абстрагироваться от условий и средств получения или реализации этих знаний. Познание в практическом мышлении направлено на преобразование, оно ищет возможности внесения изменений в те или иные элементы окружающего мира. Его объектами являются не собственные параметры или свойства элементов действительности, а параметры и свойства, изменяющиеся и приобретающие под влиянием действия нужные, задуманные черты.

Субъект практического мышления познает не свойства некоторого объекта, как это происходит в случае с теоретическим мышлением, а свойства взаимодействующей системы, в которую входят 1) этот объект, 2) сам действующий субъект, 3) параметры (условия и средства) действия. По словам Ю. К. Корнилова (1997), этим объясняется, почему накапливаемые знания (опыт) индивидуализированы и почти не осознаются.

О том, что практическое мышление плохо поддается вербализации и во много субъектом не осознается, писал и Л. Секей: "Существует некоторое "исходное знание", непосредственно не обнаруживаемое в процессе мышления, но влияющее на него. ...Превращения и трансформации этого исходного знания... не могут быть обнаружены интроспективно" [Секей, 1965. С. 349-350].

R. К. Wagner и R. J. Sternberg (1986) тоже описывают один из вариантов этого явления, называя его "молчаливым", или "подразумеваемым", знанием (tacit knowledge), следующим образом: "Практически разумное поведение в различных профессиях, включая менеджмент, частично зависит от "молчаливого знания", которое мы разделили на три категории: знание об управлении собой, другими и карьерой" [Wagner, Sternberg, 1986. С. 59].

Как отмечает Ю. К. Корнилов (1997), "молчаливое" знание плохо вербализуется прежде всего потому, что субъект использует его для построения своих действий, а не коммуникаций. В тех же случаях, когда осуществляется попытка обмена опытом, профессионал с трудом называет лишь единичные свойства объекта, отражая в их названиях цели осуществляемых действий, преобразований. Другие компоненты знания еще хуже поддаются вербализации. Субъект обычно лишь "имеет в виду", предполагает "известные всем" условия совершения действия, но вовсе не осознает свои средства.

Общепризнанным фактом является то, что принятие решений происходит в так называемой кратковременной памяти человека, объем которой ограничен "магическим" числом 7+2 чанка [Миллер, 1964; Simon, 1974]. Под чанком подразумевается единичный информационный факт, или кластер, которым оперирует человек. Ограничение объема кратковременной памяти оказывает существенное влияние на систему переработки информации человеком, заставляя людей вырабатывать чанки все более емкого и обобщенного характера [Грановская, 1974].

В работах по исследованию способов принятия решений шахматистами-экспертами и шахматистами-новичками [Chase, Simon, 1973] отмечалось, что в базовом знании экспертов можно выделить чанки, а в базовом знании новичков они отсутствуют.

Г. Саймон считает, что система обработки информации человеком работает в основном последовательно во времени: она способна перерабатывать одновременно лишь несколько символов, причем обрабатываемые символы должны храниться в особых, ограниченных по емкости структурах памяти (чанках), содержание которых может быстро меняться. Поэтому то, что выглядит для наблюдателя как классификация объектов на большое число классов, представляет собой в действительности совокупность классификаций на два-три (обобщенных) класса. Эти выводы находят свое подтверждение в экспериментах Г. Саймона [Richman, Staszewski, Simon, 1995] по изучению системы организации памяти эксперта-мнемониста, запоминавшего большое количество цифр. Как показал анализ, эксперт использовал иерархическую систему хранения информации. Вообще, использование иерархических схем является одним из приемов, позволяющих избежать чрезмерной нагрузки на кратковременную память при запоминании, хранении и воспроизведении информации, а также при принятии решений.

Ограниченный объем кратковременной памяти заставляет эксперта использовать при классификации те значения диагностических признаков, которые наиболее характерны для одновременно рассматриваемых двух-трех классов решений. Некоторые авторы, например, отмечают, что врачи-эксперты при дифференциальной классификации часто используют только два значения диагностических признаков (два класса решений) [Lemieux, Bordage, 1992].

Интересны выводы о том, что способность к кратковременному запоминанию оказывается не органической функцией возраста человека, а, скорее, функцией его знаний [Schneider, 1993]. Так, например, в области шахмат объем кратковременной памяти детей-экспертов превосходит объем кратковременной памяти взрослых-новичков.

В последние годы публикуются результаты психологических исследований, показывающие, что многие достаточно распространенные способы получения информации от человека (назначения весов признаков, назначение вероятностей и т. д.) являются некорректными: они ведут к противоречиям, смещениям, ошибкам [Tversky, Kaheman 1974; Ларичев, Моргоев, 1991]. В литературе обсуждаются пути преодоления этих трудностей. Так, например, поскольку эксперты часто не могут количественно оценить степень своей уверенности в том или ином утверждении (факте), им предлагают указать порядок их предпочтения [Cloteaux, Eick, Bouchon-Meimier, Kreinovich, 1998].

Поведение человека при решении задачи классификации исследовалось в серии психологических экспериментов [Larichev, Moshkovich, Rebrik, 1988]. Результаты экспериментов показывают, что люди ведут себя достаточно надежно и непротиворечиво при определенных значениях таких параметров, как количество аспектов, число возможных решений для каждого из них и количество классов решений. Если значения этих параметров увеличиваются и переходят определенную границу, то количество ошибок при решении человеком задачи классификации резко возрастает.

Результаты ряда психологических исследований позволяют охарактеризовать систему хранения и переработки информации у эксперта следующим образом [Ларичев, Моргоев, 1991]. Прежде всего, хороший эксперт обладает знанием тысяч конкретных ситуаций, которые хранятся в его долговременной памяти. Есть данные, что это число достигает 30- 50 тысяч [Simon, 1978]. Каждая из этих ситуаций описывается на привычном для эксперта профессиональном языке. Умение гибко использовать эти ситуации при решении конкретной задачи, вероятнее всего, имеет во многом неосознаваемый характер [Kihlstrum, 1987]. Все вспомогательные операции по извлечению и переработке информации совершаются в кратковременной памяти. Ее малый объем служит причиной использования человеком различных эвристических приемов.

Определенное влияние на процесс извлечения знаний оказывает существование так называемого механизма когнитивной защиты эксперта [Осипов, 1993], который принято объяснять с позиций теории индивидуальных психологических конструктов, выдвинутой Дж. Келли в 1955 году в рамках исследований по клинической психологии [Kelly, 1955]. В соответствии с этой теорией сложность устройства модели мира субъекта определяется набором сформированных его сознанием конструктов, приспосабливаемых к реалиям мира. Конструкт - это особое субъективное средство, сконструированное самим человеком, проверенное им на практике и позволяющее ему воспринимать и понимать окружающую действительность, оценивать и прогнозировать события. В самом общем виде - это биполярный признак, альтернативные события, противоположные отношения и способы поведения [Петренко, 1988]. Чем шире набор личностных конструктов у субъекта, тем более многомерным, дифференцированным является в его сознании образ мира, себя, других, то есть тем выше его когнитивная сложность. Преодоление механизма когнитивной защиты субъекта связывается в этой теории с выявлением множества индивидуальных конструктов и исследованием его структуры.

Кроме изложенных выше психологических аспектов извлечения знаний, существуют еще и лингвистические или, скорее, психолингвистические проблемы, возникающие в процессе извлечения знаний. Взаимодействие инженера по знаниям и эксперта - это прежде всего общение, а общение подразумевает использование языка.

В психолингвистике различают язык, используемый во внутренней речи, и коммуникативный язык, предназначенный непосредственно для общения. Естественный язык, используемый во внутренней речи, в общем случае не тождествен непосредственно коммуникативному языку, а является его модификацией [Шалютин, 1985]. Поскольку внутренняя речь есть общение с самим собой, постольку она максимально свернута, минимально избыточна, содержит не полные предложения, а лишь некоторые вехи, по которым движется мысль. Хотя множество слов, которые в этом случае используются, относится к лексике обычного языка, грамматический его строй существенно отличается от строя коммуникативной речи. С точки зрения обычной грамматики во внутренней речи происходят нарушения правил и норм языка.

Достижения лингвистики и психолингвистики последнего времени показывают, что языковая форма мысли от момента ее зарождения и до внешнего выражения претерпевает ряд модификаций, выражающих различные фазы порождения речи. Американский лингвист 3. Харрис высказал мысль, позднее детально разработанную Н. Хомским (1962) в концепции порождающих грамматик, о том, что синтаксическая система языка содержит исходную подсистему, по отношению к которой все другие подсистемы являются производными. Эта подсистема включает ограниченное множество синтаксических типов "ядерных предложений". С точки зрения Хомского, любое правильное предложение языка может быть получено из таких предложений посредством конечного множества трансформационных правил, то есть правил преобразования "ядерных" структур в произносимые и понимаемые предложения.

Ряд психологов считают операции трансформирования "ядерных предложений" в более сложные реальным психологическим процессом, что подтверждается психологическими экспериментами [Шалютин, 1985]. Таким образом, чем дальше от внешнего выражения находится мысль, тем в меньшей степени в ее языковой оболочке используется богатство форм естественного языка.

Косвенными доказательствами существования "ядерных" структур, связанных со структурой мысли более тесно, чем формы коммуникативной речи, служат данные исторической грамматики, генетической психологии, а также патопсихологии. Структуры более сложные, чем "ядерные", позднее возникают в историческом развитии языков и раньше разрушаются при ряде расстройств речи [Шалютин, 1985].

О существенных различиях между коммуникативным языком и языком мыслительного процесса говорит и то, что люди обычно запоминают и вспоминают не словесное выражение, а содержание мыслей. Как правило, человек выражает усвоенную им мысль в новой словесной оболочке.

Как отмечал Л. С. Выготский (1956), внутренняя речь характеризуется спрессованностью содержаний, предикативностью и сокращенностью фонетических элементов. "Речь без слов", по Л. С. Выготскому, - это предел, из которого исходят языковые формы мысли.

Наличие доречевых форм мышления связывается рядом авторов с функционированием подсознательного [Шалютин, 1985]. В этой сфере преобладает континуальный тип мышления, противостоящий дискретности языка. Языковая система подсознательных фрагментов мыслительного процесса характеризуется значительно более высоким уровнем расплывчатости элементов и связей, которые эту систему образуют. Движение к речевому выражению мысли представляет собой процесс нарастающей "дискретизации". Следовательно, выражение знания в словах не полностью и не совсем адекватно отражает внутреннее богатство знания, которым оперирует субъект. Поэтому индивид, воспринимающий высказывание, не имеет в прямой форме в тексте полностью мыслей говорящего. Лингвистическое понимание текста и высказываний еще не гарантирует адекватной интерпретации его смысла. Тем самым в процессе общения инженера по знаниям с экспертом происходит существенная потеря информации.

Подведем некоторые итоги. Приведенный выше обзор психологических исследований позволяет отметить ряд эффектов или явлений, наблюдаемых при работе с экспертами и оказывающих существенное влияние на процесс извлечения знаний. К ним относятся:

· существование так называемых "молчаливых", или подразумеваемых, знаний (tacit knowledge), обусловленное тремя причинами: неосознаваемым характером экспертного умения, трудностью процесса вербализации и недооценкой экспертом важности некоторых знаний, используемых при решении профессиональных задач;

· особая форма организации знаний экспертов по сравнению с организацией знаний новичков;

· достаточно высокая скорость решения экспертом профессиональных задач;

· ограниченность объема кратковременной памяти человека;

· некорректность некоторых способов получения информации (присвоение весов признаков, присвоение вероятностей и т. д.);

· существование механизма когнитивной защиты;

· наличие психолингвистических проблем, в частности, тот факт, что различие между коммуникативным языком и языком мыслительного процесса приводит в ходе общения инженера по знаниям с экспертом к значительной потере информации.

Вот почему процесс извлечения экспертных знаний традиционно считается "узким местом", а преодоление описанных выше проблем является актуальной задачей для создания систем, основанных на знаниях.

В связи с этим в рамках инженерии знаний (и в теоретическом плане, и в результате практических разработок конкретных систем) создаются так называемые методы извлечения знаний (knowledge elicitation techniques), представляющие собой некоторую процедуру или форму взаимодействия инженера по знаниям с экспертом.

Описание "ручных" (неавтоматизированных) методов, компьютерных методов, а также так называемых систем извлечения знаний содержится во многих работах [Gammack, Young, 1984; Hart, 1986; Волков, Ломнев, 1989; Boose, 1989; Гаврилова, Червинская, 1992].

Одни техники опираются на теоретические основы и являются частью методологии процесса построения интеллектуальных систем, другие носят характер эвристических приемов и рецептов, основываются на здравом смысле, эмпирическом опыте или психологических исследованиях и не предполагают определенной методологии разработки интеллектуальных систем. Одна часть методов создавалась в рамках таких научных дисциплин, как психологическая диагностика, системный анализ, принятие решений, анализ данных, и впоследствии была "взята на вооружение" в инженерии знаний, другая специально разрабатывалась для поддержки извлечения знаний.

Существуют разные классификации методов извлечения знаний [Leplat, 1986; Olson, Rueter, 1987; Волков, Ломнев, 1989; Гаврилова, Червинская, 1992; Осипов, 1993].

Методы извлечения экспертных знаний имеют прямую аналогию с методами психологической диагностики. В обоих случаях необходимо получить от человека некоторую информацию, касающуюся содержания его интеллектуальной деятельности и личностных отношений (что и составляет ядро профессионального опыта), в том числе и ту, что самим человеком не осознается.

В соответствии с этим методы извлечения знаний можно разделить на неэкспериментальные и экспериментальные. Неэкспериментальные методы предполагают свободную форму взаимодействия инженера по знаниям с экспертом, не имеющую строгой процедурной регламентированности, жестко заданной структуры действий и воспроизводимости, характерных для эксперимента. Экспериментальные методы предполагают активную деятельность инженера по знаниям (как экспериментатора) по созданию определенных регламентированных условий (например, стандартизованного стимульного материала), предъявлению этих условий эксперту с последующим формализованным анализом полученных результатов. Главная особенность экспериментальных методов состоит в воспроизводимости процедуры и условий эксперимента для получения релевантной поставленным задачам информации.

К неэкспериментальным методам в инженерии знаний относятся клинико-психологические методы медицинской психодиагностики [Червинская, Щелкова, 2002] а именно:

· беседа (или диалог);

· наблюдение;

· неструктурированное интервью;

· анализ продуктов деятельности.

Учитывая специфику инженерии знаний, к неэкспериментальным методам извлечения знаний можно добавить:

· лекции;

· мозговой штурм;

· круглый стол.

Беседа, или свободный диалог, - это метод извлечения знаний в форме беседы инженера по знаниям и эксперта, в которой нет жесткого регламентированного плана и вопросника.

Под наблюдениемпонимается способ взаимодействия, при котором инженер по знаниям находится непосредственно рядом с экспертом во время его профессиональной деятельности или имитации этой деятельности и фиксирует (на бумаге, с помощью диктофона или видеомагнитофона) все действия эксперта, его реплики и объяснения. Непременное условие этого метода - невмешательство в работу эксперта.

Неструктурированное интервью - это специфическая форма общения инженера по знаниям и эксперта, в которой инженер по знаниям в свободной форме задает эксперту серию заранее подготовленных вопросов с целью извлечения знаний о предметной области.

Под анализом продуктов деятельности человека подразумевается анализ протоколов "мыслей вслух" и так называемые текстологические методы.

Протоколирование "мыслей вслух" предполагает, что эксперт может прокомментировать свои действия и решения, а также объяснить, как это решение было найдено, то есть продемонстрировать всю цепочку своих рассуждений. Во время рассуждений эксперта все его слова, весь "поток сознания" протоколируется (с помощью современных средств записи) инженером по знаниям, при этом важными являются даже паузы, междометия и интонация [Гаврилова, Червинская, 1992]. Иногда этот метод называют "вербальные отчеты" [Моргоев, 1988].

В группу текстологических методоввходят методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, руководств по использованию методик и других носителей профессиональных знаний.

Лекцияявляется самым старым способом передачи знаний. Смысл этого метода заключается в том, чтобы сформулировать эксперту тему и задачу лекции. Например, тема цикла лекций "Постановка диагноза "Воспаление легких"", тема конкретной лекции "Рассуждения по анализу рентгенограмм", задача - научить слушателей по перечисленным экспертом признакам ставить диагноз воспаления легких и делать прогноз. При такой постановке опытный лектор может заранее структурировать свои знания и ход рассуждений. От инженера по знаниям в этой ситуации требуется лишь грамотно законспектировать лекцию и в конце задать необходимые вопросы [Гаврилова, Червинская, 1992].

Мозговой штурм - это один из наиболее распространенных методов раскрепощения и активизации творческого мышления. Впервые этот метод был использован в 1939 году в США А. Осборном как способ получения новых идей в условиях запрещения критики. Замечено, что боязнь критики мешает творческому мышлению, поэтому основная идея штурма - это отделение процедуры генерирования идей в замкнутой группе специалистов от процесса анализа и оценки высказанных идей.

Метод круглого стола (термин заимствован из журналистики) предусматривает обсуждение какой-либо проблемы из выбранной предметной области, в котором принимают участие с равными правами несколько экспертов. Обычно вначале участники высказываются в определенном порядке, а затем переходят к живой, свободной дискуссии. Число участников дискуссии колеблется от трех до пяти - семи.

К экспериментальным методам относятся:

· полуструктурированное интервью;

· структурированное интервью;

· анкетирование;

· опросники;

· сортировка карточек;

· экспертные игры;

· компьютерные экспертные игры;

· семантический дифференциал;

· репертуарные решетки;

· субъективное шкалирование;

· иерархическая классификация;

· манипулирование компьютерными графическими образами.

Полуструктурированное интервьюпредполагает то, что инженер по знаниям заранее из каких-либо соображений готовит для эксперта серию вопросов, обычно нацеленных на получение определенных элементов знаний (например, понятий, взаимосвязей, критериев классификации и пр.). Так, например, для извлечения подразумеваемых знаний в рамках проекта, создаваемого в одном из американских университетов (Brigham Young University), было разработано полуструктурированное интервью, основанное на методах из области этнографии и когнитивной антропологии. Этнографические техники были адаптированы и успешно использованы для извлечения знаний и построения экспертных систем [Wood, Ford, 1993].

Структурированное интервью - формализованный способ извлечения знаний, отличающийся от неструктурированного интервью наличием готового сценария. Впервые структурированное интервью было использовано при создании системы TEIRESIAS (диагностика инфекционных заболеваний крови) [Davis, 1982] для формирования новых правил и понятий. Для этих целей в систему были заложены следующие возможности: в случае неудачи система в режиме консультации (или тестирования) предлагала эксперту выделить причины неудачи. Полученный в результате контекст позволял системе сформировать некоторые "ожидания", характеризующие содержание нового правила, которое должно вводиться экспертом для устранения неудачи.

Анкетированиепредставляет собой наиболее стандартизированный способ опроса. В этом случае инженер по знаниям заранее составляет вопросник или анкету, размножает ее и использует для опроса одного или нескольких экспертов. Обычно этот метод используется в том случае, когда в разработке экспертной системы принимают участие несколько экспертов.

Опросник - это формализованный метод извлечения знаний, когда эксперта просят ответить на ряд закрытых вопросов, предполагающих выбор одного из вариантов ответов. Фактически этот метод ничем не отличается от аналогичных методов, используемых в психодиагностике.

Сортировка карточек - это метод, при котором эксперту дается задание разложить стимульный материал в соответствии с его пониманием семантических связей между элементами этого материала.

Понятие экспертной игры, или игры с экспертами [Гаврилова, Червинская, 1992], в целях извлечения знаний восходит к трем источникам - это деловая игра, широко используемая при подготовке специалистов [Комаров, 1989]; диагностическая игра в медицинских задачах [Гельфанд и др., 1988]; и компьютерные игры, все чаще применяемые в обучении [Пажитнов, 1987].

С появлением персональных компьютеров связано появление игр эксперта с компьютером. В системе ЭСКИЗ [Осипов, 1993] реализован набор "игр" для приобретения знаний, являющихся той или иной модификацией принципа репертуарных решеток. Например, в игре "Регата" объектами, для которых эксперт должен указать различающие признаки, являются яхты. В ходе гонок яхты должны проходить в пролеты мостов; в один и тот же пролет проходят яхты, соответствующие сходным по какому-либо атрибуту объектам.

С помощью известного в психодиагностике метода субъективного шкалированияопределяется степень сходства (или различия) для каждой пары понятий, выделенных в рассматриваемой предметной области, с целью выявления групп с похожими характеристиками. Он используется в основном для понятий, которые могут быть представлены в n-мерной системе координат.

В инженерии знаний этот метод используется следующим образом.

1. Строится матрица сходства (различия) каждой пары понятий. Для этого используются вопросы к эксперту типа: "Какова степень сходства между понятиями А и В?".

2. Полученная матрица сходства (расстояний между понятиями) обрабатывается с помощью формальных математических процедур, чаще всего с помощью метода многомерного шкалирования, возможно применение факторного и кластерного анализов.

3. Строится графическое изображение понятий в пространстве выделенных шкал (понятия обычно отображаются в виде точек).

4. Выявляются группы понятий со сходными характеристиками (то есть определяются группы точек с наибольшей плотностью).

Следует отметить, что главная проблема при использовании этого метода часто состоит не в отсутствии средств формальной обработки (в настоящее время используются десятки методик) [Величковский, 1982], а в их избыточности и трудностях последующей интерпретации результатов.

Метод семантического дифференциала [Osgood et al., 1957] предполагает, что исследуемый объект (стимул), в качестве которого может выступить слово, понятие, символ в вербальной или невербальной форме, оценивается путем соотнесения с одной из фиксированных точек градуированной шкалы, заданной полярными по значению признаками. Полученные на основании процедуры семантического дифференциала количественные данные изображаются в виде семантического пространства или семантического профиля исследуемого понятия. По этим данным можно также определить, насколько значение того или иного понятия ближе (дальше) к значению другого понятия. Степень такого подобия или различия представляется количественно по семантическому расстоянию между понятиями в семантическом пространстве. Подробнее описание метода семантического дифференциала представлено в п. 2.2.

Метод репертуарных решеток [Франселла, Баннистер, 1987] предназначен для изучения индивидуально-психологических конструктов, опосредующих восприятие при анализе личностного смысла понятий. Описание конструкта, по Дж. Келли, удобнее всего провести в биполярных понятиях, при этом конструкт становится тем, "чем два или несколько объектов сходны между собой и, следовательно, отличны от третье го объекта или нескольких других объектов". Биполярность конструктов дает возможность получить матрицу взаимосвязей между ними, позволяющую провести различные процедуры латентного анализа для выявления структуры смысловых параметров, лежащих в основе восприятия экспертом данной предметной области. В отличие от метода семантического дифференциала, техника репертуарных решеток направлена на выявление "собственных", индивидуальных, создаваемых непосредственно в ходе эксперимента конструктов. При этом основная цель - реконструкция индивидуальной системы смысловых единиц (понятий), используемых экспертом, для установления взаимосвязей между понятиями в конкретной предметной области.

Метод репертуарных решеток очень популярен благодаря тому, что не только снимает когнитивную защиту экспертов, позволяет устанавливать латентные взаимосвязи между понятиями, но и также из-за того, что лежит в основе огромного количества функционирующих программных продуктов. Наиболее известной реализацией этого метода является система AQUINAS, с помощью которой было построено до 300 баз знаний [Kitto, Boose, 1987].

Процедура иерархической классификации [Крисевич и др., 1990] начинается с оценки экспертом субъективной близости понятий, построению матрицы расстояний между ними и заканчивается иерархическим представлением понятий предметной области.

Данный способ был использован фирмой Lockheed (США) для построения АСУ на базе экспертного опыта. Эксперту предъявляли пары предметов, и он оценивал их субъективную близость. В результате получали представление опыта в виде дерева [Manheimer, Kanarski, 1986]. После этого был использован алгоритм ADDTREE, предназначенный для иерархической кластеризации [Sattath, Tversky, 1977].

Манипулирование компьютерными графическими образами стало возможно благодаря бурному развитию компьютерных технологий, опирающихся на графику, в частности на когнитивную графику. Смысл этого метода заключается в том, что эксперту предъявляются некоторые графические образы и дается возможность, в самом общем случае, построить нечто, что он посчитает нужным. Далее компьютер автоматически извлекает из этого необходимую информацию. Например, такой способ был использован на практике для извлечения опыта эксперта в области лечения онкологических заболеваний. Эксперт должен был манипулировать на экране дисплея изображениями, с помощью которых создается схема лечения заболевания. Система OPAL, на основе введенного экспертом дерева, получает правила. Считается, что после нескольких минут обучения эксперт сам сможет работать с системой OPAL. За счет использования OPAL срок наполнения базы знаний сокращается от нескольких месяцев до нескольких часов [Walton, Musen, Combs et al., 1987].

В заключении раздела отметим, что экспериментальные методы бывают "ручные" и компьютерные. Реализация на компьютере некоторых методов, например метода полуструктурированного интервью, достаточна проблематична. Часть методов может иметь двойную реализацию. Например, метод сортировки карточек, как правило, используется ручным способом, хотя те же карточки могут быть предложены эксперту для сортировки и в компьютерном варианте. Большая часть методов, особенно заимствованная из анализа данных (многомерное шкалирование, иерархическая классификация), предполагает компьютерную реализацию.