Контролируемые — языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные системы классификации (УДК, ББК, классификация Дьюи).
Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги — ручной поиск.
Дескрипторные ИПЯ, а также язык ключевых слов — автоматический поиск.
Неконтролируемые — лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последнее время.
Порядок записи лексических единиц[править | править вики-текст]
Некоординируемые языки — не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).
Координируемые ИПЯ — языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.
Предкоординируемые — связи между лексическими единицами устанавливаются перед поиском.
Посткоординируемые — когда связи между лексическими единицами устанавливаются только при поиске.
43. Правовой тезаурус.
правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.
Информационно-поисковый язык. Правовой тезаурус.
Одной из важных задач правовой информатики является лингвистическое обеспечение правотворческого процесса. Право не существует вне языка.
Ст.2 Закона об информации относит к средствам обеспечения автоматизированных информационных систем также и лингвистические средства.
В системе лингвистических средств обеспечения АИПС первое место занимает информационно-поисковый язык (ИПЯ).
В широком смысле язык – это знаковая система, используемая для сбора, хранения, обработки и передачи информации.
ИПЯ – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью их последующего хранения и поиска.
ИПЯ по законодательству должен обеспечивать:
Эффективную формализацию правовых норм и нормативных актов
Высокую скорость поиска на компьютере информации
Оптимальный перевод нормативного текста с юридического языка на язык, доступный ЭВМ
Минимальный «шум», т.е. сведение к минимуму выдачу компьютером излишней информации
Полноту информационного поиска, т.е. получение всей необходимой информации для решения конкретных задач правотворчества
Любая информация для того, чтобы быть переделанной, должна соответствующим образом кодироваться, т.е. переводиться на язык специальных символов или сигналов.
Теория информационного поиска различает следующие типы ИПЯ:
Языки предметного типа – это алфавитно-предметные указатели к сборникам и отдельным нормативным актам и широко распространенные алфавитно-предметные рубрикаторы.
При использовании этого языка основная тема документа выражается одним или несколькими типовыми словами – рубриками. Например, существуют предметно-алфавитные указатели к Конституции РФ, к ГК РФ.
Язык классификационного типа – представляет собой классификатор отраслей законодательства.
Язык дескрипторного типа – обладает большой «семантической силой», т.е. способен полностью передавать смысл нормативных актов, выразить комбинацией дескрипторов (ключевое слово – объединяющее группу ключевых слов) любое понятие, характеризуются высокой степенью отражения смысла документов, наличием ключевых слов.
Дескрипторные ИПЯ делятся на:
языки, в которых не различаются логико-смысловые отношения между понятиями
языки, которые содержат в своем составе логико-смысловые отношения.
(особо) правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.
Задача – упорядочить и привести в систему лексические средства, используемые в правотворческом процессе.
В информатике тезаурус выполняет следующие функции:
используется для организации информационного поиска (информационно-поисковый тезаурус)
используется как лингвистическое средство в процессе решения правотворческих задач (полный словарь терминов, определения юридических понятий, комментарии, данные о количестве дескрипторов)
используется как средство, измеряющее смысл сообщения (тезаурус пользователя – совокупность сведений, которыми располагает пользователь)
выступает в качестве важнейшего средства поиска латентной информации
Существуют тезаурусы различных типов:
общеправовой (102 тысячи слов и словосочетаний). Сейчас не применяется.
Тезаурус, специализированный по отраслям права. (например, Eurovoc).
44. Индексирование и рубрицирование правовой информации. 45. Метризация и кодирование.
Подготовка правовой информации к машинной обработке:
метризация; кодирование; индексирование и рубрицирование.
В широком смысле под метризацией понимается описание определенной совокупностью числовых характеристик. В зависимости от того, что используется в качестве характеристик выделяют два типа метризации: а) подсчет; б) измерение.
При измерении и подсчете в качестве средства выражения используются натуральные числа. При измерении используются единицы меры.
Объектами измерения могут выступать любые предметы материального мира, обладающие любыми свойствами, которые могут быть измерены или характеризуются количественными данными.
Под метризацией правовой информации следует понимать такую процедуру ее обработки в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.
Характеристики, полученные в результате измерения, могут выражаться как в абсолютных величинах, так и в относительных.
Кодирование правовой информации – это такая операция, при которой определенные данные заменяются сокращенными условными обозначениями (цифры, числа). Обратная операция называется декодированием.
Комбинацию символов называют кодом, а количество символов, входящих в кодовую операцию называют длина кода.
Для кодирования правовой информации используется несколько способов: точечный, контурный, точечно-зональный.
Одним из видов формализации правовой информации является индексирование – это процесс отбора из текста терминов (ключевых слов), которые, по мнению специалиста – юриста, отражают основное содержание темы. Далее такие термины преобразовывают в форму информационно-поискового языка.
Рубрицирование – это процедура присвоения определенной теме нормативного акта или запроса соответствующего индекса из рубрикатора, в котором за каждой темой закреплен свой индекс.
45. Метризация и кодирование.
Метризация. В широком плане под метризацией обычно понимается описание какого-либо объекта определенной совокупностью числовых характеристик. Непосредственным объектом метризации, в частности измерения, всегда является та или иная физическая величина, обычно именуемая параметром объекта познания. Вот почему данные, получаемые в результате этой процедуры, правомерно называть параметрической или измерительной информацией.
С учетом этого под метризацией правовой информации следует понимать такую процедуру её обработки, в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.
В зависимости от того, что избирается в качестве такой характеристики и что ею желают выразить, различают два вида метризации:
- Подсчет. При подсчете в качестве средства выражения интересующих нас данных используют натуральные числа (например, указывают, что в данном регионе за названный период было выявлено 20 случаев нарушения законности при рассмотрении гражданских дел в судах).
- Измерения. При измерениях в качестве средства выражения полученных данных наряду с натуральным числом используются принятые для данного вида измерений соответствующие единицы меры.
Метризация осуществляется с помощью измерительных приборов[2].
- Кодирование. В широком смысле под кодированием понимаются операции замены каких-либо данных (например, текстовых) сокращенными условными обозначениями, как правило, цифровыми или символами [9, с. 251]. Обратная операция называется декодированием. Обычно эти операции используются как средство представления информации, характеризующей индивидуальные особенности объекта или исследуемого события, в виде последовательно расположенных символов абстрактного алфавита. Комбинацию таких символов называют кодом, а их количество, входящее в определенную кодовую комбинацию, - её длиной. Кодовые символы могут иметь различную форму. Чаще всего это цифры, буквы какого-либо алфавита, а также различного рода условные знаки и их сочетания (точка и тире, математические символы и т. п.).