Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация словаря зависит от многих факторов — предметной области, в которой будет использоваться ИПС, характера интересов пользователей, степени их подготовки и т. д.
Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Принято использовать два принципа — использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.
Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность.
Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.
Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т. д.