Полное описание платформы Docsvision 5.5
Полное описание платформы
Скачать

Сервис поиска позволяет осуществлять поиск по содержимому (тексту) и атрибутам объектов системы электронного документооборота (файлам, задачам и др.) Сервис поддерживает использование различных поисковых систем в качестве поисковой машины.

В настоящий момент поддерживаются 2 реализации: поисковый сервис Microsoft SQL Server и сервис на базе СПО Elasticsearch.

  • Cтандартные инструменты полнотекстового поиска MicrosoftSQL-сервера не требуют отдельного физического сервера и работают в контексте MicrosoftSQL-сервиса. Обычно используются в относительно небольших внедрениях.
  • Поиск на базе службы Elasticsearch позволяет полноценно масштабировать поисковый сервис и открывает большие возможности по настройке интеллектуального поиска.

Сервис обеспечивает быстрый и удобный поиск документов:

  • Полнотекстовый поиск – по текстовому содержимому объектов системы и файлов.
  • Атрибутивный поиск – по стандартизированным полям (например, реквизиты, вид документа, дата, штрихкод, регистрационный номер, включая вхождение части значения и т.д.)
  • Классификационный поиск – поиск с использованием различных тематических классификаторов, рубрикаторов, каталогов и справочников.
  • Фасетный поиск – по записям справочников иерархических классификаторов.

Сервис поддерживает возможность настроить фильтрацию при поиске (по типам документам, папкам, типам файлов, размеру и др.) и возможность постраничного вывода информации (с сохранением сортировки). Также, при вводе значений в поисковое поле, система может предлагать пользователю варианты для выбора, «подтягивая» значения из справочников Docsvision.

Реализация поиска на базе службы Elasticsearch также даёт возможность вынести полнотекстовое индексирование и поиск на отдельный сервер, что позволяет реализовать функции поиска по содержимому и атрибутам объектов и файлов, сохраняя высокую производительность системы.

Развивая систему и кастомизируя интерфейс под потребности пользователей, можно настроить многофакторные фильтры для наиболее гибкого поиска и быстрого получения релевантного результата в выдаче. Это особенно востребовано в проектах с акцентом на построение удобной ECM-системы с большим количеством разнообразного корпоративного контента, сохраняемого в различных форматах.

Поисковый сервис, реализованный на базе технологии Elasticsearch, позволяет непрерывно масштабировать функции поиска, выполнять сложный полнотекстовый и развивать интеллектуальный поиск, который обучается в процессе взаимодействия пользователей с системой, анализирует и обрабатывает статистику их действий.

Elasticsearch — это полнотекстовый поисковый движок с открытым исходным кодом, написан на Java и использует библиотеку Lucene. Прекрасно ориентирован на работу с документами, понимает разные запросы (простые, сложные, структурированные) и различные типы данных (числа, текст, геоданные и др). После индексации БД позволяет выполнять поиск, сортировать и фильтровать сами данные, а не строки данных в столбцах. Документы системы представлены в виде объектов JSON, технология поддерживается большинством языков программирования и стала уже стандартным форматом для NoSQL. Официальные клиенты доступны на Java, NET (C#), Python, Groovy, JavaScript, PHP, Perl, Ruby.

Служба предназначена для реализации сложных поисков. В базе данных Elasticsearch таблицы называются индексами, а процесс загрузки документов – индексированием. Сервис индексации поддерживает доступ к внешним хранилищам данных, при этом данные корректно индексируются и релевантно передаются в результаты поиска. Технология обеспечивает высокую скорость выдачи результатов: по индексам производится быстрая выборка данных из базы и выводится пользователю.

Elasticsearch обеспечивает агрегацию информации, сбор сущностей, проведение анализа, выявление закономерностей – это база для развития интеллектуального поиска, который адаптируется под пользователя и упрощает ему максимально быстрое получение нужного результата.

Скорость индексирования новых данных – большое преимущество Elasticsearch. Как только в системе появляется новый объект (карточка, документ, задача, комментарий и т.д.), он сразу попадает в очередь на индексирование, а сам сервис с небольшим тайм-аутом его обрабатывает в онлайн-режиме.

При росте объёма данных можно провести масштабирование (кластеризацию). При этом Elasticsearch демонстрирует высокую отказоустойчивость: механизм обнаружения проблем позволяет быстро выявить сбои в кластере, локализовать их и устранить.

Многие крупные компании используют технологию Elasticsearch для поиска по огромным массивам данных, поскольку она позволяет оперировать петабайтами информации, обрабатывая десятки миллиардов документов в индексах, и показывает высокую скорость ответа.