вс, 02/26/2023 - 17:37 By seoroad

Полнотекстовый поиск Apache Solr

Apache Solr — это профессиональный полнотекстовый поисковый сервер, созданный на Java под эгидой Apache Foundation.

Практически у каждой CMS есть встроенный поиск. Например, у CMS 1С-Битрикс, Drupal, WordPress и др. поиск требует минимальных настроек и работает сразу из коробки.

Вместе с тем, встроенный поиск имеет ряд существенных недостатков:

  1. Поиск только полнотекстовый, без возможности фильтровать или сокращать результаты из коробки.
  2. Поисковая система в значительной степени зависит от способности базы данных выполнять поисковые запросы.
  3. Поисковые индексы хранятся в базе данных, что увеличивает ее размер.
поиск solr и mysql

 

Каждый поисковый запрос становится уникальным запросом к базе данных. Каждый поисковый запрос конкурирует с каждым другим запросом к базе данных, необходимым для извлечения контента и отображения вашего сайта.

Активное использование поиска приводит сначала к замедлению скорости сайта, а затем к 502 и 504 ошибкам и делает сайт недоступным, поскольку база данных становится перегруженной.

504 ошибка

Соответственно растет неудовлетворенность пользователей и как следствие процент отказов. Недоступность сайта для поисковых систем также понижает его рейтинги в поисковой выдаче. Все это приводит к упущенной выгоде.

Apache Solr – это настраиваемая поисковая платформа с открытым исходным кодом, использует библиотеку поиска Apache Lucene. Apache Solr вырос из более раннего проекта Apache Lucene, поэтому при чтении документации Solr или установке Solr мы регулярно видим это название. Lucene — основная технология поиска, на которой работает Solr. Lucene можно рассматривать как программную библиотеку, а Solr — как полноценное приложение.

Solr является серверным приложением, может размещаться на общедоступном оборудовании, таком как сервер на базе Linux, вместе с тем - это серверная служба. Он не предназначен для предоставления пользовательского интерфейса для проведения поиска.

Функции Solr

  1. Расширенные возможности полнотекстового поиска
  2. Оптимизирован для большого трафика
  3. Основанные на стандартах открытые интерфейсы — XML, JSON и HTTP
  4. Комплексные интерфейсы администрирования
  5. Простой мониторинг
  6. Высокая масштабируемость и отказоустойчивость
  7. Гибкость и адаптируемость с простой настройкой
  8. Индексирование почти в реальном времени
  9. Расширяемая архитектура плагинов

Полнотекстовый поиск Solr - основные преимущества

  • Фасетный поиск делает это решение практически идеальным для сайтов электронной коммерции Богатый набор функций полнотекстового поиска: различные подсказчики, функции выделения, проверка орфографии и др.

  • Документы с разнообразным содержанием. Solr — одна из немногих поисковых систем, которая может читать документы в разных форматах, включая PDF, Word, XML или простой текст. Это идеально подходит для проектов, в которых необходимо просмотреть большое количество файлов PDF или Word на веб-сайте (включая контракты, резюме, учебные материалы, электронные книги и т. д.).полнотекстовый поиск solr

  • Это высоконадежное, масштабируемое и отказоустойчивое решение, обеспечивающее распределенное индексирование, репликацию и запросы с балансировкой нагрузки, автоматическую отработку отказа и восстановление, централизованную настройку и многое другое.

Все это достигается с помощью Apache Solr с высокой производительностью, очень хорошим использованием системных ресурсов и совместимостью с PHP, Python, XML и JSON.

Установка Apache Solr в Ubuntu 20.04/18.04 и Debian 10/9

установка Apache Solr в Ubuntu 20.04/18.04 и Debian 10/9

 

Предпосылки

Пользователь с привилегиями root

Перед началом процесса желательно сначала полностью обновить систему. Для этого откройте терминал или подключитесь к своему серверу по SSH.

Затем выполните следующие команды:

apt update

 

apache solr

 

Шаг 1:Изначально Apache Solr требует от нас установки Java.

 

Проверяем установлен ли Java

java -version
java -version

 

Если нет такого результата, устанавливаем Java

apt install -y default-jdky
сервер solr

При появлении запроса введите Y это требуется для продолжения установки.

Шаг 2. Как правило, Apache Solr недоступен в основных репозиториях Ubuntu и Debian. Нам нужно скачать и установить его вручную. Мы можем найти выпуски Apache Solr на официальном сайте.

Apache Solr

На момент написания последняя стабильная версия Apache Solr — 8.9.0.

Загружаем архив

cd /opt
wget https://archive.apache.org/dist/lucene/solr/8.9.0/solr-8.9.0.tgz

 

поисковый сервер solr

затем извлекаем архив:

tar -xvf solr-8.9.0.tgz

Теперь мы продолжим и запустим скрипт установщика службы Apache Solr для настройки среды Solr.

bash solr-8.9.0/bin/install_solr_service.sh solr-8.9.0.tgz
 установщик службы Apache Solr

 

Наш вывод может выглядеть так: Служба Solr установлена.

Настройте конфигурацию запуска Solr в /etc/default/solr.in.sh

Затем, чтобы проверить статус, мы запускаем:

systemctl status solr.service
systemctl status solr.service

 

Убедитесь, что служба настроена на запуск при загрузке. Выполните следующую команду, чтобы включить запуск службы Apache Solr при загрузке системы.

systemctl enable solr

После установки Solr создает системного пользователя и группу с именем solr. Он также установлен под /opt/solr.

Теперь Solr должен быть запущен и работать, вы можете убедиться в этом, проверив статус службы Solr.

service solr stop

service solr start

service solr status
1

 

Доступ к веб-интерфейсу Solr в браузере

По умолчанию Solr прослушивает порт 8983/TCP на всех интерфейсах.

ss -altnp | grep 8983

Таким образом, если брандмауэр работает, откройте этот порт, чтобы разрешить внешний доступ к Sorl.

Solr порт 8983

 

Затем вы можете перейти в браузер и получить доступ к веб-интерфейсу Solr по адресу http://IP:8983 или http://IP:8983/solr/.

 

Замените IP на IP-адрес вашей системы Solr или разрешимое имя хоста.

веб интерфейс Solr

 

Добавить комментарий

Простой текст

  • HTML-теги не обрабатываются и показываются как обычный текст
  • Строки и абзацы переносятся автоматически.
  • Адреса веб-страниц и email-адреса преобразовываются в ссылки автоматически.
CAPTCHA
4 + 2 =
Решите эту простую математическую задачу и введите результат. Например, для 1+3, введите 4.