Monday, September 5, 2016

Bucardo: Multi-Master PostgreSQL Cluster!
на примере Zabbix




     Создаем мульти-мастер PostgreSQL кластер на примере двух нод PostgreSQL сервера в FreeBSD Jail's. Кластеризовать будем базу данных Zabbix мониторинга, который будет также жить на двух разных хостах внутри FreeBSD Jail's.
     Итак, разберемся, что у нас что, и зачем мы это делаем...
1. Bucardo - грубо говоря, это скрипт на Perl, реализующий потоковую репликацию между PostgreSQL серверами, и дарящий нам счастливую возможность иметь 48 мастер нод PostgreSQL. Единственная тонкость, что все реплицируемые таблицы должны иметь Primary key, иначе таблицу не удастся включить в кластерную репликацию: Bucardo home site
     Собственно, реализации multi-master репликаций для PostgreSQL без Primary key существуют, например BDR, но он еще не дошел до стабильной стадии, так что пока я его не пробовал. Но в целом, весьма интересная разработка. Когда BDR появится в портах, я его обязательно попробую ;)
2. FreeBSD и Jails - ну а как иначе... Все сервисы должны жить изолированно из соображений безопасности и просто удобства. FreeBSD со своими Jails подходит для этого идеально. Опять же, ZFS пока в нормальном виде только во FreeBSD, в Linux ZFS еще не на такой стадии интеграции, хотя я и на Linux уже активно использую ZFS.
3. Zabbix - его я выбрал чисто для примера. Это не обязательно делать для Zabbix. Вы можете таким образом кластеризовать что угодно! Например можно кластеризовать Asterisk, заставив его хранить экстеншены и все основные настройки в PgSQL. Но и Zabbix, если у вас огромная сеть с кучей устройств для мониторинга,  будет не лишним кластеризовать в multi-master варианте :) Разнеся его по разным серверам и сегментам сети.

     Создаем свой первый jail для PostgreSQL:

     Я использую для управления джейлами QJail. Вполне удобная утилита, "очеловечивающая" работу с джейлами.

     Итак, поехали (все операции выполняются парно на двух серверах!!!):

1. Если джейлы вы раньше не использовали, но у вас есть ZFS, то первым делом перед инициализацией джейлов надо создать датасет для них:

     zfs create -o compression=lz4 system/usr/jails

     По поводу компрессии: lz4 очень быстрый алгоритм, потому его можно использовать везде по-умолчанию. Потерь по производительности нет, а всякие текстовые файлы и логи сжимаются практически в два раза. Учитывая то, что данные перед записью на диск сжимаются - растет скорость записи на диск - в общем одни плюсы.

2. Инициализируем jails' при помощи qjail:

     qjail install

3. Создаем датасет для jail с PostgreSQL:

     zfs create system/usr/jails/pgsql0X (pgsql 01 на первой ноде, pgsql02 на второй ноде)

4. А теперь самый важный датасет! Датасет для данных PostgreSQL.

     zfs create -p -o mountpoint=/usr/jails/pgsql0X/usr/local/pgsql -o recordsize=8K system/usr/jails/pgsql0X/pgsql (X=1 для первой ноды и X=2 для второй)

     Параметр recordsize=8K задан для того, что бы размер блока файловой системы и размер блока который пишет PostgreSQL совпадали. PostgreSQL пишет как раз блоками по 8Kb.

5. Создаем Jail:

     qjail create -4 em0|192.168.0.X,lo1|127.0.1.1 pgsql0X (X=1 для первой ноды и X=2 для второй)

     Интерфейс можно использовать основной, к которому у вас подключена локальная сеть, тогда вам не придется ничего больше делать, только открыть доступ в файрволле. Или можно использовать LoopBack - это более секьюрно, но тогда вам потребуется настроить NAT в PF или IPFW, для доступа к джейлу.
     Так же создаем LoopBack для самого джейла, что бы нам было проще взаимодействовать с Bucardo и PostgreSQL: lo1.
     Создать lo1 в системе очень просто, для этого нужно в файл /etc/rc.conf добавить: cloned_interfaces="lo1"
     И сделать: service netif cloneup
     После чего данный интерфейс появится в системе.

6. Джейл создали, теперь идет в /usr/local/etc/qjail.config, ищем там файл с конфигурацией нашего jail (pgsql01 или pgsql02) и вписываем туда параметр "allow.sysvipc;". Без этой опции PostgreSQL не сможет стартовать с ругательствами на невозможность выделения shared memory.

7. После этого запускаем jail:

     qjail start pgsql0X

8. После старта джейла можем действовать двумя путями.Через jexec (это правильнее) или через qjail console (что удобнее на первом этапе):

     jexec pgsql0X pkg update
     jexec pgsql0X pkg install postgresql94-server postgresql94-client postgresql94-plperl p5-Bucardo

9. Если вы планируете несколько PostgreSQL в нескольких джейлах в пределах одного сервера, то нужно перед запуском PgSQL сменить UID его пользователя на другой. UID пользователей pgsql должен различаться во всех джейлах, иначе у вас будут проблемы.

     vipw
     ee /etc/groups

10. После чего переписать права на все, что принадлежало этому юзеру:

     chown -R /usr/local/etc/pgsql

          или

     find / -uid 70 -exec sh -c 'chown pgsql {} \+'
     find / -gid 70 -exec sh -c 'chown :pgsql {} \+'

11. Активируем запуск PostgreSQL и Bucardo:

     sysrc postgresql_enable=YES
     sysrc bucardo_enable=YES (Только на одном из серверов, на втором Bucardo должен быть выключен до тех пор, пока на первой ноде будет работать Bucardo)

12. Далее инициализируем DB:

     service postgresql initdb
   
13. Меняем параметр отвечающий за прослушиваемые интерфейсы в postgresql.conf:

     listen_addresses = '*'

14. Меняем по вкусу pg_hba.conf, но не забываем разрешить полный доступ ко всем базам для пользователя bucardo c IP первого и второго джейлов:
  • # TYPE  DATABASE        USER            ADDRESS                 METHOD
    local   all             all                                     trust
    host    all             all             127.0.1.1/32            trust
    host    all             all             ::1/128                 trust
    host    all             bucardo         127.0.1.1/32            trust
    host    all             bucardo         <ip pg jail 01>/32      trust
    host    all             bucardo         <ip pg jail 02>/32      trust
15. Стартуем PostgreSQL:

      service postgresql start

16. Если PostgreSQL стартовал, подключаемся к нему по адресу LoopBack:

     psql -U pgsql -h 127.0.1.1 postgres

17. Меняем пароль для юзера pgsql и создаем все необходимое для Bucardo:
ALTER USER pgsql WITH PASSWORD 'PASSWORD';
CREATE USER bucardo WITH PASSWORD 'PASSWORD' SUPERUSER;
CREATE DATABASE bucardo WITH OWNER bucardo;
\q
18. Наконец-то переходим к Bucardo:

     Запускаем bucardo install и задаем все нужные параметры:
Current connection settings:
1. Host:           127.0.1.1
2. Port:           5432
3. User:           pgsql
4. Database:       bucardo
5. PID directory:  /var/run/bucardo
Enter a number to change it, P to proceed, or Q to quit: 
19. Жмем 'P' to proceed и все готово! Bucardo наполнит свою базу и можно переходить к конфигурированию Bucardo и базы Zabbix.

20. Создаем юзера и базу для zabbix:
CREATE USER zabbix WITH PASSWORD 'PASSWORD';
CREATE DATABASE zabbix OWNER zabbix;
21. Добавляем в pg_hba.conf записи разрешающие коннект к базе zabbix юзера zabbix из джейлов с заббиксом:
  • host    zabbix          zabbix    <ip zabbix jail 01>/32  md5
    host    zabbix          zabbix    <ip zabbix jail 02>/32  md5
  service postgresql reload

22. Наполняем базы zabbix. *.sql файлы берем из соседнего джейла с zabbix, который вы создали самостоятельно:
cat schema.sql | psql -U zabbix -h <PgSQL.HOST> zabbix
cat images.sql | psql -U zabbix -h <PgSQL.HOST> zabbix
cat data.sql | psql -U zabbix -h <PgSQL.HOST> zabbix
23. И вот тут выплывает мое упоминание про Primary key для всех реплицируемых таблиц... Дело в том, что в схеме заббикса некоторые таблицы не имеют Primary key, и тут нам надо решить, что мы собираемся делать. Тут у нас два варианта:

     A. Сделать, что бы всегда работал только один Zabbix, тогда нам нужно создать primary key для таблиц которые его не имеют:
ALTER TABLE history_uint ADD PRIMARY KEY (itemid,clock);
ALTER TABLE history_str ADD PRIMARY KEY (itemid,clock);
ALTER TABLE history ADD PRIMARY KEY (itemid,clock);
     B. Сделать два работающих мастера Zabbbix, тогда нам нужно исключить таблицы куда пишется статистика и всякое разное заббиксом на основе данных от мониторимых узлов. Вот список этих таблиц:
alerts
escalations
events
history
history_log
history_str
history_text
history_uint
trends
trends_uint

     Итак, конфигурим bucardo! Все что мы делали до этого, мы делали на двух нодах. Теперь же делаем все на первой!

25. Добавляем наши базы в Bucardo:
bucardo add database zabbix_pg01 dbname=zabbix dbhost=127.0.1.1 dbuser=bucardo dbpass=PASSWORD
bucardo add database zabbix_pg02 dbname=zabbix dbhost=<IP pgsql02> dbuser=bucardo dbpass=PASSWORD
bucardo list database
# Database: zabbix_pg01  Status: active  Conn: psql -U bucardo -d zabbix -h 127.0.1.1
# Database: zabbix_pg02  Status: active  Conn: psql -U bucardo -d zabbix -h <ip pgsql02>

25. Создаем группу баз. Source означает, что из этой базы будут браться измененные данные. Если вы напишете target, то в этом случае получите master-slave кластер.
bucardo add dbgroup zabbix_servers zabbix_pg01:source zabbix_pg02:source
# Created dbgroup "zabbix_servers"
# Added database "zabbix_pg01" to dbgroup "zabbix_servers" as source
# Added database "zabbix_pg02" to dbgroup "zabbix_servers" as source
26. Добавляем к репликации все:
bucardo add table all db=zabbix_pg01 relgroup=zabbix_herd
bucardo add sequences all db=zabbix_pg01 relgroup=zabbix_herd
27. А вот теперь, если вы выбрали второй вариант, с двума работающими Zabbix, нужно выкинуть из репликации некоторые таблицы, чтоб избежать конфликтов:

     bucardo remove table public.xxx

     bucardo remove table public.alerts
     bucardo remove table public.escalations
     bucardo remove table public.events
     bucardo remove table public.history
     bucardo remove table public.history_log
     bucardo remove table public.history_str
     bucardo remove table public.history_text
     bucardo remove table public.history_uint
     bucardo remove table public.trends
     bucardo remove table public.trends_uint

И независима от вашего варианта, исключаем базу dbversion, так как она не имеет ключа, и в целом нам не нужна ;)

     bucardo remove table public.dbversion


28. Добавляем теперь собственно синхронизацию:
bucardo add sync zabbix_sync herd=zabbix_herd dbs=zabbix_servers
29. Все, теперь у нас больше не будет конфликтов. Перезапускаем, или просто запускаем Bucardo. Предварительно убедившись, что оба PostgreSQL работают :)

     service bucardo start

30. Смотрим статус Bucardo:
bucardo status zabbix_sync
======================================================================
Last good                       : Aug 31, 2016 19:43:04 (time to run: 1s)
Rows deleted/inserted/conflicts : 1,864 / 1,864 / 1,140
Last bad                        : Aug 31, 2016 19:43:03 (time until fail: 1s)
Sync name                       : zabbix_sync
Current state                   : Good
Source relgroup/database        : zabbix_herd / zabbix_pg01
Tables in sync                  : 105
Status                          : Stalled
Check time                      : None
Overdue time                    : 00:00:00
Expired time                    : 00:00:00
Stayalive/Kidsalive             : Yes / Yes
Rebuild index                   : No
Autokick                        : Yes
Onetimecopy                     : No
Post-copy analyze               : Yes
Last error:                     : 
======================================================================
31. Тестируем! Можно попробовать менять содержимое таблицы users. На одной ноде что-то изменили, тут же поглядели на второй - измениться должно и там. Вот например:

  • Node1 psql -U zabbix -h 127.0.1.1 zabbix:
zabbix=> select userid,alias,surname from users;
 userid | alias |    surname
--------+-------+---------------
      1 | Admin | Administrator
      2 | guest |
(2 rows)

zabbix=> insert into users (userid,alias) values (3,'test');
INSERT 0 1

zabbix=> select userid,alias,surname from users;
 userid | alias |    surname
--------+-------+---------------
      1 | Admin | Administrator
      2 | guest |
      3 | test  |
(3 rows)
  • Node2 psql -U zabbix -h 127.0.1.1 zabbix:
zabbix=> select userid,alias,surname from users;
 userid | alias |    surname
--------+-------+---------------
      1 | Admin | Administrator
      2 | guest |
      3 | test  |
(3 rows)

zabbix=> delete from users where userid=3;
DELETE 1
  • Node1 psql -U zabbix -h 127.0.1.1 zabbix:
zabbix=> select userid,alias,surname from users;
 userid | alias |    surname
--------+-------+---------------
      1 | Admin | Administrator
      2 | guest |
(2 rows)
Все, если вы видели изменения на обеих нодах, то у вас все получилось !;)

Главное, не запускать два Bucardo на двух нодах одновременно! Сделайте, что бы 
Bucardo работал всегда на одной, а на второй (если у вас всего две ноды) он и не нужен будет. Если у вас больше двух нод, придумайте, как поднимать второй в случае падения первой. Я для себя придумал использовать UP/DOWN скрипты на CARP интерфейсе. Если пришел карп на другую ноду, то запускается Bucardo.

     Ну собственно все ;) По-скольку статья про Bucardo и PostgreSQL, то настройка заббикса будет вашим домашним заданием ;) Опишу лишь несколько тонкостей работы:

1. Вносить новые хосты и изменять все что угодно можно на двух заббиксах.
2. Агенты должны коннектиться к двум серверам одновременно, так как статистика не реплицируется, и ее нужно откуда-то брать. В целом это fault-tolerance на уровне приложения, за что zabbix честь и хвала!

Пример конфига zabbix клиента:

     Hostname=server1
     Include=/usr/local/etc/zabbix3/zabbix_agentd.d/
     LogFile=/var/log/zabbix/zabbix_agentd.log
     PidFile=/var/run/zabbix/zabbix_agentd.pid
     Server=zabbix01.example.com,zabbix02.example.com
     ServerActive=zabbix01.example.com,zabbix02.example.com
     LogFileSize=0
     Timeout=30

3. History, events и т.д. не реплицируются, так что конфликтов репликации не будет. Из-за этого на каждом хосте будут видны только свои события. Но это не беда, так как агенты все равно все будут дублировать в оба заббикса ;)

     Ну вот и все тонкости. Не забудьте засунуть zabbix так же в джейлы, а для джейла сделать датасет, только тюнинг датасету под заббикс не нужен.
     В конфиге джейла для zabbix нужно будет включить опцию: allow.raw_sockets = "1";
В целом это негативно сказывается на безопасности, но без нее zabbix не сможет посылать ICMP.

     Обращается каждый заббикс к своему PgSQL. Т.е. у нас получаются эдакие полностью независимые серверы, при этом реплицирующиеся между собой.
     Баланс входящих между двумя заббиксами я бы сделал при помощи двух CARP IP. Один IP мастер на одном сервере, второй на другом. Если один сервер падает, то IP уходит на запасной, и тогда zabbix все равно работает незаметно для пользователя.
     Естественно DNS имя должно ссылаться на оба CARP IP сразу.
     Баланс HTTP трафика можно сделать при помощи двух Nginx с двумя upstreams или при помощи RelayD. Смысл в том, что Nginx либо RelayD имеют два дестинейшена, и даже если CARP не переехал на другой хост, а Zabbix упал, то Nginx поймет это и отфорвардит вас на другой хост. RelayD для этого имеет отличную функцию "check http", которая может не только потыкаться в порт, но и запросить URL, тем самым вы можете проверить одним запросом не только живость HTTP, но и всей системы вместе с БД.

     В целом настройка CARP и RelayD чрезвычайно проста, подробнее о настройке лоад баланса в Nginx можно найти в поисковике, а по RelayD есть отличный пример на сайте: calomel.org