The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Уведомление о недоступности ресурса, !*! Maxim Chirkov, 12-Май-05, 13:34  [смотреть все]
Из-за аппаратных проблем со SCSI контроллером, сайт opennet.ru был недоступен в c 22 часов 11 мая до 13 часов 12 мая.

В настоящее время работа ресурса полностью восстановлена. При обнаружении любых аномалий (я мог что-то пропустить и не проверить) в работе сайта просба сообщить об этом по адресу mc@tyumen.ru.

  • Уведомление о недоступности ресурса, !*! unk, 11:02 , 17-Май-05 (1)
    • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 11:51 , 17-Май-05 (2)
      >Опять контроллер?

      Второй раз за неделю (с 2003 года работало без перебоев) глючит Adaptec 2940 Ultra2 SCSI adapter, на консоль кидает "Dump Card State" и система повисает, пинги есть, TCP соединения не устанавливаются.

      Если мягко ребутнуть - пропадает один из 4 дисков, если выключить и
      включить - поднимается нормально.

      Как показало сегодняшнее зависание - это не случаность, а что-то более
      серьезное. Сейчас попрошу посмотреть на предмет перегрева, запыленности и
      состояния шлейфов.

      Интересно, что виснет когда загруженность минимальна, вечером. Такое
      впечатление, что днем перегревается, а когда начинает остывать - падает.

      До этого иногда в логе всплывали "Dump Card State" SCSI контроллера, но
      он ресетил себя и продолжал работу в нормальном режиме. Один раз после
      мягкого ребута при обновлении системы, машина не загрузилась, встав на
      этапе детекта дисков. Передергивание по питанию - помогло.

      Ковыряю последний вздох системы:
      May 16 21:19:17 opennet /kernel: opennet /kernel: ahc0:A:2: no active SCB for reconnecting target - issuing BUS DEVICE RESET
      May 16 21:19:17 opennet /kernel: opennet /kernel: (da1:ahc0:0:2:0): SCB 0x5f - timed out
      May 16 21:19:17 opennet /kernel: nread: 0, reqpage: 0, pindex: 31, pcount: 2
      May 16 21:19:17 opennet /kernel: vm_fault: pager read error, pid 55507 (cleanup)
      May 16 21:19:17 opennet /kernel: pid 55507 (cleanup), uid 0: exited on signal 11
      May 16 21:19:17 opennet /kernel: (da1:ahc0:0:2:0): Invalidating pack
      May 16 21:19:29 opennet last message repeated 7 times
      May 16 21:19:29 opennet /kernel: vm_fault: pager read error, pid 55280 (postgres)
      May 16 21:19:30 opennet /kernel: pid 55280 (postgres), uid 1005: exited on signal 11 (core dumped)
      May 16 21:19:32 opennet /kernel: (da1:ahc0:0:2:0): Invalidating pack
      May 16 21:19:34 opennet /kernel: pid 649 (postgres), uid 1005: exited on signal 6 (core dumped)

      Вырисовывается интересная картина: ругается всегда на da1 (раньше тоже на нем вылетало) и идет ругань от VM  (возможно это обусловлено, тем что на da1 база postgresql, поэтому он и вылетает по sig11). Тесты через smarttools на da1 ошибок или проблем не находят.

      • Уведомление о недоступности ресурса, !*! lavr, 12:25 , 17-Май-05 (3)
        >>Опять контроллер?
        >
        >Второй раз за неделю (с 2003 года работало без перебоев) глючит Adaptec
        >2940 Ultra2 SCSI adapter, на консоль кидает "Dump Card State" и
        >система повисает, пинги есть, TCP соединения не устанавливаются.
        >
        >Если мягко ребутнуть - пропадает один из 4 дисков, если выключить и
        >
        >включить - поднимается нормально.
        >
        >Как показало сегодняшнее зависание - это не случаность, а что-то более
        >серьезное. Сейчас попрошу посмотреть на предмет перегрева, запыленности и
        >состояния шлейфов.
        >
        >Интересно, что виснет когда загруженность минимальна, вечером. Такое
        >впечатление, что днем перегревается, а когда начинает остывать - падает.
        >
        >До этого иногда в логе всплывали "Dump Card State" SCSI контроллера, но
        >
        >он ресетил себя и продолжал работу в нормальном режиме. Один раз после
        >
        >мягкого ребута при обновлении системы, машина не загрузилась, встав на
        >этапе детекта дисков. Передергивание по питанию - помогло.
        >
        >Ковыряю последний вздох системы:
        >May 16 21:19:17 opennet /kernel: opennet /kernel: ahc0:A:2: no active SCB for
        >reconnecting target - issuing BUS DEVICE RESET
        >May 16 21:19:17 opennet /kernel: opennet /kernel: (da1:ahc0:0:2:0): SCB 0x5f - timed
        >out
        >May 16 21:19:17 opennet /kernel: nread: 0, reqpage: 0, pindex: 31, pcount:
        >2
        >May 16 21:19:17 opennet /kernel: vm_fault: pager read error, pid 55507 (cleanup)
        >
        >May 16 21:19:17 opennet /kernel: pid 55507 (cleanup), uid 0: exited on
        >signal 11
        >May 16 21:19:17 opennet /kernel: (da1:ahc0:0:2:0): Invalidating pack
        >May 16 21:19:29 opennet last message repeated 7 times
        >May 16 21:19:29 opennet /kernel: vm_fault: pager read error, pid 55280 (postgres)
        >
        >May 16 21:19:30 opennet /kernel: pid 55280 (postgres), uid 1005: exited on
        >signal 11 (core dumped)
        >May 16 21:19:32 opennet /kernel: (da1:ahc0:0:2:0): Invalidating pack
        >May 16 21:19:34 opennet /kernel: pid 649 (postgres), uid 1005: exited on
        >signal 6 (core dumped)
        >
        >Вырисовывается интересная картина: ругается всегда на da1 (раньше тоже на нем вылетало)
        >и идет ругань от VM  (возможно это обусловлено, тем что
        >на da1 база postgresql, поэтому он и вылетает по sig11). Тесты
        >через smarttools на da1 ошибок или проблем не находят.

        н-да..., в дополнение к переписке:

        - проблема в винте da1 (хотя ты бы в логах ошибки увидел...)
        - если проблема с винтом, тогда если swap на da1 то ошибки VM объясними
        - ну про то что signal11 частенько память грешит ты и сам знаешь

        Тут надо бы послушать есть звуки от диска, да... по хорошему взять бы память и диск на замену и после замены посмотреть РЕЗУЛЬТАТ, если
        все повторятся - ВСЕ это можно отсечь и думать дальше...

        Я тут интересные мысли вычитал Скота Лонга, он писал что такое бывает
        в сочетании определенных старых firmware Adaptec'ов и firmware Seagate дисков. Но это сразу бы вылезло, а у тебя уже давно работает

        • Уведомление о недоступности ресурса, !*! unk, 12:28 , 17-Май-05 (5)
          >Я тут интересные мысли вычитал Скота Лонга, он писал что такое бывает
          >
          >в сочетании определенных старых firmware Adaptec'ов и firmware Seagate дисков. Но это
          >сразу бы вылезло, а у тебя уже давно работает
          Ссылку не дадите - я что-то позже 2002 не нашел ничего на эту тему...

          • Уведомление о недоступности ресурса, !*! lavr, 17:36 , 17-Май-05 (15)
            >>Я тут интересные мысли вычитал Скота Лонга, он писал что такое бывает
            >>
            >>в сочетании определенных старых firmware Adaptec'ов и firmware Seagate дисков. Но это
            >>сразу бы вылезло, а у тебя уже давно работает
            >Ссылку не дадите - я что-то позже 2002 не нашел ничего на
            >эту тему...

            не сохранял, мельком пролистывал, использовал расширенный поиск в группах:

            http://groups.google.com/advanced_group_search?hl=ru

            стогая строка: Dump Card State поиск в группе *freebsd*

        • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 13:43 , 17-Май-05 (8)
          > -  проблема в винте da1 (хотя ты бы в логах ошибки увидел...)
          >- если проблема с винтом, тогда если swap на da1 то ошибки
          >VM объясними

          Нет, swap на другом разделе.

          >- ну про то что signal11 частенько память грешит ты и сам
          >знаешь

          По sig11 падают процессы интенсивно использующие отвалившийся da1 диск, одновременно пишется "vm_fault I/O read failure...I/O read failure". Думаю это следствие проблемы с da1, а не из-за памяти.

          Меня больше беспокоит, что виснет во время относительно низкой нагрузки на систему, никаких пиков близко ко времени краха нет, запросы к da1 идут в очень щедящем режиме, по сравнению с дневным трафиком. Без этого очень хорошо вписывается предположение о перегреве, скорее всего da1 воткнут между da0 и da2 - на первом ftp, на втором контент сайта. Т.е. они da1 сверху и снизу поджаривают :-)

          • Уведомление о недоступности ресурса, !*! lavr, 16:24 , 17-Май-05 (14)
            >> -  проблема в винте da1 (хотя ты бы в логах ошибки увидел...)
            >>- если проблема с винтом, тогда если swap на da1 то ошибки
            >>VM объясними
            >
            > Нет, swap на другом разделе.
            >
            > >- ну про то что signal11 частенько память грешит ты и сам
            > >знаешь
            >
            > По sig11 падают процессы интенсивно использующие отвалившийся da1 диск, одновременно пишется
            >"vm_fault I/O read failure...I/O read failure". Думаю это следствие проблемы с
            >da1, а не из-за памяти.

            если отлетает, то да.

            > Меня больше беспокоит, что виснет во время относительно низкой нагрузки на
            >систему, никаких пиков близко ко времени краха нет, запросы к da1
            >идут в очень щедящем режиме, по сравнению с дневным трафиком. Без
            >этого очень хорошо вписывается предположение о перегреве, скорее всего da1 воткнут
            >между da0 и da2 - на первом ftp, на втором контент
            >сайта. Т.е. они da1 сверху и снизу поджаривают :-)

            запросто. А adaptec одно или двух канальный?
            Вобщем только смена диска может подсказать дальнейшее направление поиска
            проблемы.

            • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 09:03 , 18-Май-05 (16)
              >>"vm_fault I/O read failure...I/O read failure". Думаю это следствие проблемы с
              >>da1, а не из-за памяти.
              >
              >если отлетает, то да.

              Вчера вечером опять посыпалась в лог ругань на da1, сразу запустил smartools - температура 37%. В это время был пик запросов к postgresql, вынес базу на другой диск. Ночью опять ругань в лог, как раз во время перестроения индексов поисковой системы, которые на da1 хранятся.


              >запросто. А adaptec одно или двух канальный?

              Судя по логам - одно.

      • Уведомление о недоступности ресурса, !*! unk, 12:26 , 17-Май-05 (4)
        >Как показало сегодняшнее зависание - это не случаность, а что-то более
        >серьезное. Сейчас попрошу посмотреть на предмет перегрева, запыленности и
        >состояния шлейфов.
        Скорее всего это оно. А с контроллером засада: посмотрел на pricr.ru нет таких уже...
      • Уведомление о недоступности ресурса, !*! surfer, 16:28 , 19-Май-05 (17)
        >До этого иногда в логе всплывали "Dump Card State" SCSI контроллера, но
        >он ресетил себя и продолжал работу в нормальном режиме. Один раз после
        >мягкого ребута при обновлении системы, машина не загрузилась, встав на
        >этапе детекта дисков. Передергивание по питанию - помогло.

        Скорее всего нужно менять диски. Попробуйте их проверить утилитой от Seagate:
        http://www.seagate.com/support/seatools/seatoold_reg.html
        Там есть версия в виде бутабельного ISO имиджа.

  • Уведомление о недоступности ресурса, !*! dimz, 12:50 , 17-Май-05 (6)
    >Из-за аппаратных проблем со SCSI контроллером, сайт opennet.ru был недоступен в c
    >22 часов 11 мая до 13 часов 12 мая.
    >
    >В настоящее время работа ресурса полностью восстановлена. При обнаружении любых аномалий (я
    >мог что-то пропустить и не проверить) в работе сайта просба сообщить
    >об этом по адресу mc@tyumen.ru.


    Вчера, 16 мая около восьми-девяти утра по киевскому и сегодня в то-же время www.opennet.ru снова не отвечал. Попытался послать письмо по адресу, указанному в постинге-не получилось :-( Почтовик выдал такую бяку:

    <mc@tyumen.ru>: host mail.tyumen.ru[217.195.208.34] said: 550 Service
        unavailable; Client host [213.179.230.109] blocked using rbl.tyumen.ru;
        Network blocked by spam_auto_checker (in reply to RCPT TO command)>

    Что это еще за фокус? Приходится общаться через форум.

    • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 13:58 , 17-Май-05 (9)
      >    Network blocked by spam_auto_checker (in reply to RCPT TO command)>
      > Что это еще за фокус?

      У вас давно эта сетка ? Она у нас в черном списке сеток с особо высокой активностью спама. При занесении, робот по RIPE базе пропускает IP стран СНГ, похоже, что сетка в черный список попала из-за того, что раньше на ней dialup висел.


      • Уведомление о недоступности ресурса, !*! dimz, 14:17 , 17-Май-05 (10)
        >У вас давно эта сетка ? Она у нас в черном списке
        >сеток с особо высокой активностью спама. При занесении, робот по RIPE
        >базе пропускает IP стран СНГ, похоже, что сетка в черный список
        >попала из-за того, что раньше на ней dialup висел.

        У меня она с июля 2003 года. Насколько помню, этот сегмент раньше висел за какой-то буржуйской конторой. Потом его отдали в руки Укртелекома. Но мой ip нигде не светился со спамом-я сам спамеров постоянно баню :-) Тем более, у меня выделенка.

  • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 16:32 , 19-Май-05 (18)
    Поменяли диск. В нем ли была проблема покажет время.
    • Уведомление о недоступности ресурса, !*! Maxim Chirkov, 12:38 , 23-Май-05 (19)
      >Поменяли диск. В нем ли была проблема покажет время.

      Время показало - второй претендент на замену SCSI контроллер :-(

      May 21 08:34:19 opennet /kernel: swap_pager: indefinite wait buffer: device: #da/0x20001, blkno: 352, size: 4096
      May 21 08:35:34 opennet /kernel: SCB_LUN[0x0] SCB_TAG[0xff]
      May 21 08:35:34 opennet /kernel: 21 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0xc7]:(TWIN_CHNLB)
      May 21 08:35:34 opennet /kernel: SCB_LUN[0x0] SCB_TAG[0xff]
      May 21 08:35:34 opennet /kernel: 22 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0xc7]:(TWIN_CHNLB)
      May 21 08:35:34 opennet /kernel: SCB_LUN[0x0] SCB_TAG[0xff]
      May 21 08:35:34 opennet /kernel: 23 SCB_CONTROL[0x64]:(DISCONNECTED|TAG_ENB|DISCENB) SCB_SCSIID[0xc7]:(TWIN_CHNLB)
      May 21 08:35:34 opennet /kernel: SCB_LUN[0x0] SCB_TAG[0x25]
      May 21 08:35:34 opennet /kernel: 24 SCB_CONTROL[0x64]:(DISCONNECTED|TAG_ENB|DISCENB) SCB_SCSIID[0xc7]:(TWIN_CHNLB)
      .........
      May 21 08:35:35 opennet /kernel: Pending list:
      May 21 08:35:35 opennet /kernel: 27 SCB_CONTROL[0x62]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7] SCB_LUN[0x0]
      May 21 08:35:35 opennet /kernel: 127 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7] SCB_LUN[0x0]
      May 21 08:35:35 opennet /kernel: 18 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7] SCB_LUN[0x0]
      May 21 08:35:35 opennet /kernel: 15 SCB_CONTROL[0x62]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7] SCB_LUN[0x0]

      Насколько я понимаю, SCSIID 7 - это сам контроллер.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру