forum.opennet.ru - "Solaris 9, SunFire V240 упал." (18)

форумы

помощь

поиск

регистрация

майллист

вход/выход

слежка

"Solaris 9, SunFire V240 упал."

Форумы OpenNET: Виртуальная конференция (Public)
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Solaris 9, SunFire V240 упал."
Сообщение от Inhum on 04-Дек-08, 16:07
Внезапно сервер перестал отвечать на запросы. Даже из LOM не пускал в консоль. Перегрузил по poweroff, poweron. Потом в /var/adm/messages обнаружил: scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): Cmd (0x657e948) dump for Target 0 Lun 0: scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): cdb=[ 0x2a 0x0 0x0 0xc1 0x86 0x34 0x0 0x0 0x10 0x0 ] scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): pkt_flags=0x4000 pkt_statistics=0x60 pkt_state=0x7 scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): pkt_scbp=0x0 cmd_flags=0x1860 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0): Disconnected tagged cmd(s) (1) timeout for Target 0.0 genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0 glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018] scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0): got SCSI bus reset genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0): SCSI transport failed: reason 'reset': retrying command scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0): SCSI transport failed: reason 'timeout': retrying command fw: [ID 957691 kern.notice] threshold = 10 last message repeated 8 times scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): Cmd (0xb5f0f80) dump for Target 0 Lun 0: scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): cdb=[ 0x2a 0x0 0x4 0x3d 0x2e 0xe5 0x0 0x0 0x1 0x0 ] scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): pkt_flags=0xc000 pkt_statistics=0x60 pkt_state=0x7 scsi: [ID 365881 kern.info] /pci@1c,600000/scsi@2 (glm0): pkt_scbp=0x0 cmd_flags=0x1860 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0): Disconnected tagged cmd(s) (1) timeout for Target 0.0 genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0 glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018] scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0): got SCSI bus reset genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset fw: [ID 957691 kern.notice] threshold = 10 last message repeated 9 times fw: [ID 957691 kern.notice] threshold = 10 last message repeated 1 time scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0): Error for Command: write(10) Error Level: Retryable scsi: [ID 107833 kern.notice] Requested Block: 71118565 Error Block: 71118565 scsi: [ID 107833 kern.notice] Vendor: HITACHI Serial Number: 0346S1M1MA scsi: [ID 107833 kern.notice] Sense Key: Unit Attention scsi: [ID 107833 kern.notice] ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd1): Error for Command: write(10) Error Level: Retryable scsi: [ID 107833 kern.notice] Requested Block: 12682804 Error Block: 12682804 scsi: [ID 107833 kern.notice] Vendor: HITACHI Serial Number: 0346S1L6NP scsi: [ID 107833 kern.notice] Sense Key: Unit Attention scsi: [ID 107833 kern.notice] ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0 fw: [ID 957691 kern.notice] threshold = 10 last message repeated 83 times Может кто-нибудь объяснить, что произошло? Может стоит предпринять какие-то меры. Сейчас в лог никакие ошибки не пишутся. Спасибо.
Высказать мнение \| Ответить \| Правка \| Cообщить модератору

Оглавление

Solaris 9, SunFire V240 упал., rstone, 17:56 , 04-Дек-08, (1)
Solaris 9, SunFire V240 упал., zd3n, 18:44 , 04-Дек-08, (2)

Solaris 9, SunFire V240 упал., Inhum, 07:22 , 05-Дек-08, (3)

Solaris 9, SunFire V240 упал., zd3n, 07:51 , 05-Дек-08, (4)

Solaris 9, SunFire V240 упал., Inhum, 09:39 , 05-Дек-08, (5)

Solaris 9, SunFire V240 упал., zd3n, 09:50 , 05-Дек-08, (6)

Solaris 9, SunFire V240 упал., Inhum, 13:01 , 05-Дек-08, (7)

Solaris 9, SunFire V240 упал., rstone, 16:08 , 08-Дек-08, (8)

Solaris 9, SunFire V240 упал., Inhum, 16:42 , 08-Дек-08, (9)

Solaris 9, SunFire V240 упал., zd3n, 06:37 , 09-Дек-08, (10)

Solaris 9, SunFire V240 упал., Inhum, 10:47 , 12-Дек-08, (11)

Solaris 9, SunFire V240 упал., ReSeT, 13:25 , 12-Дек-08, (12)

Solaris 9, SunFire V240 упал., Inhum, 15:35 , 15-Дек-08, (16)

Solaris 9, SunFire V240 упал., rstone, 15:53 , 14-Дек-08, (13)

Solaris 9, SunFire V240 упал., rstone, 16:03 , 14-Дек-08, (14)

Solaris 9, SunFire V240 упал., kolayshkin, 22:55 , 14-Дек-08, (15)
Solaris 9, SunFire V240 упал., Mike_A, 12:42 , 16-Янв-09, (17)

Solaris 9, SunFire V240 упал., Mike_A, 11:54 , 21-Янв-09, (18)

Сообщения по теме [Сортировка по времени | RSS]

1. "Solaris 9, SunFire V240 упал."

Сообщение от rstone on 04-Дек-08, 17:56

Вроде отвалился диски HITACHI .
Вроде  не смертельно , так как    Error Level: Retryable .
НО ,  если никто не трогал кабели/диски/электричество  - тогда   это есть нехорошо и диски переходят в разрад "подозрительных"
Не претендую на истину в последней инстанции :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "Solaris 9, SunFire V240 упал."

Сообщение от zd3n (ok) on 04-Дек-08, 18:44

prtdiag -v
статус по дискам что пишет?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 05-Дек-08, 07:22

>
>prtdiag -v
>статус по дискам что пишет?
System Configuration: Sun Microsystems  sun4u Sun Fire V240
System clock frequency: 167 MHZ
Memory size: 2GB
==================================== CPUs ====================================
               E$          CPU                  CPU     Temperature
CPU  Freq      Size        Implementation       Mask    Die   Amb.  Status                                                                                   Location
---  --------  ----------  -------------------  -----   ----  ----  ------                                                                                   --------
  0  1503 MHz  1MB         SUNW,UltraSPARC-IIIi   3.2     -     -    online                                                                                   MB/P0
  1  1503 MHz  1MB         SUNW,UltraSPARC-IIIi   3.2     -     -    online                                                                                   MB/P1
================================= IO Devices =================================
Bus   Freq      Slot +  Name +
Type  MHz       Status  Path                          Model
----  ----  ----------  ----------------------------  --------------------
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1f,700000/network@2
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1f,700000/network@2,1
pci    33           MB  isa/su (serial)
                  okay  /pci@1e,600000/isa@7/serial@0,3f8
pci    33           MB  isa/su (serial)
                  okay  /pci@1e,600000/isa@7/serial@0,2e8
pci    33           MB  pci10b9,5229 (ide)
                  okay  /pci@1e,600000/ide@d
pci    66           MB  scsi-pci1000,21 (scsi-2)
                  okay  /pci@1c,600000/scsi@2
pci    66           MB  scsi-pci1000,21 (scsi-2)
                  okay  /pci@1c,600000/scsi@2,1
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1d,700000/network@2
pci    66           MB  pci108e,1648 (network)
                  okay  /pci@1d,700000/network@2,1
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@0/network@0
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@0/network@1
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@4/network@2
pci    66         PCI0  pci100b,35 (network)          SUNW,pci-qge
                  okay  /pci@1d,700000/pci@1/pci@4/network@3
pci    33            7  isa/rmc-comm-rmc_comm (seria+
                  okay  /pci@1e,600000/isa@7/rmc-comm@0,3e8
pci    33           10  usb (usb)
                  okay  /pci@1e,600000/usb

============================ Memory Configuration ============================
Segment Table:
-----------------------------------------------------------------------
Base Address       Size       Interleave Factor  Contains
-----------------------------------------------------------------------
0x0                1GB               1           BankIDs 0
0x1000000000       1GB               1           BankIDs 16
Bank Table:
-----------------------------------------------------------
           Physical Location
ID       ControllerID  GroupID   Size       Interleave Way
-----------------------------------------------------------
0        0             0         1GB             0
16       1             0         1GB             0
Memory Module Groups:
--------------------------------------------------
ControllerID   GroupID  Labels         Status
--------------------------------------------------
0              0        MB/P0/B0/D0
0              0        MB/P0/B0/D1
1              0        MB/P1/B0/D0
1              0        MB/P1/B0/D1
============================ Environmental Status ============================
Fan Speeds:
---------------------------------------------
Location       Sensor          Status   Speed
---------------------------------------------
F0             RS              okay     6081 rpm
F1             RS              okay     6367 rpm
F2             RS              okay     6136 rpm
MB/P0/F0       RS              okay     16463 rpm
MB/P0/F1       RS              okay     16071 rpm
MB/P1/F0       RS              okay     16875 rpm
MB/P1/F1       RS              okay     16463 rpm
PS0            FF_FAN          okay
PS1            FF_FAN          okay
Temperature sensors:
-----------------------------------------------------------------------------
Location       Sensor         Temperature  Lo   LoWarn  HiWarn    Hi   Status
-----------------------------------------------------------------------------
MB/P0          T_CORE           52C       -     -        84C     89C   okay
MB/P1          T_CORE           47C       -     -        84C     89C   okay
MB             T_ENC            22C        -3C    5C     40C     48C   okay
PS0            FF_OT            -         -     -       -        -     okay
PS1            FF_OT            -         -     -       -        -     okay
----------------------------------------------------------------------
Current sensors:
----------------------------------------------------------------------
Location  Sensor          Current    Lo     LoWarn  HiWarn   Hi    Status
----------------------------------------------------------------------
MB         FF_SCSI       -         -       -       -       -   okay
PS0        FF_OC         -         -       -       -       -   okay
PS1        FF_OC         -         -       -       -       -   okay
------------------------------------------------------------------------
Voltage sensors:
------------------------------------------------------------------------
Location   Sensor       Voltage     Lo     LoWarn  HiWarn   Hi    Status
------------------------------------------------------------------------
MB/P0      V_CORE          1.46V       -     1.26V   1.54V     -   okay
MB/P1      V_CORE          1.46V       -     1.26V   1.54V     -   okay
MB         V_VTT           1.24V       -     1.17V   1.43V     -   okay
MB         V_GBE_+2V5      2.51V       -     2.25V   2.75V     -   okay
MB         V_GBE_CORE      1.21V       -     1.08V   1.32V     -   okay
MB         V_VCCTM         2.54V       -     2.25V   2.75V     -   okay
MB         V_+2V5          2.49V       -     2.34V   2.86V     -   okay
MB         V_+1V5          1.51V       -     1.35V   1.65V     -   okay
MB/BAT     V_BAT           2.97V       -     2.70V     -       -   okay
PS0        P_PWR             -         -       -       -       -   okay
---------------------
Keyswitch:
---------------------
Location       State
---------------------
SYSCTRL        NORMAL
--------------------------------------------------
Led State:
--------------------------------------------------
Location   Led                   State       Color
--------------------------------------------------
MB         ACT                   on          green
MB         SERVICE               off         amber
MB         LOCATE                off         white
PS0        ACT                   on          green
PS0        SERVICE               off         amber
PS0        OK2RM                 off         blue
PS1        ACT                   on          green
PS1        SERVICE               off         amber
PS1        OK2RM                 off         blue
HDD0       SERVICE               off         amber
HDD0       OK2RM                 off         blue
HDD1       SERVICE               off         amber
HDD1       OK2RM                 off         blue
HDD2       SERVICE               off         amber
HDD2       OK2RM                 off         blue
HDD3       SERVICE               off         amber
HDD3       OK2RM                 off         blue
=========================== FRU Operational Status ===========================
-------------------------
Fru Operational Status:
-------------------------
Location        Status
-------------------------
MB/SC           okay
PS0             okay
HDD0            present
HDD1            present
PS1             okay
================================ HW Revisions ================================
ASIC Revisions:
-------------------------------------------------------------------
Path                   Device           Status             Revision
-------------------------------------------------------------------
/pci@1f,700000         pci108e,a801     okay               4
/pci@1e,600000         pci108e,a801     okay               4
/pci@1c,600000         pci108e,a801     okay               4
/pci@1d,700000         pci108e,a801     okay               4
System PROM revisions:
----------------------
OBP 4.16.2 2004/10/04 18:22 Sun Fire V210/V240,Netra 240
OBDIAG 4.16.2 2004/10/04 18:23

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "Solaris 9, SunFire V240 упал."

Сообщение от zd3n (ok) on 05-Дек-08, 07:51

Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах периодически ошибки чтения/записи проскакивали.
Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).
Попробуй
#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 05-Дек-08, 09:39

>Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах
>периодически ошибки чтения/записи проскакивали.
>Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках
>слайс отваливался(хотя некоторые слайсы были в нормальном состоянии).
>
>Попробуй
>#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком)
>если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.
>
Ну вот так проверил:
cat /dev/dsk/c1t0d0s0 > /dev/null
Без ошибок.
Судя по логу, в этом слайсе проблема была.
Толкьо не получилось весь диск таким образом проверить.
Вот так, без указания слайса не правильно?
cat /dev/dsk/c1t0d0 > /dev/null

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "Solaris 9, SunFire V240 упал."

Сообщение от zd3n (ok) on 05-Дек-08, 09:50

>[оверквотинг удален]
>
>Без ошибок.
>
>Судя по логу, в этом слайсе проблема была.
>
>Толкьо не получилось весь диск таким образом проверить.
>
>Вот так, без указания слайса не правильно?
>
>cat /dev/dsk/c1t0d0 > /dev/null
Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс указывает на весь диск.
Если данные на винте не нужны, можно попробовать забить нулями, тем самым проверив на запись.
#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 05-Дек-08, 13:01

>Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс
>указывает на весь диск.
>Если данные на винте не нужны, можно попробовать забить нулями, тем самым
>проверив на запись.
>#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)
Нет, данные конечно нужны.
Есть ли резон беспокоится? Может как-то детальней проверить можно?
Просто опыта в администрировании серверов SUN мало. :(

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "Solaris 9, SunFire V240 упал."

Сообщение от rstone on 08-Дек-08, 16:08

Ну вот ,  понаписали всякого :)
Раз :
cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
Два :
cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
Три :
Можно подергать  диски bonnie или iozone , но это тоже нифига  не докажет ;)
Вывод :
В мусор.
Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  , а то были преЦенДенТы :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

9. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 08-Дек-08, 16:42

>Ну вот ,  понаписали всякого :)
>Раз :
>cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
>Два :
>cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
Хм. Если ошибки физически, то есть ли разница читать/писать последовательно или как-то по другому?
А если логические, то должны были исправится.
>Три :
>Можно подергать  диски bonnie или iozone , но это тоже нифига
> не докажет ;)
Что такое bonnie и iozone?

>Вывод :
>В мусор.
>
>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>а то были преЦенДенТы :)
Кабеля никто не трогал.
Реально ли на основе запсис из лога, которую я привел, можно сделать вывод, что хард уже не пригоден для использования?
После перезагрузки пока ошибок больше не было.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

10. "Solaris 9, SunFire V240 упал."

Сообщение от zd3n (ok) on 09-Дек-08, 06:37

>>Ну вот ,  понаписали всякого :)
>>Раз :
>>cat /dev/zero > /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .
>>Два :
>>cat  /dev/dsk/c1t0d0s2 >  /dev/null - Нифига не полная проверка , т.к читает последовательно .
>
А я и не говорю что это полная проверка, это действие позволяет быстро оценить, стоит ли оставлять данный винт на сервере....
При таких ошибках, на Sun серверах техподдержка меняет винты сразу... А то чревато последствиями....
Для десктопа конечно это не аргумент.
Если нужна была бы полная проверка, то брать утилиту диагностики с сайта производителя винта и тестить....
>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>>а то были преЦенДенТы :)
Ну кто на серверах просто так кабели дёргает?... К ним годами иногда не подходят....

>Реально ли на основе запсис из лога, которую я привел, можно сделать
>вывод, что хард уже не пригоден для использования?
Не факт, зависит от условий тех поддержки.....

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

11. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 12-Дек-08, 10:47

Сегодня снова сервер так же "завис".
После перезагрузки в /var/adm/messages:
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x00) 0x00000098.00000000 *Bad* 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x10) 0x00000000.00000000 0x00000000.00000000
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 441589 kern.info] [AFT2] D$Tag (0x44:2) 0x40036457 D$state Valid D$utag 0xc011 D$snp 0x40036456
Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 550578 kern.info] [AFT2] PAtag 0x000.364568a0 PAsnp 0x000.364568a0 VAutag 0x0468a0
Dec 12 09:56:58 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 09:59:44 last message repeated 17 times
Dec 12 09:59:47 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:01:01 last message repeated 42 times
Dec 12 10:01:01 fw: [ID 154754 kern.notice]
Dec 12 10:01:01 FW-1: stopping debug messages for the next 59 seconds
Dec 12 10:02:24 fw: [ID 241504 kern.notice] FW-1: lost 45 debug messages
Dec 12 10:02:24 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:06:20 last message repeated 26 times
Dec 12 10:06:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:12:43 last message repeated 31 times
Dec 12 10:13:09 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:19:34 last message repeated 37 times
Dec 12 10:19:49 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:26:23 last message repeated 54 times
Dec 12 10:26:25 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:32:47 last message repeated 52 times
Dec 12 10:33:32 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:39:40 last message repeated 34 times
Dec 12 10:39:52 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:46:13 last message repeated 31 times
Dec 12 10:46:28 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:53:02 last message repeated 36 times
Dec 12 10:53:15 fw: [ID 957691 kern.notice] threshold = 10
Dec 12 10:59:34 last message repeated 34 times
Dec 12 11:00:04 fw: [ID 957691 kern.notice] threshold = 10

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

12. "Solaris 9, SunFire V240 упал."

Сообщение от ReSeT on 12-Дек-08, 13:25

>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
Над этой строчкой в логе больше нету строк с [AFT2] ?
А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то изменяли/устанавливали?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

16. "Solaris 9, SunFire V240 упал."

Сообщение от Inhum on 15-Дек-08, 15:35

>>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0
>
>Над этой строчкой в логе больше нету строк с [AFT2] ?
Нет, выше нет таких строк.
>
>А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то
>изменяли/устанавливали?
Да в том то и дело, что ничего не делали.
Работал себе спокойно 200 с лишним дней и перестал.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

13. "Solaris 9, SunFire V240 упал."

Сообщение от rstone on 14-Дек-08, 15:53

>>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество"  ,
>>>а то были преЦенДенТы :)
>
>Ну кто на серверах просто так кабели дёргает?... К ним годами иногда
>не подходят....
Кто  дергает ?
Ну например  крупногабаритный обслуживающий персонал  компании 'солнечная шелезяка' :)
Или уборщица .
Или техники кондиционерного оборудования - они кстати любят ведра подставлять под капающий  кондиционер , а потом их нечаянно роняют и имееют кууууучу удовольствия :)
Особливо весело когда такое ведро на storage выливается (  реальный случай в оооочень крупной компании ) .

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

14. "Solaris 9, SunFire V240 упал."

Сообщение от rstone on 14-Дек-08, 16:03

Кстати , можно попробовать ( после бута или из стоп-а  )  :
ok> setenv auto-boot? false
ok> setenv diag-switch? true
ok> setenv diag-level max
ok> setenv diag-device disk
ok> reset
Посмотреть  , может чего   и глюкнет .
! все это будет бежать  минут 10-15  , а может и до 20 .
Потом все вернуть назад :
ok> setenv auto-boot? true
ok> setenv diag-switch? false

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

15. "Solaris 9, SunFire V240 упал."

Сообщение от kolayshkin (??) on 14-Дек-08, 22:55

>[оверквотинг удален]
> glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
>  got SCSI bus reset
> genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service
>still available
> genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
>  SCSI transport failed: reason 'reset': retrying command
> scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
>  SCSI transport failed: reason 'timeout': retrying command
Очень велика вероятность того, что помирает диск /pci@1c,600000/scsi@2/sd@0,0 , тот кторый в HDD0 (скорее всего контролер). Retryeble ошибки вызваны ресетом шины, и ни каких проблемах не говрят. Если есть поддержка на сервер или он еще на гарантии, то лучше обратится в сервис. А противном случае мониторить консоль на предмет ошибок.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

17. "Solaris 9, SunFire V240 упал."

Сообщение от Mike_A on 16-Янв-09, 12:42

Имею ОЧЕНЬ похожую картину.
Саляра 8я, Netra 240
Я научился это ронаять - СТАБИЛЬНО!
Все просто, всего лишь просматриваю содержимое записи на ленточке:
ph2> mt -f /dev/rmt/0n status
HP DAT-72 tape drive:
   sense key(0x0)= No Additional Sense   residual= 0   retries= 0
   file no= 0   block no= 0
ph2> tar -tvf /dev/rmt/0n
-rw-rw-rw-   0/1   264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Connected command timeout for Target 1.0
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Target 1 disabled wide SCSI mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       Target 1 reverting to async. mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2       got SCSI bus reset
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2       SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2       SCSI transport failed: reason 'timeout': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2       SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:05 ph2       Error for Command: write                   Error Level: Retryable
Jan 16 09:57:05 ph2 scsi:         Requested Block: 24259                     Error Block: 24259
Jan 16 09:57:05 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:05 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:05 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2       got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:06 ph2       Error for Command: write(10)               Error Level: Retryable
Jan 16 09:57:06 ph2 scsi:         Requested Block: 68267440                  Error Block: 68267440
Jan 16 09:57:06 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:06 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:06 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2       got SCSI bus reset
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:06 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2       got SCSI bus reset
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:07 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2       got SCSI bus reset
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:08 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:09 ph2 vxdmp: NOTICE: Reached DMP Threshold IO TimeOut (0) for dev 276/0xc
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:09 ph2       Error for Command: read(10)                Error Level: Retryable
Jan 16 09:57:09 ph2 scsi:         Requested Block: 11097664                  Error Block: 11097664
Jan 16 09:57:09 ph2 scsi:         Vendor: HITACHI                            Serial Number: 0603PJP2LK
Jan 16 09:57:09 ph2 scsi:         Sense Key: Unit Attention
Jan 16 09:57:09 ph2 scsi:         ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2       got SCSI bus reset
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:09 ph2       auto request sense failed (reason=reset)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:10 ph2       Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
-rw-rw-rw-   0/1       74 Jan 11 00:16 2009 /export/home/backup/backup.log
Jan 16 09:57:10 ph2    got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
panic
SC Alert: CRITICAL ALARM is set
[cpu1]/thread=2a10007dd20: Failfast: Aborting because "fed" died 35 seconds ago.
000002a10007d4a0 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+60 (3000517a800, 3, 0, 7840e85c, 2a10007d6a0, 1000ba8c)
  %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007d550 cl_runtime:__0f5CosNsc_syslog_msgDlogiTBPCce+1c (30004de4b20, 3, 0, 7840e85c, 7840e5a0, 1041c3f8)
  %l0-3: 00000000100074b0 000000000000000a 000000000000000a 000000001000a408
  %l4-7: 000003000006e288 000002a10248f7a4 0000000000000000 000002a10001f910
000002a10007d600 cl_comm:__0fHff_implPstop_node_panicv+ac (7840e628, 782e99dc, 300010cd2c8, 782e99dc, 0, 0)
  %l0-3: 0000000010116660 0000000000000016 000000000000000a 000002a100385d20
  %l4-7: 0000000000000003 0000000000000002 0000000000000000 000002a10001f9c0
000002a10007d6b0 cl_comm:__0fHff_implNunit_timedoutv+ac (300010cd368, 300010cd2c8, 300010cd388, 1041c3f8, 1, 1041c380)
  %l0-3: 0000000010045cb0 0000000000000000 0000000000010000 000002a100117d20
  %l4-7: 0000030001c27fc8 0000030000012400 0000030001c27ea8 0000030001c27ea0
000002a10007d760 cl_comm:__0fQff_callout_tableTper_tick_processingvT+f0 (3000005d411, 5cd0de, 7840e3e8, 7840e400, 7840e4f0, 300010cd
388)
  %l0-3: 00000000782ea388 00000000783ffd88 000003000013d3a8 0000000000000001
  %l4-7: 0000000000000000 0000000000000000 0000000000000000 000003000013ca90
000002a10007d820 cl_comm:__0fNff_admin_implWsc_per_tick_processing65Nff_admin_implQcallout_caller_t+84 (3000005d410, 3759e4c91c21, 3
000005d388, 0, 5, 3000005e0c0)
  %l0-3: 000000007813b754 000000007842953a 000003000013d3a8 000000007fffffff
  %l4-7: 00000000781c1cd0 000002a10248f60d 0000000000000000 000003000013ca90
000002a10007d8d0 genunix:clock+464 (1046ec00, 0, 0, 0, 0, 0)
  %l0-3: 0000000000000000 0000000000000400 000002a10000fd20 000000001041c380
  %l4-7: 0000000000000001 0000000000000000 000000001041cb60 0000000000000000
000002a10007d9a0 genunix:cyclic_softint+a4 (1041c380, 3000005d928, 1, 7, 300004b54c8, 10079968)
  %l0-3: 000003000005d948 00000000005cc97c 0000000000000000 00000300004b54d8
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007da60 unix:cbe_level10+8 (0, 803, 1041c380, 2a10007dd20, 10060, 1000ba8c)
  %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
  %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
syncing file systems... done
dumping to /dev/dsk/c1t0d0s1, offset 2577989632
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
        Resetting scsi bus, got incorrect phase from (0,0)
... (длиная  портьянка таких же 2 строк)
WARNING: /pci@1c,600000/scsi@2 (glm4):
        got SCSI bus reset
SC Alert: CRITICAL ALARM is set
SC Alert: SC Request to XIR Host due to Watchdog
ERROR: error-reset-cleanup: Externally Initiated Reset has occurred.
panic[cpu1]/thread=2a10007dd20: sync initiated
dump aborted: please record the above information!
rebooting...
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
XIR/Watchdog Reset
Executing Power On Self Test
0>
0>@(#) Sun Fire[TM] V210/V240,Netra[TM] 240 POST 4.17.1 2005/04/11 14:43
       /export/delivery/delivery/4.17/4.17.1/post4.17.0/Fiesta/enxs/integrated  (root)
0>Copyright й 2005 Sun Microsystems, Inc. All rights reserved
  SUN PROPRIETARY/CONFIDENTIAL.
  Use is subject to license terms.
0>OBP->POST Call with %o0=00000800.01014000.
0>Diag level set to MAX.
0>Verbosity level set to NORMAL.
0>Start Selftest.....
0>CPUs present in system: 0 1
0>Test CPU(s)....Done
0>Interrupt Crosscall....Done
0>Init Memory....Done
0>PLL Reset....Done
0>Init Memory....Done
0>Test Memory....Done
0>Test CPU Caches....Done
0>Functional CPU Tests....Done
0>IO-Bridge Tests....Done
0>INFO:
0>      POST Passed all devices.
0>
0>POST: Return to OBP.
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
Configuring system memory & CPU(s)
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc.  All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.

Running diagnostic script obdiag/normal
Testing /pci@1e,600000/ide@d
Testing /pci@1e,600000/isa@7/rtc@0,70
Testing /pci@1c,600000/scsi@2
Testing /pci@1c,600000/scsi@2,1
Testing /pci@1e,600000/isa@7/serial@0,2e8
Testing /pci@1e,600000/isa@7/serial@0,3f8

Rebooting with command: boot
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc.  All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.
Rebooting with command: boot
Boot device: disk  File and args:
SunOS Release 5.8 Version Generic_117350-22 64-bit
Copyright 1983-2003 Sun Microsystems, Inc.  All rights reserved.
Hardware watchdog enabled
Starting VxVM restore daemon...
VxVM starting in boot mode...
Jan 16 09:59:10 vxvm:vxconfigd: Detaching plex rootvol-01 from volume rootvol
Jan 16 09:59:11 vxvm:vxconfigd: System boot disk does not have a valid rootvol plex
Jan 16 09:59:11 vxvm:vxconfigd: Please boot from one of the following disks:
Jan 16 09:59:11 vxvm:vxconfigd:         DISK MEDIA      DEVICE          BOOT COMMAND
Jan 16 09:59:11 vxvm:vxconfigd:         rootmirr_2      c1t1d0s2        boot vx-rootmirr_2
Jan 16 09:59:11 vxvm:vxconfigd: System startup failed
syncing file systems... done
Program terminat
SC Alert: CRITICAL ALARM is set
ed
{0} ok
ЙЕС! Готов!
Далее если poweroff-poweron делать МОЖЕТ сказать, что скази больше нет:
     NOTICE: Not running OpenBoot Diagnostics because diag-script = none.
     ERROR: The following devices are disabled:
    scsi
Boot device: disk1  File and args:
Evaluating:
Can't locate boot device
Если так скажет про скази, то потом надо ему bootmode reset_nvram, скази оживает.
А зеркало разбитое - boot disk1, когда загрузиться он САМ начинает чинить зеркало (в vxtask list видно - часа 2 чинит), и потом следулющий раз нормально перезагружается без фокусов.
Обращаю ВНИМАНИЕ: Это все происходит ТОЛЬКО, когда читаешь с ленточки (я совал 3 ленточки с разных серваков, при чтении 2-х из них рюхается как приведено выше - иногда может не сразу рюхнуться, а через минут 5 после того как УЖЕ показал всё, что есть на ленте).
Внешний ленточник HP C7438-00260 подключен к скази-контроллеру что на матернике (с сзади на корпусе обычный узкий разъёмчик), а внутренние винты (2 в зеркале) тоже подключены к этому же контроллеру на материнке.
Получается ошибки при работате с ленточками вышебают мозги скази контрллеру и поэтому иногда пропадает совсем, и бьётся зеркало.
Еще замечу, по технологии этот сервер находится в горячем резерве, поэтому САМ он по ночам на ленту ничего не пишет, но если врдуг произойдет свичовер и он станет активным - он будет писать на ленту, и вот мне ОЧЕНЬ не хочется чтоб в такой ситуации он рюхался от ленточки.
И еще, менял лентотяги (с нормально работающего сервера брал) и кабель - все равно именно этот сервер падает именно от чтения тех же ленточек (которые на родных серверах читаются нормально).
Есть подозрение, что какие-то параметры скази не правильно установлены.
Вопрос, КАК НАСТРАИВАЮТСЯ ПАРАМЕТРЫ SCSI? (где-то в /etc вроде есть какой-то файл с параметрами). Какие там параметры за чё отвечают?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

18. "Solaris 9, SunFire V240 упал."

Сообщение от Mike_A on 21-Янв-09, 11:54

http://sunsolve.sun.com/search/document.do?assetkey=1-21-126...
чуть-чуть полегчало - ленту читает теперь дальше, но на последнем файле рюхается
пробовал ЭТУ же ленту на другом ТАКОМ ЖЕ сане - отлично читает, скоко угодно раз
по поводу параметров SCSI
в /etc/system добавить:
set vxdmp:dmp_failed_io_threshold=0
set vxdmp:dmp_retry_count=1
set scsi_reset_delay=500
set sd:sd_retry_count=0x3
set sd:sd_io_time=0x30
в /kernel/drv/glm.conf добавить:
scsi-selection-timeout=64;
в /kernel/drv/qus.conf добавить:
scsi-selection-timeout=250;
в /kernel/drv/mpt.conf добавить:
scsi-selection-timeout=64;
но это и так у меня всё уже стояло, но толку...
такое ощущение что ещё где-то есть какие-то парамы, в биосе...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема

Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Solaris 9, SunFire V240 упал."
Сообщение от rstone on 04-Дек-08, 17:56
Вроде отвалился диски HITACHI . Вроде не смертельно , так как Error Level: Retryable . НО , если никто не трогал кабели/диски/электричество - тогда это есть нехорошо и диски переходят в разрад "подозрительных" Не претендую на истину в последней инстанции :)
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

2. "Solaris 9, SunFire V240 упал."
Сообщение от zd3n (ok) on 04-Дек-08, 18:44
prtdiag -v статус по дискам что пишет?
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	3. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 05-Дек-08, 07:22
	> >prtdiag -v >статус по дискам что пишет? System Configuration: Sun Microsystems sun4u Sun Fire V240 System clock frequency: 167 MHZ Memory size: 2GB ==================================== CPUs ==================================== E$ CPU CPU Temperature CPU Freq Size Implementation Mask Die Amb. Status Location --- -------- ---------- ------------------- ----- ---- ---- ------ -------- 0 1503 MHz 1MB SUNW,UltraSPARC-IIIi 3.2 - - online MB/P0 1 1503 MHz 1MB SUNW,UltraSPARC-IIIi 3.2 - - online MB/P1 ================================= IO Devices ================================= Bus Freq Slot + Name + Type MHz Status Path Model ---- ---- ---------- ---------------------------- -------------------- pci 66 MB pci108e,1648 (network) okay /pci@1f,700000/network@2 pci 66 MB pci108e,1648 (network) okay /pci@1f,700000/network@2,1 pci 33 MB isa/su (serial) okay /pci@1e,600000/isa@7/serial@0,3f8 pci 33 MB isa/su (serial) okay /pci@1e,600000/isa@7/serial@0,2e8 pci 33 MB pci10b9,5229 (ide) okay /pci@1e,600000/ide@d pci 66 MB scsi-pci1000,21 (scsi-2) okay /pci@1c,600000/scsi@2 pci 66 MB scsi-pci1000,21 (scsi-2) okay /pci@1c,600000/scsi@2,1 pci 66 MB pci108e,1648 (network) okay /pci@1d,700000/network@2 pci 66 MB pci108e,1648 (network) okay /pci@1d,700000/network@2,1 pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge okay /pci@1d,700000/pci@1/pci@0/network@0 pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge okay /pci@1d,700000/pci@1/pci@0/network@1 pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge okay /pci@1d,700000/pci@1/pci@4/network@2 pci 66 PCI0 pci100b,35 (network) SUNW,pci-qge okay /pci@1d,700000/pci@1/pci@4/network@3 pci 33 7 isa/rmc-comm-rmc_comm (seria+ okay /pci@1e,600000/isa@7/rmc-comm@0,3e8 pci 33 10 usb (usb) okay /pci@1e,600000/usb ============================ Memory Configuration ============================ Segment Table: ----------------------------------------------------------------------- Base Address Size Interleave Factor Contains ----------------------------------------------------------------------- 0x0 1GB 1 BankIDs 0 0x1000000000 1GB 1 BankIDs 16 Bank Table: ----------------------------------------------------------- Physical Location ID ControllerID GroupID Size Interleave Way ----------------------------------------------------------- 0 0 0 1GB 0 16 1 0 1GB 0 Memory Module Groups: -------------------------------------------------- ControllerID GroupID Labels Status -------------------------------------------------- 0 0 MB/P0/B0/D0 0 0 MB/P0/B0/D1 1 0 MB/P1/B0/D0 1 0 MB/P1/B0/D1 ============================ Environmental Status ============================ Fan Speeds: --------------------------------------------- Location Sensor Status Speed --------------------------------------------- F0 RS okay 6081 rpm F1 RS okay 6367 rpm F2 RS okay 6136 rpm MB/P0/F0 RS okay 16463 rpm MB/P0/F1 RS okay 16071 rpm MB/P1/F0 RS okay 16875 rpm MB/P1/F1 RS okay 16463 rpm PS0 FF_FAN okay PS1 FF_FAN okay Temperature sensors: ----------------------------------------------------------------------------- Location Sensor Temperature Lo LoWarn HiWarn Hi Status ----------------------------------------------------------------------------- MB/P0 T_CORE 52C - - 84C 89C okay MB/P1 T_CORE 47C - - 84C 89C okay MB T_ENC 22C -3C 5C 40C 48C okay PS0 FF_OT - - - - - okay PS1 FF_OT - - - - - okay ---------------------------------------------------------------------- Current sensors: ---------------------------------------------------------------------- Location Sensor Current Lo LoWarn HiWarn Hi Status ---------------------------------------------------------------------- MB FF_SCSI - - - - - okay PS0 FF_OC - - - - - okay PS1 FF_OC - - - - - okay ------------------------------------------------------------------------ Voltage sensors: ------------------------------------------------------------------------ Location Sensor Voltage Lo LoWarn HiWarn Hi Status ------------------------------------------------------------------------ MB/P0 V_CORE 1.46V - 1.26V 1.54V - okay MB/P1 V_CORE 1.46V - 1.26V 1.54V - okay MB V_VTT 1.24V - 1.17V 1.43V - okay MB V_GBE_+2V5 2.51V - 2.25V 2.75V - okay MB V_GBE_CORE 1.21V - 1.08V 1.32V - okay MB V_VCCTM 2.54V - 2.25V 2.75V - okay MB V_+2V5 2.49V - 2.34V 2.86V - okay MB V_+1V5 1.51V - 1.35V 1.65V - okay MB/BAT V_BAT 2.97V - 2.70V - - okay PS0 P_PWR - - - - - okay --------------------- Keyswitch: --------------------- Location State --------------------- SYSCTRL NORMAL -------------------------------------------------- Led State: -------------------------------------------------- Location Led State Color -------------------------------------------------- MB ACT on green MB SERVICE off amber MB LOCATE off white PS0 ACT on green PS0 SERVICE off amber PS0 OK2RM off blue PS1 ACT on green PS1 SERVICE off amber PS1 OK2RM off blue HDD0 SERVICE off amber HDD0 OK2RM off blue HDD1 SERVICE off amber HDD1 OK2RM off blue HDD2 SERVICE off amber HDD2 OK2RM off blue HDD3 SERVICE off amber HDD3 OK2RM off blue =========================== FRU Operational Status =========================== ------------------------- Fru Operational Status: ------------------------- Location Status ------------------------- MB/SC okay PS0 okay HDD0 present HDD1 present PS1 okay ================================ HW Revisions ================================ ASIC Revisions: ------------------------------------------------------------------- Path Device Status Revision ------------------------------------------------------------------- /pci@1f,700000 pci108e,a801 okay 4 /pci@1e,600000 pci108e,a801 okay 4 /pci@1c,600000 pci108e,a801 okay 4 /pci@1d,700000 pci108e,a801 okay 4 System PROM revisions: ---------------------- OBP 4.16.2 2004/10/04 18:22 Sun Fire V210/V240,Netra 240 OBDIAG 4.16.2 2004/10/04 18:23
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	4. "Solaris 9, SunFire V240 упал."
	Сообщение от zd3n (ok) on 05-Дек-08, 07:51
	Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах периодически ошибки чтения/записи проскакивали. Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках слайс отваливался(хотя некоторые слайсы были в нормальном состоянии). Попробуй #cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком) если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый.
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	5. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 05-Дек-08, 09:39
	>Бывали похожие ситуации, когда статус винтов вроде как нормальный, но в логах >периодически ошибки чтения/записи проскакивали. >Винты в основном у меня зазеркалированы(каждый слайс в отдельности), при таких ошибках >слайс отваливался(хотя некоторые слайсы были в нормальном состоянии). > >Попробуй >#cat /dev/dsk/cXtXdXsX > /dev/null - для конкретного слайса(или диска целиком) >если ошибка чтения вылезет, то винт сразу меняю по техподдержке на новый. > Ну вот так проверил: cat /dev/dsk/c1t0d0s0 > /dev/null Без ошибок. Судя по логу, в этом слайсе проблема была. Толкьо не получилось весь диск таким образом проверить. Вот так, без указания слайса не правильно? cat /dev/dsk/c1t0d0 > /dev/null
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	6. "Solaris 9, SunFire V240 упал."
	Сообщение от zd3n (ok) on 05-Дек-08, 09:50
	>[оверквотинг удален] > >Без ошибок. > >Судя по логу, в этом слайсе проблема была. > >Толкьо не получилось весь диск таким образом проверить. > >Вот так, без указания слайса не правильно? > >cat /dev/dsk/c1t0d0 > /dev/null Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс указывает на весь диск. Если данные на винте не нужны, можно попробовать забить нулями, тем самым проверив на запись. #cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём)
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	7. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 05-Дек-08, 13:01
	>Для проверки всего диска нужно проверять c1t0d0s2, т.к. по умолчанию 2 слайс >указывает на весь диск. >Если данные на винте не нужны, можно попробовать забить нулями, тем самым >проверив на запись. >#cat /dev/zero > /drv/dsk/c1t0d0s0 (естественно, если система стоит не на нём) Нет, данные конечно нужны. Есть ли резон беспокоится? Может как-то детальней проверить можно? Просто опыта в администрировании серверов SUN мало. :(
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Solaris 9, SunFire V240 упал."
	Сообщение от rstone on 08-Дек-08, 16:08
	Ну вот , понаписали всякого :) Раз : cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно . Два : cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно . Три : Можно подергать диски bonnie или iozone , но это тоже нифига не докажет ;) Вывод : В мусор. Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" , а то были преЦенДенТы :)
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	9. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 08-Дек-08, 16:42
	>Ну вот , понаписали всякого :) >Раз : >cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно . >Два : >cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно . Хм. Если ошибки физически, то есть ли разница читать/писать последовательно или как-то по другому? А если логические, то должны были исправится. >Три : >Можно подергать диски bonnie или iozone , но это тоже нифига > не докажет ;) Что такое bonnie и iozone? >Вывод : >В мусор. > >Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" , >а то были преЦенДенТы :) Кабеля никто не трогал. Реально ли на основе запсис из лога, которую я привел, можно сделать вывод, что хард уже не пригоден для использования? После перезагрузки пока ошибок больше не было.
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	10. "Solaris 9, SunFire V240 упал."
	Сообщение от zd3n (ok) on 09-Дек-08, 06:37
	>>Ну вот , понаписали всякого :) >>Раз : >>cat /dev/zero > /dev/dsk/c1t0d0s0 - Нифига не полная проверка , т.к пишет последовательно . >>Два : >>cat /dev/dsk/c1t0d0s2 > /dev/null - Нифига не полная проверка , т.к читает последовательно . > А я и не говорю что это полная проверка, это действие позволяет быстро оценить, стоит ли оставлять данный винт на сервере.... При таких ошибках, на Sun серверах техподдержка меняет винты сразу... А то чревато последствиями.... Для десктопа конечно это не аргумент. Если нужна была бы полная проверка, то брать утилиту диагностики с сайта производителя винта и тестить.... >>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" , >>а то были преЦенДенТы :) Ну кто на серверах просто так кабели дёргает?... К ним годами иногда не подходят.... >Реально ли на основе запсис из лога, которую я привел, можно сделать >вывод, что хард уже не пригоден для использования? Не факт, зависит от условий тех поддержки.....
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	11. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 12-Дек-08, 10:47
	Сегодня снова сервер так же "завис". После перезагрузки в /var/adm/messages: Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0 Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x00) 0x00000098.00000000 Bad 0x00000000.00000000 Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 810393 kern.info] [AFT2] D$Data (0x10) 0x00000000.00000000 0x00000000.00000000 Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 441589 kern.info] [AFT2] D$Tag (0x44:2) 0x40036457 D$state Valid D$utag 0xc011 D$snp 0x40036456 Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 550578 kern.info] [AFT2] PAtag 0x000.364568a0 PAsnp 0x000.364568a0 VAutag 0x0468a0 Dec 12 09:56:58 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 09:59:44 last message repeated 17 times Dec 12 09:59:47 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:01:01 last message repeated 42 times Dec 12 10:01:01 fw: [ID 154754 kern.notice] Dec 12 10:01:01 FW-1: stopping debug messages for the next 59 seconds Dec 12 10:02:24 fw: [ID 241504 kern.notice] FW-1: lost 45 debug messages Dec 12 10:02:24 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:06:20 last message repeated 26 times Dec 12 10:06:28 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:12:43 last message repeated 31 times Dec 12 10:13:09 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:19:34 last message repeated 37 times Dec 12 10:19:49 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:26:23 last message repeated 54 times Dec 12 10:26:25 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:32:47 last message repeated 52 times Dec 12 10:33:32 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:39:40 last message repeated 34 times Dec 12 10:39:52 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:46:13 last message repeated 31 times Dec 12 10:46:28 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:53:02 last message repeated 36 times Dec 12 10:53:15 fw: [ID 957691 kern.notice] threshold = 10 Dec 12 10:59:34 last message repeated 34 times Dec 12 11:00:04 fw: [ID 957691 kern.notice] threshold = 10
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	12. "Solaris 9, SunFire V240 упал."
	Сообщение от ReSeT on 12-Дек-08, 13:25
	>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0 Над этой строчкой в логе больше нету строк с [AFT2] ? А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то изменяли/устанавливали?
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	16. "Solaris 9, SunFire V240 упал."
	Сообщение от Inhum on 15-Дек-08, 15:35
	>>>Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: [ID 838760 kern.info] [AFT2] D$Parity (0x44:2:0x00) 0xc0 > >Над этой строчкой в логе больше нету строк с [AFT2] ? Нет, выше нет таких строк. > >А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то >изменяли/устанавливали? Да в том то и дело, что ничего не делали. Работал себе спокойно 200 с лишним дней и перестал.
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	13. "Solaris 9, SunFire V240 упал."
	Сообщение от rstone on 14-Дек-08, 15:53
	>>>Вывод не имеет силы в случае "кто то трогал кабели/диски/электричество" , >>>а то были преЦенДенТы :) > >Ну кто на серверах просто так кабели дёргает?... К ним годами иногда >не подходят.... Кто дергает ? Ну например крупногабаритный обслуживающий персонал компании 'солнечная шелезяка' :) Или уборщица . Или техники кондиционерного оборудования - они кстати любят ведра подставлять под капающий кондиционер , а потом их нечаянно роняют и имееют кууууучу удовольствия :) Особливо весело когда такое ведро на storage выливается ( реальный случай в оооочень крупной компании ) .
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	14. "Solaris 9, SunFire V240 упал."
	Сообщение от rstone on 14-Дек-08, 16:03
	Кстати , можно попробовать ( после бута или из стоп-а ) : ok> setenv auto-boot? false ok> setenv diag-switch? true ok> setenv diag-level max ok> setenv diag-device disk ok> reset Посмотреть , может чего и глюкнет . ! все это будет бежать минут 10-15 , а может и до 20 . Потом все вернуть назад : ok> setenv auto-boot? true ok> setenv diag-switch? false
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

15. "Solaris 9, SunFire V240 упал."
Сообщение от kolayshkin (??) on 14-Дек-08, 22:55
>[оверквотинг удален] > glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018] > scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0): > got SCSI bus reset > genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service >still available > genunix: [ID 611667 kern.info] NOTICE: glm0: got SCSI bus reset > scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0): > SCSI transport failed: reason 'reset': retrying command > scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0): > SCSI transport failed: reason 'timeout': retrying command Очень велика вероятность того, что помирает диск /pci@1c,600000/scsi@2/sd@0,0 , тот кторый в HDD0 (скорее всего контролер). Retryeble ошибки вызваны ресетом шины, и ни каких проблемах не говрят. Если есть поддержка на сервер или он еще на гарантии, то лучше обратится в сервис. А противном случае мониторить консоль на предмет ошибок.
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

17. "Solaris 9, SunFire V240 упал."
Сообщение от Mike_A on 16-Янв-09, 12:42
Имею ОЧЕНЬ похожую картину. Саляра 8я, Netra 240 Я научился это ронаять - СТАБИЛЬНО! Все просто, всего лишь просматриваю содержимое записи на ленточке: ph2> mt -f /dev/rmt/0n status HP DAT-72 tape drive: sense key(0x0)= No Additional Sense residual= 0 retries= 0 file no= 0 block no= 0 ph2> tar -tvf /dev/rmt/0n -rw-rw-rw- 0/1 264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:04 ph2 Connected command timeout for Target 1.0 Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:04 ph2 Target 1 disabled wide SCSI mode Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:04 ph2 Target 1 reverting to async. mode Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:04 ph2 got SCSI bus reset Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:04 ph2 SCSI transport failed: reason 'reset': retrying command Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:04 ph2 SCSI transport failed: reason 'timeout': retrying command Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:05 ph2 got SCSI bus reset Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:05 ph2 SCSI transport failed: reason 'reset': retrying command Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60): Jan 16 09:57:05 ph2 Error for Command: write Error Level: Retryable Jan 16 09:57:05 ph2 scsi: Requested Block: 24259 Error Block: 24259 Jan 16 09:57:05 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK Jan 16 09:57:05 ph2 scsi: Sense Key: Unit Attention Jan 16 09:57:05 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0 Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:05 ph2 got SCSI bus reset Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:05 ph2 auto request sense failed (reason=reset) Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60): Jan 16 09:57:06 ph2 Error for Command: write(10) Error Level: Retryable Jan 16 09:57:06 ph2 scsi: Requested Block: 68267440 Error Block: 68267440 Jan 16 09:57:06 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK Jan 16 09:57:06 ph2 scsi: Sense Key: Unit Attention Jan 16 09:57:06 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0 Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:06 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:06 ph2 got SCSI bus reset Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:06 ph2 auto request sense failed (reason=reset) Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:07 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:07 ph2 got SCSI bus reset Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:07 ph2 auto request sense failed (reason=reset) Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:08 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:08 ph2 got SCSI bus reset Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:08 ph2 auto request sense failed (reason=reset) Jan 16 09:57:09 ph2 vxdmp: NOTICE: Reached DMP Threshold IO TimeOut (0) for dev 276/0xc Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60): Jan 16 09:57:09 ph2 Error for Command: read(10) Error Level: Retryable Jan 16 09:57:09 ph2 scsi: Requested Block: 11097664 Error Block: 11097664 Jan 16 09:57:09 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK Jan 16 09:57:09 ph2 scsi: Sense Key: Unit Attention Jan 16 09:57:09 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0 Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:09 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:09 ph2 got SCSI bus reset Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61): Jan 16 09:57:09 ph2 auto request sense failed (reason=reset) Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): Jan 16 09:57:10 ph2 Resetting scsi bus, got incorrect phase from (1,0) Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4): -rw-rw-rw- 0/1 74 Jan 11 00:16 2009 /export/home/backup/backup.log Jan 16 09:57:10 ph2 got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset panic SC Alert: CRITICAL ALARM is set [cpu1]/thread=2a10007dd20: Failfast: Aborting because "fed" died 35 seconds ago. 000002a10007d4a0 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+60 (3000517a800, 3, 0, 7840e85c, 2a10007d6a0, 1000ba8c) %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58 000002a10007d550 cl_runtime:__0f5CosNsc_syslog_msgDlogiTBPCce+1c (30004de4b20, 3, 0, 7840e85c, 7840e5a0, 1041c3f8) %l0-3: 00000000100074b0 000000000000000a 000000000000000a 000000001000a408 %l4-7: 000003000006e288 000002a10248f7a4 0000000000000000 000002a10001f910 000002a10007d600 cl_comm:__0fHff_implPstop_node_panicv+ac (7840e628, 782e99dc, 300010cd2c8, 782e99dc, 0, 0) %l0-3: 0000000010116660 0000000000000016 000000000000000a 000002a100385d20 %l4-7: 0000000000000003 0000000000000002 0000000000000000 000002a10001f9c0 000002a10007d6b0 cl_comm:__0fHff_implNunit_timedoutv+ac (300010cd368, 300010cd2c8, 300010cd388, 1041c3f8, 1, 1041c380) %l0-3: 0000000010045cb0 0000000000000000 0000000000010000 000002a100117d20 %l4-7: 0000030001c27fc8 0000030000012400 0000030001c27ea8 0000030001c27ea0 000002a10007d760 cl_comm:__0fQff_callout_tableTper_tick_processingvT+f0 (3000005d411, 5cd0de, 7840e3e8, 7840e400, 7840e4f0, 300010cd 388) %l0-3: 00000000782ea388 00000000783ffd88 000003000013d3a8 0000000000000001 %l4-7: 0000000000000000 0000000000000000 0000000000000000 000003000013ca90 000002a10007d820 cl_comm:__0fNff_admin_implWsc_per_tick_processing65Nff_admin_implQcallout_caller_t+84 (3000005d410, 3759e4c91c21, 3 000005d388, 0, 5, 3000005e0c0) %l0-3: 000000007813b754 000000007842953a 000003000013d3a8 000000007fffffff %l4-7: 00000000781c1cd0 000002a10248f60d 0000000000000000 000003000013ca90 000002a10007d8d0 genunix:clock+464 (1046ec00, 0, 0, 0, 0, 0) %l0-3: 0000000000000000 0000000000000400 000002a10000fd20 000000001041c380 %l4-7: 0000000000000001 0000000000000000 000000001041cb60 0000000000000000 000002a10007d9a0 genunix:cyclic_softint+a4 (1041c380, 3000005d928, 1, 7, 300004b54c8, 10079968) %l0-3: 000003000005d948 00000000005cc97c 0000000000000000 00000300004b54d8 %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58 000002a10007da60 unix:cbe_level10+8 (0, 803, 1041c380, 2a10007dd20, 10060, 1000ba8c) %l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc %l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58 syncing file systems... done dumping to /dev/dsk/c1t0d0s1, offset 2577989632 WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset WARNING: /pci@1c,600000/scsi@2 (glm4): Resetting scsi bus, got incorrect phase from (0,0) ... (длиная портьянка таких же 2 строк) WARNING: /pci@1c,600000/scsi@2 (glm4): got SCSI bus reset SC Alert: CRITICAL ALARM is set SC Alert: SC Request to XIR Host due to Watchdog ERROR: error-reset-cleanup: Externally Initiated Reset has occurred. panic[cpu1]/thread=2a10007dd20: sync initiated dump aborted: please record the above information! rebooting... SC Alert: Host System has Reset SC Alert: CRITICAL ALARM is set XIR/Watchdog Reset Executing Power On Self Test 0> 0>@(#) Sun Fire[TM] V210/V240,Netra[TM] 240 POST 4.17.1 2005/04/11 14:43 /export/delivery/delivery/4.17/4.17.1/post4.17.0/Fiesta/enxs/integrated (root) 0>Copyright й 2005 Sun Microsystems, Inc. All rights reserved SUN PROPRIETARY/CONFIDENTIAL. Use is subject to license terms. 0>OBP->POST Call with %o0=00000800.01014000. 0>Diag level set to MAX. 0>Verbosity level set to NORMAL. 0>Start Selftest..... 0>CPUs present in system: 0 1 0>Test CPU(s)....Done 0>Interrupt Crosscall....Done 0>Init Memory....Done 0>PLL Reset....Done 0>Init Memory....Done 0>Test Memory....Done 0>Test CPU Caches....Done 0>Functional CPU Tests....Done 0>IO-Bridge Tests....Done 0>INFO: 0> POST Passed all devices. 0> 0>POST: Return to OBP. SC Alert: Host System has Reset SC Alert: CRITICAL ALARM is set Configuring system memory & CPU(s) Probing system devices Probing memory Probing I/O buses Netra 240, No Keyboard Copyright 2005 Sun Microsystems, Inc. All rights reserved. OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609. Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a. Running diagnostic script obdiag/normal Testing /pci@1e,600000/ide@d Testing /pci@1e,600000/isa@7/rtc@0,70 Testing /pci@1c,600000/scsi@2 Testing /pci@1c,600000/scsi@2,1 Testing /pci@1e,600000/isa@7/serial@0,2e8 Testing /pci@1e,600000/isa@7/serial@0,3f8 Rebooting with command: boot Probing system devices Probing memory Probing I/O buses Netra 240, No Keyboard Copyright 2005 Sun Microsystems, Inc. All rights reserved. OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609. Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a. Rebooting with command: boot Boot device: disk File and args: SunOS Release 5.8 Version Generic_117350-22 64-bit Copyright 1983-2003 Sun Microsystems, Inc. All rights reserved. Hardware watchdog enabled Starting VxVM restore daemon... VxVM starting in boot mode... Jan 16 09:59:10 vxvm:vxconfigd: Detaching plex rootvol-01 from volume rootvol Jan 16 09:59:11 vxvm:vxconfigd: System boot disk does not have a valid rootvol plex Jan 16 09:59:11 vxvm:vxconfigd: Please boot from one of the following disks: Jan 16 09:59:11 vxvm:vxconfigd: DISK MEDIA DEVICE BOOT COMMAND Jan 16 09:59:11 vxvm:vxconfigd: rootmirr_2 c1t1d0s2 boot vx-rootmirr_2 Jan 16 09:59:11 vxvm:vxconfigd: System startup failed syncing file systems... done Program terminat SC Alert: CRITICAL ALARM is set ed {0} ok ЙЕС! Готов! Далее если poweroff-poweron делать МОЖЕТ сказать, что скази больше нет: NOTICE: Not running OpenBoot Diagnostics because diag-script = none. ERROR: The following devices are disabled: scsi Boot device: disk1 File and args: Evaluating: Can't locate boot device Если так скажет про скази, то потом надо ему bootmode reset_nvram, скази оживает. А зеркало разбитое - boot disk1, когда загрузиться он САМ начинает чинить зеркало (в vxtask list видно - часа 2 чинит), и потом следулющий раз нормально перезагружается без фокусов. Обращаю ВНИМАНИЕ: Это все происходит ТОЛЬКО, когда читаешь с ленточки (я совал 3 ленточки с разных серваков, при чтении 2-х из них рюхается как приведено выше - иногда может не сразу рюхнуться, а через минут 5 после того как УЖЕ показал всё, что есть на ленте). Внешний ленточник HP C7438-00260 подключен к скази-контроллеру что на матернике (с сзади на корпусе обычный узкий разъёмчик), а внутренние винты (2 в зеркале) тоже подключены к этому же контроллеру на материнке. Получается ошибки при работате с ленточками вышебают мозги скази контрллеру и поэтому иногда пропадает совсем, и бьётся зеркало. Еще замечу, по технологии этот сервер находится в горячем резерве, поэтому САМ он по ночам на ленту ничего не пишет, но если врдуг произойдет свичовер и он станет активным - он будет писать на ленту, и вот мне ОЧЕНЬ не хочется чтоб в такой ситуации он рюхался от ленточки. И еще, менял лентотяги (с нормально работающего сервера брал) и кабель - все равно именно этот сервер падает именно от чтения тех же ленточек (которые на родных серверах читаются нормально). Есть подозрение, что какие-то параметры скази не правильно установлены. Вопрос, КАК НАСТРАИВАЮТСЯ ПАРАМЕТРЫ SCSI? (где-то в /etc вроде есть какой-то файл с параметрами). Какие там параметры за чё отвечают?
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	18. "Solaris 9, SunFire V240 упал."
	Сообщение от Mike_A on 21-Янв-09, 11:54
	http://sunsolve.sun.com/search/document.do?assetkey=1-21-126... чуть-чуть полегчало - ленту читает теперь дальше, но на последнем файле рюхается пробовал ЭТУ же ленту на другом ТАКОМ ЖЕ сане - отлично читает, скоко угодно раз по поводу параметров SCSI в /etc/system добавить: set vxdmp:dmp_failed_io_threshold=0 set vxdmp:dmp_retry_count=1 set scsi_reset_delay=500 set sd:sd_retry_count=0x3 set sd:sd_io_time=0x30 в /kernel/drv/glm.conf добавить: scsi-selection-timeout=64; в /kernel/drv/qus.conf добавить: scsi-selection-timeout=250; в /kernel/drv/mpt.conf добавить: scsi-selection-timeout=64; но это и так у меня всё уже стояло, но толку... такое ощущение что ещё где-то есть какие-то парамы, в биосе...
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

Архив \| Удалить	Индекс форумов \| Темы \| Пред. тема \| След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 \| 2 \| 3 \| 4 \| 5 ] [Рекомендовать для помещения в FAQ]