Имею ОЧЕНЬ похожую картину.Саляра 8я, Netra 240
Я научился это ронаять - СТАБИЛЬНО!
Все просто, всего лишь просматриваю содержимое записи на ленточке:
ph2> mt -f /dev/rmt/0n status
HP DAT-72 tape drive:
sense key(0x0)= No Additional Sense residual= 0 retries= 0
file no= 0 block no= 0
ph2> tar -tvf /dev/rmt/0n
-rw-rw-rw- 0/1 264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Connected command timeout for Target 1.0
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Target 1 disabled wide SCSI mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 Target 1 reverting to async. mode
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:04 ph2 got SCSI bus reset
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2 SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:04 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:04 ph2 SCSI transport failed: reason 'timeout': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2 SCSI transport failed: reason 'reset': retrying command
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:05 ph2 Error for Command: write Error Level: Retryable
Jan 16 09:57:05 ph2 scsi: Requested Block: 24259 Error Block: 24259
Jan 16 09:57:05 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:05 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:05 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:05 ph2 got SCSI bus reset
Jan 16 09:57:05 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:05 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:06 ph2 Error for Command: write(10) Error Level: Retryable
Jan 16 09:57:06 ph2 scsi: Requested Block: 68267440 Error Block: 68267440
Jan 16 09:57:06 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:06 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:06 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:06 ph2 got SCSI bus reset
Jan 16 09:57:06 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:06 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:07 ph2 got SCSI bus reset
Jan 16 09:57:07 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:07 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:08 ph2 got SCSI bus reset
Jan 16 09:57:08 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:08 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:09 ph2 vxdmp: NOTICE: Reached DMP Threshold IO TimeOut (0) for dev 276/0xc
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd60):
Jan 16 09:57:09 ph2 Error for Command: read(10) Error Level: Retryable
Jan 16 09:57:09 ph2 scsi: Requested Block: 11097664 Error Block: 11097664
Jan 16 09:57:09 ph2 scsi: Vendor: HITACHI Serial Number: 0603PJP2LK
Jan 16 09:57:09 ph2 scsi: Sense Key: Unit Attention
Jan 16 09:57:09 ph2 scsi: ASC: 0x29 (<vendor unique code 0x29>), ASCQ: 0x2, FRU: 0x0
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:09 ph2 got SCSI bus reset
Jan 16 09:57:09 ph2 scsi: WARNING: /pci@1c,600000/scsi@2/sd@1,0 (sd61):
Jan 16 09:57:09 ph2 auto request sense failed (reason=reset)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
Jan 16 09:57:10 ph2 Resetting scsi bus, got incorrect phase from (1,0)
Jan 16 09:57:10 ph2 scsi: WARNING: /pci@1c,600000/scsi@2 (glm4):
-rw-rw-rw- 0/1 74 Jan 11 00:16 2009 /export/home/backup/backup.log
Jan 16 09:57:10 ph2 got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
panic
SC Alert: CRITICAL ALARM is set
[cpu1]/thread=2a10007dd20: Failfast: Aborting because "fed" died 35 seconds ago.
000002a10007d4a0 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+60 (3000517a800, 3, 0, 7840e85c, 2a10007d6a0, 1000ba8c)
%l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007d550 cl_runtime:__0f5CosNsc_syslog_msgDlogiTBPCce+1c (30004de4b20, 3, 0, 7840e85c, 7840e5a0, 1041c3f8)
%l0-3: 00000000100074b0 000000000000000a 000000000000000a 000000001000a408
%l4-7: 000003000006e288 000002a10248f7a4 0000000000000000 000002a10001f910
000002a10007d600 cl_comm:__0fHff_implPstop_node_panicv+ac (7840e628, 782e99dc, 300010cd2c8, 782e99dc, 0, 0)
%l0-3: 0000000010116660 0000000000000016 000000000000000a 000002a100385d20
%l4-7: 0000000000000003 0000000000000002 0000000000000000 000002a10001f9c0
000002a10007d6b0 cl_comm:__0fHff_implNunit_timedoutv+ac (300010cd368, 300010cd2c8, 300010cd388, 1041c3f8, 1, 1041c380)
%l0-3: 0000000010045cb0 0000000000000000 0000000000010000 000002a100117d20
%l4-7: 0000030001c27fc8 0000030000012400 0000030001c27ea8 0000030001c27ea0
000002a10007d760 cl_comm:__0fQff_callout_tableTper_tick_processingvT+f0 (3000005d411, 5cd0de, 7840e3e8, 7840e400, 7840e4f0, 300010cd
388)
%l0-3: 00000000782ea388 00000000783ffd88 000003000013d3a8 0000000000000001
%l4-7: 0000000000000000 0000000000000000 0000000000000000 000003000013ca90
000002a10007d820 cl_comm:__0fNff_admin_implWsc_per_tick_processing65Nff_admin_implQcallout_caller_t+84 (3000005d410, 3759e4c91c21, 3
000005d388, 0, 5, 3000005e0c0)
%l0-3: 000000007813b754 000000007842953a 000003000013d3a8 000000007fffffff
%l4-7: 00000000781c1cd0 000002a10248f60d 0000000000000000 000003000013ca90
000002a10007d8d0 genunix:clock+464 (1046ec00, 0, 0, 0, 0, 0)
%l0-3: 0000000000000000 0000000000000400 000002a10000fd20 000000001041c380
%l4-7: 0000000000000001 0000000000000000 000000001041cb60 0000000000000000
000002a10007d9a0 genunix:cyclic_softint+a4 (1041c380, 3000005d928, 1, 7, 300004b54c8, 10079968)
%l0-3: 000003000005d948 00000000005cc97c 0000000000000000 00000300004b54d8
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
000002a10007da60 unix:cbe_level10+8 (0, 803, 1041c380, 2a10007dd20, 10060, 1000ba8c)
%l0-3: 0000000010044ad4 0000000000010000 0000000000000000 00000300004b54dc
%l4-7: 000003000005d8c8 0000030001becf30 0000000000000000 0000030001becf58
syncing file systems... done
dumping to /dev/dsk/c1t0d0s1, offset 2577989632
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
WARNING: /pci@1c,600000/scsi@2 (glm4):
Resetting scsi bus, got incorrect phase from (0,0)
... (длиная портьянка таких же 2 строк)
WARNING: /pci@1c,600000/scsi@2 (glm4):
got SCSI bus reset
SC Alert: CRITICAL ALARM is set
SC Alert: SC Request to XIR Host due to Watchdog
ERROR: error-reset-cleanup: Externally Initiated Reset has occurred.
panic[cpu1]/thread=2a10007dd20: sync initiated
dump aborted: please record the above information!
rebooting...
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
XIR/Watchdog Reset
Executing Power On Self Test
0>
0>@(#) Sun Fire[TM] V210/V240,Netra[TM] 240 POST 4.17.1 2005/04/11 14:43
/export/delivery/delivery/4.17/4.17.1/post4.17.0/Fiesta/enxs/integrated (root)
0>Copyright й 2005 Sun Microsystems, Inc. All rights reserved
SUN PROPRIETARY/CONFIDENTIAL.
Use is subject to license terms.
0>OBP->POST Call with %o0=00000800.01014000.
0>Diag level set to MAX.
0>Verbosity level set to NORMAL.
0>Start Selftest.....
0>CPUs present in system: 0 1
0>Test CPU(s)....Done
0>Interrupt Crosscall....Done
0>Init Memory....Done
0>PLL Reset....Done
0>Init Memory....Done
0>Test Memory....Done
0>Test CPU Caches....Done
0>Functional CPU Tests....Done
0>IO-Bridge Tests....Done
0>INFO:
0> POST Passed all devices.
0>
0>POST: Return to OBP.
SC Alert: Host System has Reset
SC Alert: CRITICAL ALARM is set
Configuring system memory & CPU(s)
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc. All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.
Running diagnostic script obdiag/normal
Testing /pci@1e,600000/ide@d
Testing /pci@1e,600000/isa@7/rtc@0,70
Testing /pci@1c,600000/scsi@2
Testing /pci@1c,600000/scsi@2,1
Testing /pci@1e,600000/isa@7/serial@0,2e8
Testing /pci@1e,600000/isa@7/serial@0,3f8
Rebooting with command: boot
Probing system devices
Probing memory
Probing I/O buses
Netra 240, No Keyboard
Copyright 2005 Sun Microsystems, Inc. All rights reserved.
OpenBoot 4.17.1, 4096 MB memory installed, Serial #66723609.
Ethernet address 0:3:ba:fa:12:1a, Host ID: 83fa121a.
Rebooting with command: boot
Boot device: disk File and args:
SunOS Release 5.8 Version Generic_117350-22 64-bit
Copyright 1983-2003 Sun Microsystems, Inc. All rights reserved.
Hardware watchdog enabled
Starting VxVM restore daemon...
VxVM starting in boot mode...
Jan 16 09:59:10 vxvm:vxconfigd: Detaching plex rootvol-01 from volume rootvol
Jan 16 09:59:11 vxvm:vxconfigd: System boot disk does not have a valid rootvol plex
Jan 16 09:59:11 vxvm:vxconfigd: Please boot from one of the following disks:
Jan 16 09:59:11 vxvm:vxconfigd: DISK MEDIA DEVICE BOOT COMMAND
Jan 16 09:59:11 vxvm:vxconfigd: rootmirr_2 c1t1d0s2 boot vx-rootmirr_2
Jan 16 09:59:11 vxvm:vxconfigd: System startup failed
syncing file systems... done
Program terminat
SC Alert: CRITICAL ALARM is set
ed
{0} ok
ЙЕС! Готов!
Далее если poweroff-poweron делать МОЖЕТ сказать, что скази больше нет:
NOTICE: Not running OpenBoot Diagnostics because diag-script = none.
ERROR: The following devices are disabled:
scsi
Boot device: disk1 File and args:
Evaluating:
Can't locate boot device
Если так скажет про скази, то потом надо ему bootmode reset_nvram, скази оживает.
А зеркало разбитое - boot disk1, когда загрузиться он САМ начинает чинить зеркало (в vxtask list видно - часа 2 чинит), и потом следулющий раз нормально перезагружается без фокусов.
Обращаю ВНИМАНИЕ: Это все происходит ТОЛЬКО, когда читаешь с ленточки (я совал 3 ленточки с разных серваков, при чтении 2-х из них рюхается как приведено выше - иногда может не сразу рюхнуться, а через минут 5 после того как УЖЕ показал всё, что есть на ленте).
Внешний ленточник HP C7438-00260 подключен к скази-контроллеру что на матернике (с сзади на корпусе обычный узкий разъёмчик), а внутренние винты (2 в зеркале) тоже подключены к этому же контроллеру на материнке.
Получается ошибки при работате с ленточками вышебают мозги скази контрллеру и поэтому иногда пропадает совсем, и бьётся зеркало.
Еще замечу, по технологии этот сервер находится в горячем резерве, поэтому САМ он по ночам на ленту ничего не пишет, но если врдуг произойдет свичовер и он станет активным - он будет писать на ленту, и вот мне ОЧЕНЬ не хочется чтоб в такой ситуации он рюхался от ленточки.
И еще, менял лентотяги (с нормально работающего сервера брал) и кабель - все равно именно этот сервер падает именно от чтения тех же ленточек (которые на родных серверах читаются нормально).
Есть подозрение, что какие-то параметры скази не правильно установлены.
Вопрос, КАК НАСТРАИВАЮТСЯ ПАРАМЕТРЫ SCSI? (где-то в /etc вроде есть какой-то файл с параметрами). Какие там параметры за чё отвечают?