<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Solaris 9, SunFire V240 упал.</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html</link>
    <description>Внезапно сервер перестал отвечать на запросы.&lt;br&gt;&lt;br&gt;Даже из LOM не пускал в консоль.&lt;br&gt;&lt;br&gt;Перегрузил по poweroff, poweron.&lt;br&gt;&lt;br&gt;Потом в /var/adm/messages обнаружил:&lt;br&gt;&lt;br&gt; scsi: &#091;ID 365881 kern.info&#093; /pci&#064;1c,600000/scsi&#064;2 (glm0):&lt;br&gt; Cmd (0x657e948) dump for Target 0 Lun 0:&lt;br&gt; scsi: &#091;ID 365881 kern.info&#093; /pci&#064;1c,600000/scsi&#064;2 (glm0):&lt;br&gt; cdb=&#091; 0x2a 0x0 0x0 0xc1 0x86 0x34 0x0 0x0 0x10 0x0 &#093;&lt;br&gt; scsi: &#091;ID 365881 kern.info&#093; /pci&#064;1c,600000/scsi&#064;2 (glm0):&lt;br&gt; pkt_flags=0x4000 pkt_statistics=0x60 pkt_state=0x7&lt;br&gt; scsi: &#091;ID 365881 kern.info&#093; /pci&#064;1c,600000/scsi&#064;2 (glm0):&lt;br&gt; pkt_scbp=0x0 cmd_flags=0x1860&lt;br&gt; scsi: &#091;ID 107833 kern.warning&#093; WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm0):&lt;br&gt; Disconnected tagged cmd(s) (1) timeout for Target 0.0&lt;br&gt; genunix: &#091;ID 408822 kern.info&#093; NOTICE: glm0: fault detected in device; service still available&lt;br&gt; genunix: &#091;ID 611667 kern.info&#093; NOTICE: glm0: Disconnected tagged cmd(s) (1) timeout for Target 0.0&lt;br&gt; glm: &#091;ID 401478 kern.warning&#093; WARNING: ID&#091;SUNWpd.glm.cmd_timeout.6018&#093;&lt;br&gt; scsi: &#091;ID 107833 kern.warning&#093; WAR</description>

<item>
    <title>Solaris 9, SunFire V240 упал. (Mike_A)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#18</link>
    <pubDate>Wed, 21 Jan 2009 08:54:13 GMT</pubDate>
    <description>http://sunsolve.sun.com/search/document.do?assetkey=1-21-126805-01-1&lt;br&gt;чуть-чуть полегчало - ленту читает теперь дальше, но на последнем файле рюхается&lt;br&gt;пробовал ЭТУ же ленту на другом ТАКОМ ЖЕ сане - отлично читает, скоко угодно раз&lt;br&gt;&lt;br&gt;по поводу параметров SCSI&lt;br&gt;&lt;br&gt;в /etc/system добавить:&lt;br&gt; set vxdmp:dmp_failed_io_threshold=0&lt;br&gt; set vxdmp:dmp_retry_count=1&lt;br&gt; set scsi_reset_delay=500    &lt;br&gt; set sd:sd_retry_count=0x3&lt;br&gt; set sd:sd_io_time=0x30&lt;br&gt;&lt;br&gt;в /kernel/drv/glm.conf добавить:&lt;br&gt;scsi-selection-timeout=64;&lt;br&gt;&lt;br&gt;в /kernel/drv/qus.conf добавить:&lt;br&gt;scsi-selection-timeout=250;&lt;br&gt;&lt;br&gt;в /kernel/drv/mpt.conf добавить:&lt;br&gt;scsi-selection-timeout=64;&lt;br&gt;&lt;br&gt;но это и так у меня всё уже стояло, но толку...&lt;br&gt;&lt;br&gt;такое ощущение что ещё где-то есть какие-то парамы, в биосе...&lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (Mike_A)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#17</link>
    <pubDate>Fri, 16 Jan 2009 09:42:25 GMT</pubDate>
    <description>Имею ОЧЕНЬ похожую картину.&lt;br&gt;&lt;br&gt;Саляра 8я, Netra 240&lt;br&gt;&lt;br&gt;Я научился это ронаять - СТАБИЛЬНО!&lt;br&gt;Все просто, всего лишь просматриваю содержимое записи на ленточке:&lt;br&gt;&lt;br&gt;ph2&amp;gt; mt -f /dev/rmt/0n status&lt;br&gt;HP DAT-72 tape drive:&lt;br&gt;   sense key(0x0)= No Additional Sense   residual= 0   retries= 0&lt;br&gt;   file no= 0   block no= 0&lt;br&gt;ph2&amp;gt; tar -tvf /dev/rmt/0n&lt;br&gt;-rw-rw-rw-   0/1   264278016 Jan 11 00:15 2009 /export/home/backup/all-20090111000002.tar&lt;br&gt;Jan 16 09:57:04 ph2 scsi: WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm4):&lt;br&gt;Jan 16 09:57:04 ph2       Connected command timeout for Target 1.0&lt;br&gt;Jan 16 09:57:04 ph2 scsi: WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm4):&lt;br&gt;Jan 16 09:57:04 ph2       Target 1 disabled wide SCSI mode&lt;br&gt;Jan 16 09:57:04 ph2 scsi: WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm4):&lt;br&gt;Jan 16 09:57:04 ph2       Target 1 reverting to async. mode&lt;br&gt;Jan 16 09:57:04 ph2 scsi: WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm4):&lt;br&gt;Jan 16 09:57:04 ph2       got SCSI bus reset&lt;br&gt;Jan 16 09:57:04 ph2 scsi: WARNING: /pci&#064;1c,600000/scsi&#064;2/sd&#064;1,0 (sd61):&lt;br&gt;Jan 16 09:57:04 ph2   </description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (Inhum)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#16</link>
    <pubDate>Mon, 15 Dec 2008 12:35:26 GMT</pubDate>
    <description>&amp;gt;&amp;gt;&amp;gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 838760 kern.info&#093; &#091;AFT2&#093; D$Parity (0x44:2:0x00) 0xc0&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Над этой строчкой в логе больше нету строк с &#091;AFT2&#093; ? &lt;br&gt;&lt;br&gt;Нет, выше нет таких строк.&lt;br&gt;&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то &lt;br&gt;&amp;gt;изменяли/устанавливали? &lt;br&gt;&lt;br&gt;Да в том то и дело, что ничего не делали.&lt;br&gt;&lt;br&gt;Работал себе спокойно 200 с лишним дней и перестал.&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (kolayshkin)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#15</link>
    <pubDate>Sun, 14 Dec 2008 19:55:46 GMT</pubDate>
    <description>&amp;gt;&#091;оверквотинг удален&#093;&lt;br&gt;&amp;gt; glm: &#091;ID 401478 kern.warning&#093; WARNING: ID&#091;SUNWpd.glm.cmd_timeout.6018&#093; &lt;br&gt;&amp;gt; scsi: &#091;ID 107833 kern.warning&#093; WARNING: /pci&#064;1c,600000/scsi&#064;2 (glm0): &lt;br&gt;&amp;gt;  got SCSI bus reset &lt;br&gt;&amp;gt; genunix: &#091;ID 408822 kern.info&#093; NOTICE: glm0: fault detected in device; service &lt;br&gt;&amp;gt;still available &lt;br&gt;&amp;gt; genunix: &#091;ID 611667 kern.info&#093; NOTICE: glm0: got SCSI bus reset &lt;br&gt;&amp;gt; scsi: &#091;ID 107833 kern.warning&#093; WARNING: /pci&#064;1c,600000/scsi&#064;2/sd&#064;0,0 (sd0): &lt;br&gt;&amp;gt;  SCSI transport failed: reason &apos;reset&apos;: retrying command &lt;br&gt;&amp;gt; scsi: &#091;ID 107833 kern.warning&#093; WARNING: /pci&#064;1c,600000/scsi&#064;2/sd&#064;0,0 (sd0): &lt;br&gt;&amp;gt;  SCSI transport failed: reason &apos;timeout&apos;: retrying command &lt;br&gt;&lt;br&gt;Очень велика вероятность того, что помирает диск /pci&#064;1c,600000/scsi&#064;2/sd&#064;0,0 , тот кторый в HDD0 (скорее всего контролер). Retryeble ошибки вызваны ресетом шины, и ни каких проблемах не говрят. Если есть поддержка на сервер или он еще на гарантии, то лучше обратится в сервис. А противном случае мониторить консоль на предмет ошибок. &lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (rstone)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#14</link>
    <pubDate>Sun, 14 Dec 2008 13:03:11 GMT</pubDate>
    <description>&lt;br&gt;Кстати , можно попробовать ( после бута или из стоп-а  )  : &lt;br&gt;&lt;br&gt;ok&amp;gt; setenv auto-boot? false&lt;br&gt;ok&amp;gt; setenv diag-switch? true&lt;br&gt;ok&amp;gt; setenv diag-level max&lt;br&gt;ok&amp;gt; setenv diag-device disk &lt;br&gt;ok&amp;gt; reset&lt;br&gt;&lt;br&gt;Посмотреть  , может чего   и глюкнет . &lt;br&gt;! все это будет бежать  минут 10-15  , а может и до 20 . &lt;br&gt;&lt;br&gt;Потом все вернуть назад : &lt;br&gt;&lt;br&gt;ok&amp;gt; setenv auto-boot? true&lt;br&gt;ok&amp;gt; setenv diag-switch? false &lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (rstone)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#13</link>
    <pubDate>Sun, 14 Dec 2008 12:53:34 GMT</pubDate>
    <description>&lt;br&gt;&amp;gt;&amp;gt;&amp;gt;Вывод не имеет силы в случае &quot;кто то трогал кабели/диски/электричество&quot;  , &lt;br&gt;&amp;gt;&amp;gt;&amp;gt;а то были преЦенДенТы :) &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Ну кто на серверах просто так кабели дёргает?... К ним годами иногда &lt;br&gt;&amp;gt;не подходят.... &lt;br&gt;&lt;br&gt;Кто  дергает ? &lt;br&gt;Ну например  крупногабаритный обслуживающий персонал  компании &apos;солнечная шелезяка&apos; :) &lt;br&gt;Или уборщица . &lt;br&gt;Или техники кондиционерного оборудования - они кстати любят ведра подставлять под капающий  кондиционер , а потом их нечаянно роняют и имееют кууууучу удовольствия :) &lt;br&gt;Особливо весело когда такое ведро на storage выливается (  реальный случай в оооочень крупной компании ) . &lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (ReSeT)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#12</link>
    <pubDate>Fri, 12 Dec 2008 10:25:07 GMT</pubDate>
    <description>&amp;gt;&amp;gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 838760 kern.info&#093; &#091;AFT2&#093; D$Parity (0x44:2:0x00) 0xc0&lt;br&gt;&lt;br&gt;Над этой строчкой в логе больше нету строк с &#091;AFT2&#093; ?&lt;br&gt;&lt;br&gt;А что вообще с сервером делали? Работал-работал и начал виснуть? Или что-то изменяли/устанавливали?&lt;br&gt;</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (Inhum)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#11</link>
    <pubDate>Fri, 12 Dec 2008 07:47:17 GMT</pubDate>
    <description>Сегодня снова сервер так же &quot;завис&quot;.&lt;br&gt;&lt;br&gt;После перезагрузки в /var/adm/messages:&lt;br&gt;&lt;br&gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 838760 kern.info&#093; &#091;AFT2&#093; D$Parity (0x44:2:0x00) 0xc0&lt;br&gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 810393 kern.info&#093; &#091;AFT2&#093; D$Data (0x00) 0x00000098.00000000 *Bad* 0x00000000.00000000&lt;br&gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 810393 kern.info&#093; &#091;AFT2&#093; D$Data (0x10) 0x00000000.00000000 0x00000000.00000000&lt;br&gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 441589 kern.info&#093; &#091;AFT2&#093; D$Tag (0x44:2) 0x40036457 D$state Valid D$utag 0xc011 D$snp 0x40036456&lt;br&gt;Dec 12 09:56:54 SUNW,UltraSPARC-IIIi: &#091;ID 550578 kern.info&#093; &#091;AFT2&#093; PAtag 0x000.364568a0 PAsnp 0x000.364568a0 VAutag 0x0468a0&lt;br&gt;Dec 12 09:56:58 fw: &#091;ID 957691 kern.notice&#093; threshold = 10&lt;br&gt;Dec 12 09:59:44 last message repeated 17 times&lt;br&gt;Dec 12 09:59:47 fw: &#091;ID 957691 kern.notice&#093; threshold = 10&lt;br&gt;Dec 12 10:01:01 last message repeated 42 times&lt;br&gt;Dec 12 10:01:01 fw: &#091;ID 154754 kern.notice&#093; &lt;br&gt;Dec 12 10:01:01 FW-1: stopping debug messages for the next 59 second</description>
</item>

<item>
    <title>Solaris 9, SunFire V240 упал. (zd3n)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID1/83202.html#10</link>
    <pubDate>Tue, 09 Dec 2008 03:37:09 GMT</pubDate>
    <description>&amp;gt;&amp;gt;Ну вот ,  понаписали всякого :) &lt;br&gt;&amp;gt;&amp;gt;Раз : &lt;br&gt;&amp;gt;&amp;gt;cat /dev/zero &amp;gt; /dev/dsk/c1t0d0s0   - Нифига  не полная проверка , т.к пишет  последовательно .&lt;br&gt;&amp;gt;&amp;gt;Два : &lt;br&gt;&amp;gt;&amp;gt;cat  /dev/dsk/c1t0d0s2 &amp;gt;  /dev/null - Нифига не полная проверка , т.к читает последовательно . &lt;br&gt;&amp;gt;&lt;br&gt;&lt;br&gt;А я и не говорю что это полная проверка, это действие позволяет быстро оценить, стоит ли оставлять данный винт на сервере....&lt;br&gt;При таких ошибках, на Sun серверах техподдержка меняет винты сразу... А то чревато последствиями....&lt;br&gt;Для десктопа конечно это не аргумент.&lt;br&gt;&lt;br&gt;Если нужна была бы полная проверка, то брать утилиту диагностики с сайта производителя винта и тестить.... &lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&amp;gt;&amp;gt;Вывод не имеет силы в случае &quot;кто то трогал кабели/диски/электричество&quot;  , &lt;br&gt;&amp;gt;&amp;gt;а то были преЦенДенТы :) &lt;br&gt;&lt;br&gt;Ну кто на серверах просто так кабели дёргает?... К ним годами иногда не подходят....&lt;br&gt;&lt;br&gt;&lt;br&gt;&amp;gt;Реально ли на основе запсис из лога, которую я привел, можно сделать &lt;br&gt;&amp;gt;вывод, что хард уже не пригоден для использования? &lt;br&gt;&lt;br&gt;Не факт, зависит от условий тех поддержки.....&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

</channel>
</rss>
