URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 96998
[ Назад ]

Исходное сообщение
"Подскажите, диску конец?"
Отправлено Пантелеев , 19-Сен-17 10:52

Не роняли, не пинали. Этот системник с райдом второго уровня включается раз в неделю, делает свои дела и выключается. Наработка то совсем маленькая.
Что могло случиться?

# smartctl -a /dev/sdb
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.12.12-300.fc26.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Blue Mobile
Device Model:     WDC WD10JPVX-22JC3T0
Serial Number:    WD-WX61A4332013
LU WWN Device Id: 5 0014ee 658cda8a5
Firmware Version: 01.01A01
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Sep 19 10:44:04 2017 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (16680) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 188) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   184   184   051    Pre-fail  Always       -       100271
  3 Spin_Up_Time            0x0027   178   175   021    Pre-fail  Always       -       2058
  4 Start_Stop_Count        0x0032   091   091   000    Old_age   Always       -       9449
  5 Reallocated_Sector_Ct   0x0033   191   191   140    Pre-fail  Always       -       413
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2366
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1774
191 G-Sense_Error_Rate      0x0032   093   093   000    Old_age   Always       -       7
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       137
193 Load_Cycle_Count        0x0032   195   195   000    Old_age   Always       -       15930
194 Temperature_Celsius     0x0022   123   086   000    Old_age   Always       -       24
196 Reallocated_Event_Count 0x0032   162   162   000    Old_age   Always       -       38
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       58
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Conveyance offline  Completed: read failure       90%      2362         2262201
# 2  Conveyance offline  Completed: read failure       90%      2362         2262201
# 3  Short offline       Completed: read failure       90%      2358         1026040
SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
dmesg
2468.216597] sd 6:0:0:0: [sdb] Attached SCSI disk
[ 2472.346413] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 2472.346421] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
[ 2472.346426] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
[ 2472.346433] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60 16 c5 00 00 08 00
[ 2472.346438] blk_update_request: critical medium error, dev sdb, sector 6297285
[ 2476.179034] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 2476.179043] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
[ 2476.179048] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
[ 2476.179055] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60 17 88 00 00 08 00
[ 2476.179060] blk_update_request: critical medium error, dev sdb, sector 6297480
[ 2480.150645] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 2480.150654] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
[ 2480.150659] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
[ 2480.150667] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60 16 c5 00 00 08 00
[ 2480.150672] blk_update_request: critical medium error, dev sdb, sector 6297285
[ 2480.150683] Buffer I/O error on dev sdb2, logical block 2104320, async page read
[ 2480.150692] Buffer I/O error on dev sdb2, logical block 2104321, async page read
[ 2480.150696] Buffer I/O error on dev sdb2, logical block 2104322, async page read
[ 2480.150700] Buffer I/O error on dev sdb2, logical block 2104323, async page read
[ 2480.150705] Buffer I/O error on dev sdb2, logical block 2104324, async page read
[ 2480.150709] Buffer I/O error on dev sdb2, logical block 2104325, async page read
[ 2480.150713] Buffer I/O error on dev sdb2, logical block 2104326, async page read
[ 2480.150717] Buffer I/O error on dev sdb2, logical block 2104327, async page read
[ 2483.737800] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 2483.737808] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
[ 2483.737812] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
[ 2483.737819] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60 17 88 00 00 08 00
[ 2483.737825] blk_update_request: critical medium error, dev sdb, sector 6297480
[ 2483.737835] Buffer I/O error on dev sdb3, logical block 0, async page read
[ 2483.737843] Buffer I/O error on dev sdb3, logical block 1, async page read

Содержание

Подскажите, диску конец?,Сергей, 12:58 , 19-Сен-17
Подскажите, диску конец?,nbsp, 13:15 , 19-Сен-17
- Подскажите, диску конец?,ALex_hha, 13:30 , 19-Сен-17
Подскажите, диску конец?,lavr, 13:30 , 19-Сен-17
- Подскажите, диску конец?,Аноним, 04:09 , 20-Сен-17
- Подскажите, диску конец?,AntonAlekseevich, 20:05 , 20-Сен-17
Подскажите, диску конец?,Anasis, 19:04 , 24-Сен-17
- Подскажите, диску конец?,AntonAlekseevich, 18:50 , 26-Сен-17
  - Подскажите, диску конец?,lavr, 19:32 , 26-Сен-17
    - Подскажите, диску конец?,AntonAlekseevich, 08:24 , 28-Сен-17
      - Подскажите, диску конец?,lavr, 10:04 , 28-Сен-17
        
        Подскажите, диску конец?,AntonAlekseevich, 14:51 , 28-Сен-17
        
        Подскажите, диску конец?,lavr, 18:46 , 28-Сен-17
        
        Подскажите, диску конец?,AntonAlekseevich, 19:13 , 28-Сен-17
        
        Подскажите, диску конец?,lavr, 20:45 , 28-Сен-17
Подскажите, диску конец?,Аноним, 12:07 , 01-Окт-17

Сообщения в этом обсуждении

"Подскажите, диску конец?"
Отправлено Сергей , 19-Сен-17 12:58

> Не роняли, не пинали. Этот системник с райдом второго уровня включается раз
> в неделю, делает свои дела и выключается. Наработка то совсем маленькая.
> Что могло случиться?
Может отвалился кабель и зачем выключать...

"Подскажите, диску конец?"
Отправлено nbsp , 19-Сен-17 13:15

>  5 Reallocated_Sector_Ct       413
> 196 Reallocated_Event_Count    38
> 197 Current_Pending_Sector     58
это уже скорее сувенир, чем диск.
надо менять.

"Подскажите, диску конец?"
Отправлено ALex_hha , 19-Сен-17 13:30

5   Reallocated_Sector_Ct   0x0033   191   191   140    Pre-fail  Always       -       413
196 Reallocated_Event_Count 0x0032   162   162   000    Old_age   Always       -       38
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       58
учитывая
9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2366
я бы сказал, что потенциальный труп. Так что делать бекап и менять

"Подскажите, диску конец?"
Отправлено lavr , 19-Сен-17 13:30

> Не роняли, не пинали. Этот системник с райдом второго уровня включается раз
> в неделю, делает свои дела и выключается. Наработка то совсем маленькая.
рейд второго уровня - это что?
> Что могло случиться?
> # smartctl -a /dev/sdb
> smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.12.12-300.fc26.x86_64] (local build)
> Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
> === START OF INFORMATION SECTION ===
> Model Family:     Western Digital Blue Mobile
> Device Model:     WDC WD10JPVX-22JC3T0
для рейд Вы взяли: WD Blue Mobile?
>[оверквотинг удален]
> Always       -
>    100271
>   3 Spin_Up_Time
>    0x0027   178   175
>  021    Pre-fail  Always
>    -       2058
>   4 Start_Stop_Count        0x0032
>   091   091   000
>  Old_age   Always
> -       9449
вот
>   5 Reallocated_Sector_Ct   0x0033   191
> 191   140    Pre-fail  Always
>      -
>  413
появилось что-то
>[оверквотинг удален]
> 000    Old_age   Always
>    -       0
>  12 Power_Cycle_Count       0x0032
> 099   099   000    Old_age
>   Always       -
>      1774
> 191 G-Sense_Error_Rate      0x0032   093
>  093   000    Old_age
> Always       -
>    7
не роняли?
> 192 Power-Off_Retract_Count 0x0032   200   200   000
>    Old_age   Always
>   -       137
> 193 Load_Cycle_Count        0x0032
> 195   195   000    Old_age
>   Always       -
>      15930
и вот - 4,193 - шпиндель up/down
> 194 Temperature_Celsius     0x0022   123
> 086   000    Old_age   Always
>       -
>   24
> 196 Reallocated_Event_Count 0x0032   162   162   000
>    Old_age   Always
>   -       38
появились
> 197 Current_Pending_Sector  0x0032   200   200
> 000    Old_age   Always
>    -       58
появились сектора с намеком на бед в будущем

>[оверквотинг удален]
> # 1  Conveyance offline  Completed: read failure
>    90%      2362
>        2262201
> # 2  Conveyance offline  Completed: read failure
>    90%      2362
>        2262201
> # 3  Short offline       Completed:
> read failure       90%
>    2358
>  1026040
short не прошел и два offline тоже не прошли, если Вы все время
включаете и выключаете - неудивительно.
Да и зачем offline, short и long тесты прогнать, но как если шпиндель
up/down?
>[оверквотинг удален]
> 0        0  Not_testing
>     3
> 0        0  Not_testing
>     4
> 0        0  Not_testing
>     5
> 0        0  Not_testing
> Selective self-test flags (0x0):
>   After scanning selected spans, do NOT read-scan remainder of disk.
> If Selective self-test is pending on power-up, resume after 0 minute delay.
Отключать apm, поможет ли или wdidle

> dmesg
> 2468.216597] sd 6:0:0:0: [sdb] Attached SCSI disk
> [ 2472.346413] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
> [ 2472.346421] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
ошибка поверхности если не ошибаюсь
> [ 2472.346426] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
> [ 2472.346433] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60
> 16 c5 00 00 08 00
> [ 2472.346438] blk_update_request: critical medium error, dev sdb, sector 6297285
> [ 2476.179034] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
unrecovered - непоправимая ошибка чтения

>[оверквотинг удален]
> [ 2483.737800] sd 6:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
> [ 2483.737808] sd 6:0:0:0: [sdb] tag#0 Sense Key : Medium Error [current]
> [ 2483.737812] sd 6:0:0:0: [sdb] tag#0 Add. Sense: Unrecovered read error
> [ 2483.737819] sd 6:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 60
> 17 88 00 00 08 00
> [ 2483.737825] blk_update_request: critical medium error, dev sdb, sector 6297480
> [ 2483.737835] Buffer I/O error on dev sdb3, logical block 0, async
> page read
> [ 2483.737843] Buffer I/O error on dev sdb3, logical block 1, async
> page read
WD Blue, да еще mobile под RAID?!
Резюме:
- WD Blue да еще Mobile в RAID... нет слов
- smart говорит о том что роняли или были удары
- medium error скорей всего это подтверждает
- ну и spin up/down регулярно - это не для RAID
Отдайте его в notebook, там ему место, предварительно:
- отрубить apm и попробовать wdidle утилиту
- после верхнего, выполнить два-три раза dd на запись
- после чего прогнать smart test short и затем long
посмотреть результат, посмотреть значение reallocation secorts
- попробовать dd на чтение
Сделать вывод: на свалку или в нотебук

"Подскажите, диску конец?"
Отправлено Аноним , 20-Сен-17 04:09

ответы lavr'a нужно отливать в граните

"Подскажите, диску конец?"
Отправлено AntonAlekseevich , 20-Сен-17 20:05

> Сделать вывод: на свалку или в нотебук
Такой диск однозначно на свалку!

"Подскажите, диску конец?"
Отправлено Anasis , 24-Сен-17 19:04

Вроде механика цела, но поверхность никакая - диск на свалку.
И зачем WD?

"Подскажите, диску конец?"
Отправлено AntonAlekseevich , 26-Сен-17 18:50

> И зачем WD?
Western Digital это лоукост диски. (Конечно для бэкапов они мало подходят, но всё же долго работают если кэш отрубить, да диски поставить боком.)

"Подскажите, диску конец?"
Отправлено lavr , 26-Сен-17 19:32

>> И зачем WD?
> Western Digital это лоукост диски. (Конечно для бэкапов они мало подходят, но
> всё же долго работают если кэш отрубить, да диски поставить боком.)
Вы это не подумав сказали?
WD имеет несколько линеек дисков в том числе и Enterprise,
мало того, WD купила HGST, это тоже лоукост?

"Подскажите, диску конец?"
Отправлено AntonAlekseevich , 28-Сен-17 08:24

> Вы это не подумав сказали?
> WD имеет несколько линеек дисков в том числе и Enterprise, мало того, WD купила HGST, это тоже лоукост?
Есть немного.
Но все же, 22 253 часа работы и только 3 незначительных ошибки записи. Это для меня уже лоукост.

"Подскажите, диску конец?"
Отправлено lavr , 28-Сен-17 10:04

>> Вы это не подумав сказали?
>> WD имеет несколько линеек дисков в том числе и Enterprise, мало того, WD купила HGST, это тоже лоукост?
> Есть немного.
> Но все же, 22 253 часа работы и только 3 незначительных ошибки
> записи. Это для меня уже лоукост.
???
22253 часа ~2.5 года, для такого периода 3 незначительные ошибки
это шикарный результат. Те диски из линеек Enterprise обычно
имеют срок гарантии 3 года или 5.
У ТС 2633 вроде часа, да еще модель Blue для мобильных систем,
судить по этому о всей продукции WD...
Собственно, вышли за рамки, sorry.

"Подскажите, диску конец?"
Отправлено AntonAlekseevich , 28-Сен-17 14:51

> ???
Именно. Это состояние SMART моего винта.
> 22253 часа ~2.5 года, для такого периода 3 незначительные ошибки это шикарный результат. Те диски из линеек Enterprise обычно имеют срок гарантии 3 года или 5.
За все время работы. Только у меня WD Blue Desktop{Конкретно WD10EZEX} и он действительно столько прослужил даже чуть больше.
> У ТС 2633 вроде часа, да еще модель Blue для мобильных систем, судить по этому о всей продукции WD...
WD Blue Mobile не выносят частых включений и выключений(но должны), но у него ситуация ещё с RAID собственно, серия WD Blue не рекомендуется для использования в RAID массивах.
> Собственно, вышли за рамки, sorry.
Мы остаемся в рамках темы.

"Подскажите, диску конец?"
Отправлено lavr , 28-Сен-17 18:46

>> ???
> Именно. Это состояние SMART моего винта.
>> 22253 часа ~2.5 года, для такого периода 3 незначительные ошибки это шикарный результат. Те диски из линеек Enterprise обычно имеют срок гарантии 3 года или 5.
> За все время работы. Только у меня WD Blue Desktop{Конкретно WD10EZEX} и
> он действительно столько прослужил даже чуть больше.
>> У ТС 2633 вроде часа, да еще модель Blue для мобильных систем, судить по этому о всей продукции WD...
> WD Blue Mobile не выносят частых включений и выключений(но должны)
с чего такой вывод?
Вот то что шпиндель up/down - видно
G-Sense_Error_Rate тоже видно
Raw_Read_Error_Rate
...
>, но у
> него ситуация ещё с RAID собственно, серия WD Blue не рекомендуется
> для использования в RAID массивах.
кроме общих рекомендаций, есть частные случаи, связаны они
с конструктивом тех или иных моделей, которые могут оказаться
не хуже чем Enterprise
>> Собственно, вышли за рамки, sorry.
> Мы остаемся в рамках темы.
нет, вышли, конкретный вопрос - диску конец?
а верхнее это уже жевание вокруг.

"Подскажите, диску конец?"
Отправлено AntonAlekseevich , 28-Сен-17 19:13

> с чего такой вывод?
Немного ошибся. Но этот конкретный случай вызвал такое предположение.
> нет, вышли, конкретный вопрос - диску конец?
Конкретный ответ был: Да, диск мертв.
Теперь можно выбраться за рамки и смотреть дальше вокруг да около.

"Подскажите, диску конец?"
Отправлено lavr , 28-Сен-17 20:45

>> нет, вышли, конкретный вопрос - диску конец?
> Конкретный ответ был: Да, диск мертв.
> Теперь можно выбраться за рамки и смотреть дальше вокруг да около.
смотреть что?
Лично у меня с выбором HDD и SSD полная определенность.
Общие проблемы связанные с длиной кабеля, мощностью питания
известны, наиболее неприятные моменты связаны с backplane,
но тут тоже известен порядок действий для проверки, увы,
проблемы backplane проявляются не сразу.

"Подскажите, диску конец?"
Отправлено Аноним , 01-Окт-17 12:07

Когда есть сомнения, конец ли диску, ему конец.