Jak v Linuxu na Smart - Krutá realita

Jak v Linuxu na Smart

13.04.2005

smart

Úvod

Při zkoušce softwarového RAID pole se mi nedávno stala nepěkná příhoda, pole se odmítla synchronizovat. Dlouho jsem bloumal nad tím, proč furt dostávám hlášení o read error až jsem dospěl k tomu, že by bylo vhodné zjistit stav disků. To jsem samozřejmě potřeboval na serveru zjistit bez jeho výpadku, nyní se tedy podíváme jak na to.

Zapnutí a zobrazení SMART v Linuxu

smartctl /dev/hda -a -s on

Parametr -a zobrazuje informace o pevném disku a parametr -s on zapíná podporu pro SMART.

Výstup Smart

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x80) Offline data collection activity was never started. Auto Offline Data Collection: Enabled. Self-test execution status: ( 118) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: ( 242) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. No General Purpose Logging support. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 54) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0027 201 201 063 Pre-fail Always - 9892 4 Start_Stop_Count 0x0032 253 253 000 Old_age Always - 46 5 Reallocated_Sector_Ct 0x0033 109 101 063 Pre-fail Always - 1464 6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0 7 Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0 8 Seek_Time_Performance 0x0027 250 245 187 Pre-fail Always - 45468 9 Power_On_Minutes 0x0032 242 242 000 Old_age Always - 654h+09m 10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0 11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 253 253 000 Old_age Always - 91 192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0 194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 44 195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 19481 196 Reallocated_Event_Count 0x0008 046 046 000 Old_age Offline - 207 197 Current_Pending_Sector 0x0008 230 223 000 Old_age Offline - 238 198 Offline_Uncorrectable 0x0008 252 015 000 Old_age Offline - 1 199 UDMA_CRC_Error_Count 0x0008 199 199 000 Old_age Offline - 0 200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 253 242 000 Old_age Always - 27 202 TA_Increase_Count 0x000a 253 001 000 Old_age Always - 0 203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 7 204 Shock_Count_Write_Opern 0x000a 253 242 000 Old_age Always - 0 205 Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always - 0 207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0 208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0 209 Offline_Seek_Performnce 0x0024 196 196 000 Old_age Offline - 0 99 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0 100 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0 101 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0

Co je důležité

Asi nejdůležitější je položka Reallocated_Sector_Ct, která udává počet vadných sektorů, které byly přesunuty na náhradní místo. Pokud je toto číslo menší než 100 nevěšte hlavu, vašemu životu zbývá ještě hodně času. Pokud ovšem toto číslo jde do stovek, ne-li tisíců, začněte vážně uvažovat o výměně disku za jiný.

5 Reallocated_Sector_Ct 0x0033 001 001 063 Pre-fail Always FAILING_NOW 2556

To co vidíte výše je zbytek práce po správci sítě, po kterém jsem přebral práci. Na disku je přesunuto 2556 a systém hlásí, že disk již vážně odchází. Vzhledem k tomu, že předešlý správce sítě si dal opravdu záležet, 2 ze 3 pevných disků v mém serveru pravděpodobně během pár týdnů odejdou do věčných lovišť. Díky chybám ve čtení navíc nemohu synchronizovat RAID pole, takže bych pravděpodobně měl jednat.

Test povrchu disku

V linuxu samozřejmě můžete také za běhu pustit kontrolu povrchu disku a to příkazem. smartctl /dev/hda -t short ... pockejte 2 minuty ... smartctl /dev/hda -a

Nyní může váš výsledek vypadat takto # 1 Short offline Completed: read failure 60% 1590 0x0d7cd0b6

A nebo také takto (máte štěstí že jste nepřebírali práci po někom kdo počítačům rozumí jak...). # 1 Short offline Completed without error 00% 1766 -

Přidat komentář

:-D 8-) :-) ;-) :-o :-( :evil: :idea:

Pro příspěvky je vyžadována podpora obrázků

Pro ověření zde prosím napište text, který vidíte na obrázku