fehlersuche

A 10-post collection


RSS feed of posts tagged fehlersuche

Sun T5120 - Mehr RAM und Festplatten Probleme

Funktionierendes RAM ist inzwischen da.

OpenBoot 4.33.6, 130944 MB memory available, Serial #89118602.

Bei der Solaris Installation bin ich jetzt aber auf ein weiteres Problem gestoßen.

Und zwar gefallen Solaris die Festplatten noch nicht so ganz.

WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@0,0 (sd4):
        Corrupt label; wrong magic number

WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@1,0 (sd5):
        Corrupt label; wrong magic number

WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@2,0 (sd6):
        Corrupt label; wrong magic number

WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@3,0 (sd7):
        Corrupt label; wrong magic number

Das sollte man eigentlich mit dem Format Befehl lösen können, jedoch hat der Probleme ein Label zu schreiben:

format> disk


AVAILABLE DISK SELECTIONS:
       0. c2t0d0 <SEAGATE-DKS5B-K146SS-4F5E cyl 58758 alt 2 hd 4 sec 1220>
          /pci@0/pci@0/pci@2/scsi@0/sd@0,0
       1. c2t1d0 <SEAGATE-DKS5B-K146SS-4F5E cyl 58758 alt 2 hd 4 sec 1220>
          /pci@0/pci@0/pci@2/scsi@0/sd@1,0
       2. c2t2d0 <SEAGATE-DKS5B-K146SS-4F5E cyl 58758 alt 2 hd 4 sec 1220>
          /pci@0/pci@0/pci@2/scsi@0/sd@2,0
       3. c2t3d0 <SEAGATE-DKS5B-K146SS-4F5E cyl 58758 alt 2 hd 4 sec 1220>
          /pci@0/pci@0/pci@2/scsi@0/sd@3,0
Specify disk (enter its number)[2]: 3
selecting c2t3d0
[disk formatted]
Mar 25 16:18:08 solaris cmlb: WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@3,0 (sd7):
Mar 25 16:18:08 solaris         Corrupt label; wrong magic number
Disk not labeled.  Label it now? y
Mar 25 16:18:09 solaris cmlb: WARNING: /pci@0/pci@0/pci@2/scsi@0/sd@3,0 (sd7):
Mar 25 16:18:09 solaris         Corrupt label; wrong magic number
Warning: error writing VTOC.
Warning: no backup labels
Write label failed

Es gibt da noch den Tipp einfach mit DD die ersten paar Blöcke der Platte zu überschreiben aber auch das hat bei mir nicht funktioniert:

root@solaris:/root# dd if=/dev/zero of=/dev/rdsk/c2t3d0s2 bs=1024 count=100
write: I/O error
1+0 records in
1+0 records out

Slice 2 ist hierbei die ganze Platte auf Sparc Systemen, nicht nur eine Partition.

Ich bin gerade am Recherchieren, wie man das Problem noch lösen könnte. Wenn es nicht mit der Solaris CD funktioniert, werd ich nochmal zu Ubuntu greifen, da sollte das DD zumindest kein Problem sein.

»

Sun T5120 - Mehr RAM

t5120-ram

Beim Upgrade auf 128GB ist dann allerdings was schief gelaufen. Zwei der acht Riegel waren defekt.

Auf der Console sieht das dann so aus:

0:0:0>Test Memory....Done
0:0:0>Setup POST Mailbox ....Done
0:0:0>Master CPU Tests Basic....Done
0:0:0>Init MMU.....
Fault | critical: SP detected fault at time Wed Mar 21 09:14:27 2018. /SYS/MB/CMP0/BR3/CH1/D1 Inserted disabled
Fault | critical: SP detected fault at time Wed Mar 21 09:14:27 2018. /SYS/MB/CMP0/BR3/CH0/D1 Inserted disabled
Fault | critical: SP detected fault at time Wed Mar 21 09:14:39 2018. Generic Powersupply fault at PS0 asserted
0:0:0>NCU Setup and PIU link train....Done
0:0:0>L2 Tests....Done
0:0:0>Extended CPU Tests....Done
0:0:0>Scrub Memory....Done
0:0:0>SPU CWQ Tests...Done
0:0:0>MAU Tests...Done
0:0:0>Network Interface Unit Port 0 Tests ..Done
0:0:0>Network Interface Unit Port 1 Tests ..Done
0:0:0>Functional CPU Tests....Done
0:0:0>Extended Memory Tests....Done
2018-03-21 09:19:35.056 0:0:0>INFO:
2018-03-21 09:19:35.109 0:0:0>	POST Passed all devices.
2018-03-21 09:19:35.164 0:0:0>POST:	Return to VBSC.
2018-03-21 09:19:35.217 0:0:0>Master set ACK for vbsc runpost command and spin...
Chassis | major: Host is running


SPARC Enterprise T5120, No Keyboard
Copyright (c) 1998, 2012, Oracle and/or its affiliates. All rights reserved.
OpenBoot 4.33.6, 32640 MB memory available, Serial #89118602.
Ethernet address 0:21:28:4f:d7:8a, Host ID: 854fd78a.



ERROR: The following devices are disabled:
    MB/CMP0/BR3/CH0/D1
    MB/CMP0/BR3/CH1/D1


Aborting auto-boot sequence.
{0} ok

32GB hier, da man jeden Branch mit den gleichen Modulen bestücken muss. Ich habe jetzt einen Mix aus 32GB Samsung, 32GB SK Hynix und 64GB Micron wovon 2 defekt sind. Nur der erste Channel hatte in dem Fall funktionierende Module.

Siehe auch: https://docs.oracle.com/cd/E19637-01/E21876-01/z40012191414552.html

»

Neuer Fileserver Teil 11 - neuer SAS Controller, ESXi 6.5U1 Update

Heute habe ich einen IBM M1215 (LSI 3008) eingebaut, der musste auch auf IT Mode umgeflasht werden, aber IBM legt da zum Glück keine Stolpersteine in den Weg.
Die Performance scheint mir etwas besser zu sein. Derzeit läuft ein Scrub mit 600MB/s auf den drei Platten. Einen Fehler gabs bisher nicht, aber beim alten Controller hat man es auch erst nach Wochen gemerkt.
Falls das Problem mit dem Controller hier nicht mehr auftritt, liegt das Problem sehr wahrscheinlich am FreeBSD Treiber oder an der Firmware des Controllers selbst.

Man könnte es sehr wahrscheinlich auch in der Firmware der Festplatten fixen aber da müsste man erstmal einen Fehler nachweisen. Mit Seagate hatte ich zwar Kontakt, aber da kommt man wohl nur weiter, wenn das Problem bei wirklich vielen Leuten auftritt. Bisher konnte ich nur einen Leidensgenossen finden.

Da ich den Server zum Einbau des Controllers eh herunterfahren musste, habe ich gleich noch ein ESXi Update gemacht. VMWare macht einem das auch nicht ganz einfach, aber ich habe diese Anleitung gefunden. Die Command-Line-Methode funktioniert auch mit dem kostenlosen ESXi.

Update:

Beim ersten Scrub wurden ein paar kaputte Checksummen auf einer der Platten gefunden, sie konnten aber alle repariert werden. Ich habe dann noch einen zweiten Scrub durchlaufen lassen, bei dem dann alles ok war. Bisher keine SATA/SAS Errors.

Greenshot-2017-10-30-01.18.37

Hier sieht man schön, dass das System bei so einem Scrub wirklich etwas tut. Die CPU Temperatur stieg von 36°C auf 40°C (dunkelgrün).

»

Neuer Fileserver Teil 10 - noch ein Problem

Es hat mir jetzt schon zweimal eine Platte aus dem raidz1 geschossen. Im Kernel Log war immer sowas hier zu finden:

mps0:0:0:0): SCSI sense: UNIT ATTENTION asc:29,0 (Power on, reset, or bus device reset occurred)

Die Platte ist ok, man kann den Fehler auch mit einem zpool clear wieder zurücksetzen und der Pool läuft nach einem Reboot wieder normal ohne Fehler weiter.

Ich dachte erst, dass evtl. das SAS Kabel defekt sei, aber das hab ich heute getauscht und hatte kurz danach nochmal das gleiche Problem mit einer anderen Platte.

Nach kurzer Suche habe ich dann einen weiteren freenas User gefunden, der einen ähnlichen SAS Controller mit den gleichen Platten einsetzt. Er hat eine etwas ältere Firmware und heute auf meine Version upgedated. Vorher lief sein Controller mit anderen Platten ohne Probleme.

Das könnte nun ein Bug im FreeBSD Treiber für den Controller sein, evtl. liegt es auch an der Firmware der Platten. Ich überlege gerade Seagate mal zu kontaktieren.

»

Neuer Fileserver Teil 8 - neues Ram neues Glück

So das neue RAM ist da, Micron/Crucial 16GB reg. ECC Riegel (MTA36ASF2G72PZ-2G1A2). Die finden sich auch auf der HCL von Supermicro. Ich bin zuversichtlich. Diesmal konnte ich auch große Dateien kopieren und derzeit läuft einen Memtest.

Der Server steht gerade unter meinem Schreibtisch und ist schon sehr leise. Das lauteste sind die Seagate Platten.

...ein paar Stunden später...

Memtest lief auch durch ohne Probleme, diesmal ohne Failsafe-Mode.
Habe auch gerade Geekbench4 laufen lassen, hier das Ergebnis:
https://browser.geekbench.com/v4/cpu/4022145

Etwas langsamer als der Spielerechner mit i7-7700K aber schneller als der Mac Pro mit Xeon x5670. Demnächst werde ich auch mal den alten Server benchmarken.

ICjkzdC

»