全國最多中醫師線上諮詢網站-台灣中醫網
發文 回覆 瀏覽次數:2583
推到 Plurk!
推到 Facebook!

2007/03/09 ~ 12 停站事件

 
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#1 引用回覆 回覆 發表時間:2007-03-12 16:58:46 IP:220.132.xxx.xxx 未訂閱
各位大家好:

終於又能上線了

最近因不定時的 crash , 沒留下任何可供除錯的資訊,因此一直放著.
直到 9號下午,已經 crash 到一開機就 crash ,完全無法進入系統.
所以將主機關了,帶回家檢查.

回顧最近一次的更新是上了 FreeBSD-6.2-Release Patch 2, 接著就是惡夢的開始了.
在 Delphi.Ktop 每次的更新作業,並不會將此主機當白老鼠,每次都是在其它多台主機
更新後跑了幾天,沒有問題才會輪到 Delphi.Ktop 更新.
所以一開始是將問題鎖定在 "主機" 有問題,所以先檢查主機版 ASUS P5LD2 Deluxe , OK 無爆漿.
電源供應器僑威 550W Power 除了出風口都是熱風外,供電還穩定看不出有何問題.
看看華碩的站,嗯 BIOS 有點舊了,更新一下 BIOS 至 0603 版,重開試試.....
還是 PANIC PANIC PANIC 進不了系統,連磁碟作業階段都跑不到,所以也沒 crash dump 可查.
但可以確定的是 ACPI 有問題,因為用 FreeBSD 安裝光碟,只要 Disable ACPI 去 BOOT 就可以進入
系統了,問題是,本台主機 CPU 是 Pentium D 930 雙核心的 CPU, 如 Disable ACPI ,在 FreeBSD 下
跑的將是單 CPU 模式, 只好再次硬著頭皮更新 BIOS 到 0705 Beta 版.

YES SMP 可以 BOOT 了............只是沒多久,又 PANIC 了..........

是最近的版本和這台機器不合嗎??嗯.. 最早裝的是 6.1 還蠻穩定的,在過年前才升級到 6.2 , 因此把系統
降級到 6.1 WithOut SMP .. 嗯,很穩定..啟用 SMP .. 嗯.. OK. 再下一步,升級至 6.2-RELEASE , 這版本這台
也跑一陣子了,沒有問題, 開啟 SMP ..OK 可以用了.. 作作壓力測試.. OK 過關.. 開始作最佳化, 也過關.

OK 沒問題了, 開始備份系統... tar........
tar 了 10 幾分後,又 panic 了
不信邪重開後再次 tar 了一次..又 panic 了.
開始懷疑是不是 RAM 不穩 .... 可是作過了這麼多次 make world 升級降級不知作了幾次,都 OK呀.
一般 RAM 有問題或主機有問題通常過不了 make world 的...好吧,為了確定 RAM 也 OK, 請出了
memtest86 跑了兩個小時 OK.. RAM 沒問題..

開始一步步往回推終於在核心編譯最佳化的地方找到問題了.
奇怪了,只能使用官方內定的 gcc 編譯最佳化設定,多加一些就會在某些操作上導致 crash. ex: tar
就只有這台會這樣 @_@ , 好吧...為求穩定,就用 官方內定的吧..

終於通過所有的測試了.. It's FreeBSD-6.2-Release Patch 2 Now

這期間,不斷的 make world make kernel crash panic fsck .....搞了幾天,還是跑到
FreeBSD-6.2-Release Patch 2 了,差異就只在編譯最佳化, make world 可以最佳化
make kernel 在這台目前這版本,和未來可能的版本不行

怪吧..問題可能出在 Release ~ patch 1 ~ patch 2 之間,沒時間去追了..反正這顆 CPU
也夠快了,就不要再榨它了..

希望各位使用愉快.
------
yckuo

版主


發表:261
回覆:2302
積分:1667
註冊:2005-01-04

發送簡訊給我
#2 引用回覆 回覆 發表時間:2007-03-12 17:04:54 IP:59.125.xxx.xxx 未訂閱
大大辛苦囉~~~

感謝您的奉獻!!!
------
-------------------------------------------------------------------------
走是為了到另一境界,停是為了欣賞人生;未走過千山萬水,怎知生命的虛實與輕重!?
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#3 引用回覆 回覆 發表時間:2007-03-12 19:11:04 IP:220.131.xxx.xxx 訂閱
你再 make buildworld 一次。
跟 kernel 都重做一次
如果 compiler option 有 -O2 的你先把它拿掉。

FreeBSD xxx.xxx.xxx.xxx 6.2-STABLE FreeBSD 6.2-STABLE #0: Sat Feb 24 22:44:54 CST 2007
這是我用的版本用 cvsup 由 5.5Release 昇上來的。
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#4 引用回覆 回覆 發表時間:2007-03-12 19:30:46 IP:220.132.xxx.xxx 未訂閱
目前的 kernel 已沒有 -O2 , 只有官方內定的 -O -pipe.

看來問題還沒有解決,剛又 crash 了, 原來我作的壓力測試還不夠.
沒有 -O2 等,只是延緩問題發生而已.

再作一次 debug kernel 等產生 coredump,再查到底是那裡出問題.
------
yckuo
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#5 引用回覆 回覆 發表時間:2007-03-13 02:00:45 IP:220.132.xxx.xxx 未訂閱
最近一次的 panic 終於有一個 coredump 可以查原因了, 經由 kgdb trace kernel 發現會引發這樣的 panic , 就是煩人的硬體問題. 
(CPU , RAM, Power Supply), 個人懷疑是 Power Supply.

經由前文知道,曾經在 tar 時會引發 panic , 硬碟重載吃電.. Power 不穩,可以如此解釋吧.
如 CPU 或 RAM 我想作那麼多次的 make world , 應該早就 crash , 或得到 signal 11 了.

明天和天使討論一下,看是否買顆 Power 來換.

<textarea class="cpp" rows="10" cols="60" name="code">Fatal trap 28: machine check trap while in kernel mode cpuid = 0; apic id = 00 instruction pointer = 0x20:0xc0512bb2 stack pointer = 0x28:0xe326bc7c frame pointer = 0x28:0xe326bc88 code segment = base 0x0, limit 0xfffff, type 0x1b = DPL 0, pres 1, def32 1, gran 1 processor eflags = interrupt enabled, IOPL = 0 current process = 12 (swi4: clock) trap number = 28 panic: machine check trap cpuid = 0 Uptime: 14s Physical memory: 1018 MB Dumping 43 MB: 28 12 #0 doadump () at pcpu.h:165 165 __asm __volatile("movl %%fs:0,%0" : "=r" (td)); (kgdb) list *0xc0512bb2 0xc0512bb2 is in _mtx_lock_sleep (cpufunc.h:317). 312 } 313 314 static __inline void 315 ia32_pause(void) 316 { 317 __asm __volatile("pause"); 318 } 319 320 static __inline u_int 321 read_eflags(void) (kgdb) bt #0 doadump () at pcpu.h:165 #1 0xc051c806 in boot (howto=260) at ../../../kern/kern_shutdown.c:409 #2 0xc051cb2d in panic (fmt=0xc06633f0 "%s") at ../../../kern/kern_shutdown.c:565 #3 0xc06416b0 in trap_fatal (frame=0xe326bc3c, eva=0) at ../../../i386/i386/trap.c:837 #4 0xc06411cc in trap (frame= {tf_fs = -484048888, tf_es = -1068367832, tf_ds = -1004666840, tf_edi = -1004656384, tf_esi = -1000922368, tf_ebp = -484000632, tf_isp = -484000664, tf_ebx = -1066640480, tf_edx = -1066611016, tf_ecx = -667475548, tf_eax = 4, tf_trapno= 28, tf_err = 0, tf_eip = -1068422222, tf_cs = 32, tf_eflags = 582, tf_esp = -1066640480, tf_ss = 4}) at ../../../i386/i386/trap.c:632 #5 0xc062d9da in calltrap () at ../../../i386/i386/exception.s:139 #6 0xc0512bb2 in _mtx_lock_sleep (m=0xc06c5ba0, tid=3290310912, opts=0, file=0x0, line=0) at cpufunc.h:317 #7 0xc0529101 in softclock (dummy=0x0) at ../../../kern/kern_timeout.c:258 #8 0xc0507e59 in ithread_execute_handlers (p=0xc41e1860, ie=0xc41cf300) at ../../../kern/kern_intr.c:682 #9 0xc0507f69 in ithread_loop (arg=0xc41ca860) at ../../../kern/kern_intr.c:765 #10 0xc0506c35 in fork_exit (callout=0xc0507f14 , arg=0xc41ca860, frame=0xe326bd38) at ../../../kern/kern_fork.c:821 #11 0xc062da3c in fork_trampoline () at ../../../i386/i386/exception.s:208 (kgdb) up 4 #4 0xc06411cc in trap (frame= {tf_fs = -484048888, tf_es = -1068367832, tf_ds = -1004666840, tf_edi = -1004656384, tf_esi = -1000922368, tf_ebp = -484000632, tf_isp = -484000664, tf_ebx = -1066640480, tf_edx = -1066611016, tf_ecx = -667475548, tf_eax = 4, tf_trapno = 28, tf_err = 0, tf_eip = -1068422222, tf_cs = 32, tf_eflags = 582, tf_esp = -1066640480, tf_ss = 4}) at ../../../i386/i386/trap.c:632 632 trap_fatal(&frame, eva); (kgdb) up #5 0xc062d9da in calltrap () at ../../../i386/i386/exception.s:139 139 call trap (kgdb) quit </textarea>
------
yckuo
taishyang
站務副站長


發表:377
回覆:5490
積分:4563
註冊:2002-10-08

發送簡訊給我
#6 引用回覆 回覆 發表時間:2007-03-13 09:38:08 IP:59.124.xxx.xxx 未訂閱
前輩辛苦了^_^
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#7 引用回覆 回覆 發表時間:2007-03-13 11:09:29 IP:220.131.xxx.xxx 訂閱
咦 power 問題之前不是有提過了?
用兩顆 power 來處理。
一顆全給 HD 用。主機板吃原來的。
對於重負載得做這樣的處理才會安全一點。
===================引 用 文 章===================
最近一次的 panic 終於有一個 coredump 可以查原因了, 經由 kgdb trace kernel 發現會引發這樣的 panic ,就是煩人的硬體問題.
(CPU , RAM, Power Supply), 個人懷疑是 Power Supply.

經由前文知道,曾經在 tar 時會引發 panic , 硬碟重載吃電.. Power 不穩,可以如此解釋吧.
如 CPU 或 RAM 我想作那麼多次的 make world , 應該早就 crash , 或得到 signal 11 了.

yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#8 引用回覆 回覆 發表時間:2007-03-13 11:18:45 IP:220.132.xxx.xxx 未訂閱
暗黑前輩真是好記性,當初因為清過 CPU 風扇,再加個北僑風扇後,系統就穩定了,所以並沒有換
Power .
------
yckuo
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#9 引用回覆 回覆 發表時間:2007-03-13 11:54:11 IP:220.131.xxx.xxx 訂閱
那你這次不會又是風扇轉太慢了吧。
在 tar 時又下 x 參數。讓 cpu 運算到發燒。
而造成的問題吧。@@
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#10 引用回覆 回覆 發表時間:2007-03-13 13:01:20 IP:220.132.xxx.xxx 未訂閱
這次拿回家時已有作過所有風扇與散熱片的清潔,溫度與風扇也都有在監控
CPU 溫度都在 4X ~ 5X 之間, MB 溫度 3X ~ 40 之間.

今天會買顆 Power 換上, ASUS 手冊建議此版應使用至少 350W ATX v2.0 POWER
但我查資料 Pentium D 930 本身全速至少會吃掉 95W, 系統上還有四顆風扇,兩塊網卡
一塊VGA, 兩顆 IDE 250G HD, 目前使用的是 僑威 CWT-550AD (550W) Power.
12V 24A 版本, 個人感覺這顆頗兩光.

有建議買那顆好嗎 ?? 建議瓦數在那個等級 ??
不要弄兩顆 Power 給機器跟 HD 分開啦,這樣不好擺放耶.
------
yckuo

版主


發表:261
回覆:2302
積分:1667
註冊:2005-01-04

發送簡訊給我
#11 引用回覆 回覆 發表時間:2007-03-13 13:55:23 IP:59.125.xxx.xxx 未訂閱
粗估...550W 應該夠喔. 除非 Power 本身不足 550W

ASUS 350W, Fan 算0.5A x 4(12V) = 24W
硬碟 X2 100W, VGA 30W, 兩塊網卡 30W

要不要換廠牌? Delta GPS -550A B-A (550W, 12cm Fan) 保證足瓦

===================引 用 文 章===================
這次拿回家時已有作過所有風扇與散熱片的清潔,溫度與風扇也都有在監控
CPU 溫度都在 4X ~ 5X 之間, MB 溫度 3X ~ 40 之間.

今天會買顆 Power 換上, ASUS 手冊建議此版應使用至少 350W ATX v2.0 POWER
但我查資料 Pentium D 930 本身全速至少會吃掉 95W, 系統上還有四顆風扇,兩塊網卡
一塊VGA, 兩顆 IDE 250G HD, 目前使用的是 僑威 CWT-550AD (550W) Power.
12V 24A 版本, 個人感覺這顆頗兩光.

有建議買那顆好嗎 ?? 建議瓦數在那個等級 ??
不要弄兩顆 Power 給機器跟 HD 分開啦,這樣不好擺放耶.
------
-------------------------------------------------------------------------
走是為了到另一境界,停是為了欣賞人生;未走過千山萬水,怎知生命的虛實與輕重!?
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#12 引用回覆 回覆 發表時間:2007-03-13 14:15:44 IP:220.132.xxx.xxx 未訂閱
感謝 ㊣ 的建議, 目前考慮的有 台達, 海韻 或 七盟.

------
yckuo
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#13 引用回覆 回覆 發表時間:2007-03-13 14:33:29 IP:220.131.xxx.xxx 訂閱
我家自用的是因為手上也有多的設備所以我就用一個本來是來外接的USB HD的外接盒。
當然是 3.5 吋的。把它的電路拔出來用。
把它接到電腦內部是還可以。

而公司用的是因為當時就考慮到HD的耗電問題。就是直接搞一個硬碟櫃在處理。所以沒那個問題。
只是你所謂的電容沒爆漿這一點很難說。主機板沒事。POWER裏的也許已經裂了。
如果那個POWER已經過保了。你可以拆下看一下。
它的電容爆了就算原來是足瓦的。也會出現不穩的情況。
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#14 引用回覆 回覆 發表時間:2007-03-13 14:41:35 IP:220.131.xxx.xxx 訂閱
再者我也遇過電源品質不足的情況。
也會發生這種情況。
不過那是屬於瞬斷的情況。
只會一直重新開機。
尤其是家中有冷氣在起動那瞬間,會造成重開。
查了很久才發現這個關聯性。

不過。這次的問題。我會建議先分兩顆POWER去測問題是不是在 power.
如果是,再進行處理。
至少我們先把問題找出來。而不是在猜問題。
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#15 引用回覆 回覆 發表時間:2007-03-13 15:11:28 IP:220.132.xxx.xxx 未訂閱
感謝暗黑前輩的指教 :)

我想這個問題我會買顆好點的 Power 過去換.希望換完一切就 OK 了.
如果要再測試的話,可能得跑多趟,也許會 crash , 一 crash 要修蠻久的.
機器不在身邊並不那麼容易測,要是我在上班中,它 fsck 失敗,那就又得
等了下班時間.. So .. 請見諒.

拆下來那顆 Power 我會把它拆開看看.. (雖然不是很懂)
------
yckuo
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#16 引用回覆 回覆 發表時間:2007-03-13 15:13:17 IP:220.132.xxx.xxx 未訂閱
電源品質應該是還 OK 的, 那台有接 UPS .
------
yckuo
Coffee
版主


發表:31
回覆:878
積分:561
註冊:2006-11-15

發送簡訊給我
#17 引用回覆 回覆 發表時間:2007-03-13 15:29:53 IP:220.130.xxx.xxx 訂閱
有沒有考慮Etasis..:P
好歹我自己那顆活了六年..XD
------
不論是否我發的文,在能力範圍皆很樂意為大家回答問題。
為了補我的能力不足之處,以及讓答案可以被重複的使用,希望大家能儘量以公開的方式問問題。
在引述到我的文時自然會儘量替各位想辦法,謝謝大家!
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#18 引用回覆 回覆 發表時間:2007-03-13 19:16:27 IP:220.131.xxx.xxx 訂閱
有兩個情況。
一、你再開一台 FreeBSD 只要簡單可以 ssh 進去的 server.
然後我們用的這台 delphi.ktop.com.tw 的 console 輸出把它導向到
com1 去。這樣所有你在 console 看到的東東都會輸出到 com 1
那你的所有維修都可以由遠端進行。只要你的 loader 有啟動,就可以做到了。
也就是說,大約是在 bios 完後就可以用另一台的 minicom 過來處理 fsck 等等的動作。

另電源品質的問題。嘿嘿嘿。不要認為過UPS就沒事了。
我遇過的狀況就是在UPS後面還出事。
本來一直認為不可能。但是就是發生了。
PS.七月半確定有拜拜。joke. ^_^
===================引 用 文 章===================
感謝暗黑前輩的指教 :)

我想這個問題我會買顆好點的 Power 過去換.希望換完一切就 OK 了.
如果要再測試的話,可能得跑多趟,也許會 crash , 一 crash 要修蠻久的.
機器不在身邊並不那麼容易測,要是我在上班中,它 fsck 失敗,那就又得
等了下班時間.. So .. 請見諒.

拆下來那顆 Power 我會把它拆開看看.. (雖然不是很懂)
wishmaster926
初階會員


發表:91
回覆:69
積分:32
註冊:2006-12-13

發送簡訊給我
#19 引用回覆 回覆 發表時間:2007-03-13 20:35:32 IP:218.166.xxx.xxx 訂閱
各位前輩辛苦了,我還以為關店了,還好,CCCCCCC
------
~~~~~~~~時時多爬文 勿使惹塵埃~~~~~~~~
~~~~~~~~時時多爬文 勿使惹塵埃~~~~~~~~
~~~~~~~~時時多爬文 勿使惹塵埃~~~~~~~~
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#20 引用回覆 回覆 發表時間:2007-03-13 22:51:19 IP:220.132.xxx.xxx 未訂閱
今晚拿了顆 保銳 500W 過去測, 重新 make world , make kernel 全用內定值, 沒有加任何
CFLAGS or COPTFLAGS, SMP 照樣開機就 Crash, 不開 SMP 就穩定了.

也嘗試過,只要一顆硬碟, 照樣 Crash .
電源, 也有試過不經 UPS , 直接吃市電, 及換到另一區,吃另一區的電.
照樣 crash, SMP 也有開起來成功過, 也沒多久就 crash , 訊息都是 trap 28
panic: machine check trap
Serial Console 在此環境不適合,不然我就不用這樣跑了.
Power 也換過了, 就剩 CPU , RAM, 主機板 , 哈...這些都沒東西可試
實在是太詭異了...目前這一版本 6.2R-p2 SMP 在這台也跑過幾天了,
怎現在就是怎麼跑怎麼 panic.

目前先跑 單 CPU, 單 CPU 這台不會 crash.., 等看可以借到東西來測看看再說.
------
yckuo
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#21 引用回覆 回覆 發表時間:2007-03-15 14:18:01 IP:220.132.xxx.xxx 未訂閱
硬體所有配備跟原來的一模一樣, Power 也一樣是僑威那顆.

昨天更新至 6.2-STABLE , 跑 SMP 一樣沒多久就 crash.
不跑 SMP,就很穩定.

SMP 模式相關昨天的資料如下,有興趣的人可以拿去看看. kernel coredump .
但請不要拿去發 PR , 發了也沒用的,因為觸發 panic 的 trap 28, 經由 trace kernel
後發現,這是因為 kernel 收到了 BIOS 發出的 NMI 信號,而 freebsd kernel 對 NMI
信號的處理它僅會對 NMI_PARITY and NMI_IOCHAN 觸發 panic,其餘電腦可正常
運作. NMI_PARITY 通常是 RAM 的問題, NMI_IOCHAN 通常是 I/O Channel 的問題
也有可能是排線有問題.
kernel 對 nmi 信號的處理位於 /sys/i386/isa/nmi.c 有興趣的可以去看看.

神奇靈異的狀況又發生了,今天早上 11:30 起,我再次讓 SMP 啟動.
加重負載, CPU 溫度提高了 10 度到 52度, CPU 風扇轉速由 2800 左右提升到了 3200 轉
到目前發此文時 SMP 仍然穩定運作中.

由於小弟之前有碰過於營業場所廣告霓虹燈旁的電腦,也發生過運作中的程式時常出現錯誤.
但程式沒有問題.該問題後來是換用 ECC RAM 解決.

因此這又讓我想到會是有干擾源嗎?? 本機目前沒蓋機殼, 不到10公尺內路邊有台電大電箱.
怪異的是本機旁邊也有兩三台電腦,卻都沒有問題.
機殼可以擋輕微的 EMI 干擾嗎?? (機殼不知跑那去了)

目前能作的,晚上會去換組 IDE 排線, RAM 要等借到 RAM 來測. 本機板不支援 ECC RAM

any idea ??
------
yckuo
暗黑破壞神
版主


發表:9
回覆:2301
積分:1627
註冊:2004-10-04

發送簡訊給我
#22 引用回覆 回覆 發表時間:2007-03-15 19:09:39 IP:220.131.xxx.xxx 訂閱
我遇過的電源不穩就是別台沒事就只有某一台有事。而且還過UPS。
你要不要試試借個CPU來試看看。 :Q
yckuo
高階會員


發表:55
回覆:389
積分:238
註冊:2003-03-07

發送簡訊給我
#23 引用回覆 回覆 發表時間:2007-03-15 19:43:16 IP:220.132.xxx.xxx 未訂閱
剛已換上 http://www.powersync.com.tw/p_img_b/desk_lines_jcf-22.html 這種排線,
從今早 11:30 開 SMP 到現在,都沒再crash過了.

怪怪..下次再有問題,應該就換 RAM , 不然我再帶台 online ups 過去試.

------
yckuo
系統時間:2024-05-02 16:05:53
聯絡我們 | Delphi K.Top討論版
本站聲明
1. 本論壇為無營利行為之開放平台,所有文章都是由網友自行張貼,如牽涉到法律糾紛一切與本站無關。
2. 假如網友發表之內容涉及侵權,而損及您的利益,請立即通知版主刪除。
3. 請勿批評中華民國元首及政府或批評各政黨,是藍是綠本站無權干涉,但這裡不是政治性論壇!