2007/03/09 ~ 12 停站事件 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
各位大家好:
終於又能上線了 最近因不定時的 crash , 沒留下任何可供除錯的資訊,因此一直放著. 直到 9號下午,已經 crash 到一開機就 crash ,完全無法進入系統. 所以將主機關了,帶回家檢查. 回顧最近一次的更新是上了 FreeBSD-6.2-Release Patch 2, 接著就是惡夢的開始了. 在 Delphi.Ktop 每次的更新作業,並不會將此主機當白老鼠,每次都是在其它多台主機 更新後跑了幾天,沒有問題才會輪到 Delphi.Ktop 更新. 所以一開始是將問題鎖定在 "主機" 有問題,所以先檢查主機版 ASUS P5LD2 Deluxe , OK 無爆漿. 電源供應器僑威 550W Power 除了出風口都是熱風外,供電還穩定看不出有何問題. 看看華碩的站,嗯 BIOS 有點舊了,更新一下 BIOS 至 0603 版,重開試試..... 還是 PANIC PANIC PANIC 進不了系統,連磁碟作業階段都跑不到,所以也沒 crash dump 可查. 但可以確定的是 ACPI 有問題,因為用 FreeBSD 安裝光碟,只要 Disable ACPI 去 BOOT 就可以進入 系統了,問題是,本台主機 CPU 是 Pentium D 930 雙核心的 CPU, 如 Disable ACPI ,在 FreeBSD 下 跑的將是單 CPU 模式, 只好再次硬著頭皮更新 BIOS 到 0705 Beta 版. YES SMP 可以 BOOT 了............只是沒多久,又 PANIC 了.......... 是最近的版本和這台機器不合嗎??嗯.. 最早裝的是 6.1 還蠻穩定的,在過年前才升級到 6.2 , 因此把系統 降級到 6.1 WithOut SMP .. 嗯,很穩定..啟用 SMP .. 嗯.. OK. 再下一步,升級至 6.2-RELEASE , 這版本這台 也跑一陣子了,沒有問題, 開啟 SMP ..OK 可以用了.. 作作壓力測試.. OK 過關.. 開始作最佳化, 也過關. OK 沒問題了, 開始備份系統... tar........ tar 了 10 幾分後,又 panic 了 不信邪重開後再次 tar 了一次..又 panic 了. 開始懷疑是不是 RAM 不穩 .... 可是作過了這麼多次 make world 升級降級不知作了幾次,都 OK呀. 一般 RAM 有問題或主機有問題通常過不了 make world 的...好吧,為了確定 RAM 也 OK, 請出了 memtest86 跑了兩個小時 OK.. RAM 沒問題.. 開始一步步往回推終於在核心編譯最佳化的地方找到問題了. 奇怪了,只能使用官方內定的 gcc 編譯最佳化設定,多加一些就會在某些操作上導致 crash. ex: tar 就只有這台會這樣 @_@ , 好吧...為求穩定,就用 官方內定的吧.. 終於通過所有的測試了.. It's FreeBSD-6.2-Release Patch 2 Now 這期間,不斷的 make world make kernel crash panic fsck .....搞了幾天,還是跑到 FreeBSD-6.2-Release Patch 2 了,差異就只在編譯最佳化, make world 可以最佳化 make kernel 在這台目前這版本,和未來可能的版本不行 怪吧..問題可能出在 Release ~ patch 1 ~ patch 2 之間,沒時間去追了..反正這顆 CPU 也夠快了,就不要再榨它了.. 希望各位使用愉快.
------
yckuo |
㊣
版主 發表:261 回覆:2302 積分:1667 註冊:2005-01-04 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
最近一次的 panic 終於有一個 coredump 可以查原因了, 經由 kgdb trace kernel 發現會引發這樣的 panic , 就是煩人的硬體問題.
(CPU , RAM, Power Supply), 個人懷疑是 Power Supply. 經由前文知道,曾經在 tar 時會引發 panic , 硬碟重載吃電.. Power 不穩,可以如此解釋吧. 如 CPU 或 RAM 我想作那麼多次的 make world , 應該早就 crash , 或得到 signal 11 了. 明天和天使討論一下,看是否買顆 Power 來換. <textarea class="cpp" rows="10" cols="60" name="code">Fatal trap 28: machine check trap while in kernel mode cpuid = 0; apic id = 00 instruction pointer = 0x20:0xc0512bb2 stack pointer = 0x28:0xe326bc7c frame pointer = 0x28:0xe326bc88 code segment = base 0x0, limit 0xfffff, type 0x1b = DPL 0, pres 1, def32 1, gran 1 processor eflags = interrupt enabled, IOPL = 0 current process = 12 (swi4: clock) trap number = 28 panic: machine check trap cpuid = 0 Uptime: 14s Physical memory: 1018 MB Dumping 43 MB: 28 12 #0 doadump () at pcpu.h:165 165 __asm __volatile("movl %%fs:0,%0" : "=r" (td)); (kgdb) list *0xc0512bb2 0xc0512bb2 is in _mtx_lock_sleep (cpufunc.h:317). 312 } 313 314 static __inline void 315 ia32_pause(void) 316 { 317 __asm __volatile("pause"); 318 } 319 320 static __inline u_int 321 read_eflags(void) (kgdb) bt #0 doadump () at pcpu.h:165 #1 0xc051c806 in boot (howto=260) at ../../../kern/kern_shutdown.c:409 #2 0xc051cb2d in panic (fmt=0xc06633f0 "%s") at ../../../kern/kern_shutdown.c:565 #3 0xc06416b0 in trap_fatal (frame=0xe326bc3c, eva=0) at ../../../i386/i386/trap.c:837 #4 0xc06411cc in trap (frame= {tf_fs = -484048888, tf_es = -1068367832, tf_ds = -1004666840, tf_edi = -1004656384, tf_esi = -1000922368, tf_ebp = -484000632, tf_isp = -484000664, tf_ebx = -1066640480, tf_edx = -1066611016, tf_ecx = -667475548, tf_eax = 4, tf_trapno= 28, tf_err = 0, tf_eip = -1068422222, tf_cs = 32, tf_eflags = 582, tf_esp = -1066640480, tf_ss = 4}) at ../../../i386/i386/trap.c:632 #5 0xc062d9da in calltrap () at ../../../i386/i386/exception.s:139 #6 0xc0512bb2 in _mtx_lock_sleep (m=0xc06c5ba0, tid=3290310912, opts=0, file=0x0, line=0) at cpufunc.h:317 #7 0xc0529101 in softclock (dummy=0x0) at ../../../kern/kern_timeout.c:258 #8 0xc0507e59 in ithread_execute_handlers (p=0xc41e1860, ie=0xc41cf300) at ../../../kern/kern_intr.c:682 #9 0xc0507f69 in ithread_loop (arg=0xc41ca860) at ../../../kern/kern_intr.c:765 #10 0xc0506c35 in fork_exit (callout=0xc0507f14
------
yckuo |
taishyang
站務副站長 發表:377 回覆:5490 積分:4563 註冊:2002-10-08 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
咦 power 問題之前不是有提過了?
用兩顆 power 來處理。 一顆全給 HD 用。主機板吃原來的。 對於重負載得做這樣的處理才會安全一點。 ===================引 用 文 章=================== 最近一次的 panic 終於有一個 coredump 可以查原因了, 經由 kgdb trace kernel 發現會引發這樣的 panic ,就是煩人的硬體問題. (CPU , RAM, Power Supply), 個人懷疑是 Power Supply. 經由前文知道,曾經在 tar 時會引發 panic , 硬碟重載吃電.. Power 不穩,可以如此解釋吧. 如 CPU 或 RAM 我想作那麼多次的 make world , 應該早就 crash , 或得到 signal 11 了. |
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
這次拿回家時已有作過所有風扇與散熱片的清潔,溫度與風扇也都有在監控
CPU 溫度都在 4X ~ 5X 之間, MB 溫度 3X ~ 40 之間. 今天會買顆 Power 換上, ASUS 手冊建議此版應使用至少 350W ATX v2.0 POWER 但我查資料 Pentium D 930 本身全速至少會吃掉 95W, 系統上還有四顆風扇,兩塊網卡 一塊VGA, 兩顆 IDE 250G HD, 目前使用的是 僑威 CWT-550AD (550W) Power. 12V 24A 版本, 個人感覺這顆頗兩光. 有建議買那顆好嗎 ?? 建議瓦數在那個等級 ?? 不要弄兩顆 Power 給機器跟 HD 分開啦,這樣不好擺放耶.
------
yckuo |
㊣
版主 發表:261 回覆:2302 積分:1667 註冊:2005-01-04 發送簡訊給我 |
粗估...550W 應該夠喔. 除非 Power 本身不足 550W
ASUS 350W, Fan 算0.5A x 4(12V) = 24W 硬碟 X2 100W, VGA 30W, 兩塊網卡 30W 要不要換廠牌? Delta GPS -550A B-A (550W, 12cm Fan) 保證足瓦 ===================引 用 文 章=================== 這次拿回家時已有作過所有風扇與散熱片的清潔,溫度與風扇也都有在監控 CPU 溫度都在 4X ~ 5X 之間, MB 溫度 3X ~ 40 之間. 今天會買顆 Power 換上, ASUS 手冊建議此版應使用至少 350W ATX v2.0 POWER 但我查資料 Pentium D 930 本身全速至少會吃掉 95W, 系統上還有四顆風扇,兩塊網卡 一塊VGA, 兩顆 IDE 250G HD, 目前使用的是 僑威 CWT-550AD (550W) Power. 12V 24A 版本, 個人感覺這顆頗兩光. 有建議買那顆好嗎 ?? 建議瓦數在那個等級 ?? 不要弄兩顆 Power 給機器跟 HD 分開啦,這樣不好擺放耶.
------
------------------------------------------------------------------------- 走是為了到另一境界,停是為了欣賞人生;未走過千山萬水,怎知生命的虛實與輕重!? |
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
|
Coffee
版主 發表:31 回覆:878 積分:561 註冊:2006-11-15 發送簡訊給我 |
|
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
有兩個情況。
一、你再開一台 FreeBSD 只要簡單可以 ssh 進去的 server. 然後我們用的這台 delphi.ktop.com.tw 的 console 輸出把它導向到 com1 去。這樣所有你在 console 看到的東東都會輸出到 com 1 那你的所有維修都可以由遠端進行。只要你的 loader 有啟動,就可以做到了。 也就是說,大約是在 bios 完後就可以用另一台的 minicom 過來處理 fsck 等等的動作。 另電源品質的問題。嘿嘿嘿。不要認為過UPS就沒事了。 我遇過的狀況就是在UPS後面還出事。 本來一直認為不可能。但是就是發生了。 PS.七月半確定有拜拜。joke. ^_^ ===================引 用 文 章=================== 感謝暗黑前輩的指教 :) 我想這個問題我會買顆好點的 Power 過去換.希望換完一切就 OK 了. 如果要再測試的話,可能得跑多趟,也許會 crash , 一 crash 要修蠻久的. 機器不在身邊並不那麼容易測,要是我在上班中,它 fsck 失敗,那就又得 等了下班時間.. So .. 請見諒. 拆下來那顆 Power 我會把它拆開看看.. (雖然不是很懂) |
wishmaster926
初階會員 發表:91 回覆:69 積分:32 註冊:2006-12-13 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
今晚拿了顆 保銳 500W 過去測, 重新 make world , make kernel 全用內定值, 沒有加任何
CFLAGS or COPTFLAGS, SMP 照樣開機就 Crash, 不開 SMP 就穩定了. 也嘗試過,只要一顆硬碟, 照樣 Crash . 電源, 也有試過不經 UPS , 直接吃市電, 及換到另一區,吃另一區的電. 照樣 crash, SMP 也有開起來成功過, 也沒多久就 crash , 訊息都是 trap 28 panic: machine check trap Serial Console 在此環境不適合,不然我就不用這樣跑了. Power 也換過了, 就剩 CPU , RAM, 主機板 , 哈...這些都沒東西可試 實在是太詭異了...目前這一版本 6.2R-p2 SMP 在這台也跑過幾天了, 怎現在就是怎麼跑怎麼 panic. 目前先跑 單 CPU, 單 CPU 這台不會 crash.., 等看可以借到東西來測看看再說.
------
yckuo |
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
硬體所有配備跟原來的一模一樣, Power 也一樣是僑威那顆.
昨天更新至 6.2-STABLE , 跑 SMP 一樣沒多久就 crash. 不跑 SMP,就很穩定. SMP 模式相關昨天的資料如下,有興趣的人可以拿去看看. kernel coredump . 但請不要拿去發 PR , 發了也沒用的,因為觸發 panic 的 trap 28, 經由 trace kernel 後發現,這是因為 kernel 收到了 BIOS 發出的 NMI 信號,而 freebsd kernel 對 NMI 信號的處理它僅會對 NMI_PARITY and NMI_IOCHAN 觸發 panic,其餘電腦可正常 運作. NMI_PARITY 通常是 RAM 的問題, NMI_IOCHAN 通常是 I/O Channel 的問題 也有可能是排線有問題. kernel 對 nmi 信號的處理位於 /sys/i386/isa/nmi.c 有興趣的可以去看看. 神奇靈異的狀況又發生了,今天早上 11:30 起,我再次讓 SMP 啟動. 加重負載, CPU 溫度提高了 10 度到 52度, CPU 風扇轉速由 2800 左右提升到了 3200 轉 到目前發此文時 SMP 仍然穩定運作中. 由於小弟之前有碰過於營業場所廣告霓虹燈旁的電腦,也發生過運作中的程式時常出現錯誤. 但程式沒有問題.該問題後來是換用 ECC RAM 解決. 因此這又讓我想到會是有干擾源嗎?? 本機目前沒蓋機殼, 不到10公尺內路邊有台電大電箱. 怪異的是本機旁邊也有兩三台電腦,卻都沒有問題. 機殼可以擋輕微的 EMI 干擾嗎?? (機殼不知跑那去了) 目前能作的,晚上會去換組 IDE 排線, RAM 要等借到 RAM 來測. 本機板不支援 ECC RAM any idea ??
------
yckuo |
暗黑破壞神
版主 發表:9 回覆:2301 積分:1627 註冊:2004-10-04 發送簡訊給我 |
|
yckuo
高階會員 發表:55 回覆:389 積分:238 註冊:2003-03-07 發送簡訊給我 |
剛已換上 http://www.powersync.com.tw/p_img_b/desk_lines_jcf-22.html 這種排線,
從今早 11:30 開 SMP 到現在,都沒再crash過了. 怪怪..下次再有問題,應該就換 RAM , 不然我再帶台 online ups 過去試.
------
yckuo |
本站聲明 |
1. 本論壇為無營利行為之開放平台,所有文章都是由網友自行張貼,如牽涉到法律糾紛一切與本站無關。 2. 假如網友發表之內容涉及侵權,而損及您的利益,請立即通知版主刪除。 3. 請勿批評中華民國元首及政府或批評各政黨,是藍是綠本站無權干涉,但這裡不是政治性論壇! |