暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Linux many lost ticks 和 NIC Copper Link Down

原创 eygle 2010-02-06
1131
昨天装好的RAC,客户已经打了几个电话咨询,严重质疑RAC的稳定性。

结果是,昨天有人把网线都插拔了一遍,两台机器都挂了;
今天有台机器的网线又被扯,又断了一台。

客户质疑RAC,我只好一遍一遍解释,这个网络啊、心跳啊、VIP啊,对Oracle是灰常灰常重要的。

当然看看日志也有收获,NIC网卡Down的信息,这没什么好说的:
Feb  6 10:13:21 wg1 kernel: bnx2: eth0 NIC Copper Link is Down
Feb  6 10:57:20 wg1 kernel: input: AT Translated Set 2 keyboard on isa0060/serio0
Feb  6 10:57:29 wg1 login(pam_unix)[7424]: session opened for user root by LOGIN(uid=0)
Feb  6 10:57:29 wg1  -- root[7424]: ROOT LOGIN ON tty1
Feb  6 10:58:31 wg1 kernel: bnx2: eth0 NIC Copper Link is Up, 100 Mbps full duplex
确认当时的确是有人动了网线,否则不能排除是否网卡本身不稳定。

又发现有Lost ticks的提示信息:
kernel: warning: many lost ticks.
kernel: If your CPU support 'CPU Frequency scaling',You could ignore this warning
kernel: else your time source seems to be instable or some driver is hogging interupts
kernel: rip __do_softirq+0x4d/0xd0

关于lost ticks找到一些参考信息
在某些系统上,当首次访问一些 IDE 设备时,可能显示信息warning:many lost ticks(警告:丢失许多嘀嗒信号)。当 IDE 设备没有使用 DMA 进行数据传输时,会显示此信息,因为非 DMA 传输所用的时间比计时器嘀嗒信号间隔长很多(在此期间,处理器无法处理计时器嘀嗒信号中断)。此信息并不表示系统出现故障,也不会导致任何功能问题。如果系统运行的是带 Update 1 或更高版本(含适用于此控制器的更新驱动程序)的 Red Hat Enterprise Linux 4,则连接至 Intel ICH7 IDE控制器的设备不会遇到这种问题。但是,由于其它 IDE 设备无法使用DMA,因此该信息仍然会显示。

在基于 AMD 处理器的系统上,如果启用非一致内存存取 (Non Uniform Memory Access) 功能,则系统在高负载情况下将显示"lost ticks"(丢失嘀嗒信号)信息当运行 Red Hat Enterprise Linux 4(更新 4 之前的版本)的系统处于高负载时,屏幕将显示以下信息:
warning: many lost ticks.(警告:丢失许多嘀嗒信号。)
Your time source seems to be instable or some driver is hogging interrupts
(时间源似乎不稳定或者某些驱动程序干扰中断)
rip __do_softirq+0x4d/0xd0
当在基于 AMD 处理器的系统上使用非一致内存存取 (NUMA) 功能时,将出现此问题。要解决此问题,请将以下参数添加到内核命令行:
console=tty0 numa=off
注:确保 numa=off 为内核命令行中的最后一个选项。如果 numa=off 不是最后一个选项,
将不能识别此参数。
在 Red Hat Enterprise Linux 4 更新 4 中已解决这一问题。

(上面这一篇是DELL的文档上的解释)

您可以安心忽略 RHEL4 U4 丟失滴答計時的訊息(6483062)
在沈重的負載下,RHEL4 訊息檔案與 dmesg 記錄檔可能顯示類似下列的訊息:
Warning many lost ticks
Your time source seems to be unstable or some driver is hogginginterrupts.
此訊息是由不同 IRQ 處理常式之間的爭用所導致,但是對於系統沒有負面影響。
(上面一小段是SUN的文档上的解释)

同时注释一下HPET的全称吧:High Precision Event Timer (HPET)

另外一篇文章则为我解释了CPU Frequency scaling的含义:
CPU Frequency  scaling,这一选项允许改变CPU的主频,使CPU在低负荷或使用电池时降低主频,达到省电的目的

Enable CPUfreq debugging,是否允许调试CPU改变主频的功能,如果要调试,还需要在启动时加上参数。cpufreq.debug=
1:变频技术的内核调试
2:变频技术的驱动调试
4:变频技术的调节器调试

感谢网络,感谢网友们的分享,我要继续不断学习。

-The End-








「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论