服务器内存溢出

昨天晚上发出来的邮件,有一台服务器又宕掉了,无法连接登录。今天去服务器上看了一下,发现服务器是正常的,但是jvm内存已经被使用完了,最后的log是java.lang.outofmemoryerror java heap space,时间是昨天晚上接近零点,就是说昨天晚上接收到这些请求报出这些 错误之后就不再处理请求了。

之前怀疑是由于jdk版本的原因,导致的是堆外内存泄露,从而导致我们的服务器宕机。然而现在从我们观察到的日志来看,并不是堆外内存导致的服务无法使用,而是Java虚拟机内部内存无法回收导致的(在JVM中如果98%的时间是用于GC且可用的 Heap size 不足2%的时候将抛出此异常信息)。那么也就是说,应该不是jdk版本中堆外内存回收机制的bug导致的我们系统崩溃,而是我们的代码中确实存在不合理的代码,导致Java虚拟机内存资源被持续占用得不到释放。

上面这个报出此异常的条件是从网上搜索得来的,需要从其他地方进行查证后再确认。

需要仔细研究一下Java虚拟机内存的分配、使用机制,对此足够的熟悉才能从这些现象中就找到触发这些问题的根本可能原因,不像现在两眼一抹黑,完全无头绪让人牵着走。这感觉太难受了。

之前的使用不同jdk版本进行压力测试的计划继续执行(原来这个计划应该是为了观察是否有高版本比低版本更好的堆外内存回收机制处理方法的,虽然我现在觉得这个测试已经意义不大,但是现在主导人将这个计划的目标定位为确定高版本jdk比低版本整个有更好的gc机制),正好这个计划执行期间有非常多的空余时间,我趁这个机会阅读一些Java虚拟机对于内存的管理方法相关的内容,尽量也了解一些Linux对于内存的管理机制。这两块都太不熟悉。

对于java.lang.outofmemoryerror java heap space这个错误的解决方案,这篇博文比国内搜到的大多数内容都好太多《http://blogs.opcodesolutions.com/roller/java/entry/solve_java_lang_outofmemoryerror_java》。

留:《http://outofmemory.cn/c/java-outOfMemoryError》

我之内存管理分析之不足

截止目前为止,对于我们正在做的性能测试有了一点概念,但是对于我们这次要做得到的东西仍然没有一个深刻的了解。原因有如下几个方面:
1、我之前只是听说过而没有接触过性能测试方面的东西,这次上来之后对于服务器上的一系列操作 ,查看,和压力测试工具的使用,以及内存分析工具在Linux上的安装和使用,都有些摸不到头绪。工具的安装还好,从网上找一下教程,然后针对本地服务器的情况做适当修改进行操作就行了。但是网上的教程也是基于一定的基础来做的,现在是我对这部分基础都了解的不够,这导致我拿起来一个软件,凑凑合合安装完成后,依然不知道怎么用,有的甚至卡在不知道怎么启动上面。wired。
2、对于系统,尤其是服务器方面的内存管理没有什么 概念。这要牵扯到我当时的操作系统本身 就学的不怎么样,现在不只是说jvm的内存管理,出的问题还是jvm的堆外内存溢出。这个概念我差不多就是第一次接触。在随后的接触和处理过程中,主逐渐发现,现在对于“jvm堆外内存溢出”这个结论也只是猜测而已,并没有定论。技术领导想要通过这次性能测试来判断是否是jvm堆外内存溢出,如果是,那么我们可以选择升级线网环境的jdk版本来fix之前出现的bug,如果不是,那么我们就得再使用其他角度进行性能测试,并争取复现bug,并解决。
3、对于Java虚拟机和Java内存个管理,没有进行过深入的研究。虽然自开始做开发,就是使用Java,jsp和Java的一些框架等,但是对于Java真正核心的jvm的机制,管理内存的方法等,都没有了解过。(好吧时间有点紧写的仓促一些)

问题已经发现,但是解决却不是一时半会就能解决的。长时间忽视自己Java基础的深入,以为能做普通开发,能顺畅使用Java(实际这个也没能)语言进行开发就可以了。这只是一个很初级的程序员能够干活的要求。想要成为更高层次的程序员,设计师,架构师,技术经理等,必须对更深入的问题有研究,有了解,能够理解并处理这些问题。

从这次处理这个问题开始,我需要了解的一些东西:
1、Java内存处理的机制,方法。
2、jvm运行机制和方法。实际上,貌似这两个应该是同一个。
3、压力测试的相关的一些基础。

从网上着一些资料,好好熟悉一下。

以下为部分需要参考文档

《http://wenku.baidu.com/view/2e3f652cb4daa58da0114a1a.html》

《http://wenku.baidu.com/view/b965f6c30c22590102029d60.html》

以及性能测试文档

linux系统巡检

今天开始进行线上服务器进行每日一次的日常巡检,看是否有突发问题导致系统宕机或者是否有较明显的征兆表现出来当前应用的缓慢内存泄露。

查看cpu使用率,命令: top -n1

之前没有用过这个命令,详细参数暂不考虑研究,输出此命令后在控制台输出的东西的意义如下:
top – 06:25:36 up 592 days, 10:59, 2 users, load average: 0.04, 0.03, 0.00—–(系统从开机到现在运行了多长时间)
Tasks: 177 total, 1 running, 174 sleeping, 0 stopped, 2 zombie—–(总任务数和任务状况)
Cpu(s): 0.2%us(当前用户cpu使用比例), 0.1%sy(系统使用cpu比例), 0.0%ni, 99.5%id(当前cpu剩余比例), 0.2%wa, 0.0%hi, 0.0%si, 0.0%st—–(cpu使用状况)
Mem: 48149M total(内存总数), 14024M used(当前使用的内存数量), 34124M free(当前空闲的内存数量), 220M buffers(用作内核缓存的内存量) —– (内存使用状况)
Swap: 32773M total(交换区总量), 1349M used(使用的交换区总量), 31424M free(剩余的交换区总量), 11807M cached(缓冲的交换区总量) ——(交换区总量)

检查共享内存大小 cat /proc/meminfo
查看的是/proc/目录下的meminfo文件里的内容,主要看第一个信息MemTotal:     49304924 kB,大于1G即可