工作内容转变,企业发展方向转变

前几个月一直在做一个项目,一直也做的好好的,是整个后台部分的负责人。虽然说公司要转型互联网,但是总的来看,有些新组建的,做新业务的部门是有所改变,正在做一些互联网产品的东西;但是对于我们部门,一个在技术和经验上都没有什么互联网方面的积累的部门,转变不是一句话的事,也不是三两天能够完成的事。

一开始接过来这个项目的时候,几乎部门所有的人员,包括产品,设计,开发,仍然是把这个项目当作了一个外包项目在做。话说回来,虽然这个项目在公司层面上仍然是个外包的项目,但是里面的性质已经不一样了。之前 公司会做一些什么样的项目呢,比如给某企业开发一个内部办公系统,给某服务商开发一个子产品,等等。那种是完全人家什么需求基本都定了,然后要我们来做,我们出体力的民工,就是码农。

但是这个项目不一样了。这个项目是在智慧城市概念的引导下,房地产商想要在自身服务上做出突破和改变而产生的需求,他们有需求要做,要改变,但是,要做成什么样,要改变成什么样,他们也没有一个非常清晰明了的概念。这就是跟之前不一样的地方了。我们要参与设计,我们要创新,并且让客户接受,让客户的客户接受;我们不能只是站在一个体力劳动者的角度去考虑问题了,我们需要站在客户的位置,站在运营者的位置和角度,去考虑我们的产品如何设计能够更美,更合理,能更吸引用户,更方便用户,如何能让我们的产品做出来之后能够方便用户。

虽然做这个软件,做这个网站仍然是客户的需求,但是我们不能再把自己只是放在一个体力劳动者的位置去干活了。我们要转型,就必须转变心态,转变思维方式,转变角度。(虽然哪怕是做外包工作时候,想要把工作做好就要持有这个心态,但是现实总是比较骨干的,终于把大家想要好好设计产品,好好做出产品的心气磨灭了之后,现在又要我们把它捡起来。)

服务器内存溢出

昨天晚上发出来的邮件,有一台服务器又宕掉了,无法连接登录。今天去服务器上看了一下,发现服务器是正常的,但是jvm内存已经被使用完了,最后的log是java.lang.outofmemoryerror java heap space,时间是昨天晚上接近零点,就是说昨天晚上接收到这些请求报出这些 错误之后就不再处理请求了。

之前怀疑是由于jdk版本的原因,导致的是堆外内存泄露,从而导致我们的服务器宕机。然而现在从我们观察到的日志来看,并不是堆外内存导致的服务无法使用,而是Java虚拟机内部内存无法回收导致的(在JVM中如果98%的时间是用于GC且可用的 Heap size 不足2%的时候将抛出此异常信息)。那么也就是说,应该不是jdk版本中堆外内存回收机制的bug导致的我们系统崩溃,而是我们的代码中确实存在不合理的代码,导致Java虚拟机内存资源被持续占用得不到释放。

上面这个报出此异常的条件是从网上搜索得来的,需要从其他地方进行查证后再确认。

需要仔细研究一下Java虚拟机内存的分配、使用机制,对此足够的熟悉才能从这些现象中就找到触发这些问题的根本可能原因,不像现在两眼一抹黑,完全无头绪让人牵着走。这感觉太难受了。

之前的使用不同jdk版本进行压力测试的计划继续执行(原来这个计划应该是为了观察是否有高版本比低版本更好的堆外内存回收机制处理方法的,虽然我现在觉得这个测试已经意义不大,但是现在主导人将这个计划的目标定位为确定高版本jdk比低版本整个有更好的gc机制),正好这个计划执行期间有非常多的空余时间,我趁这个机会阅读一些Java虚拟机对于内存的管理方法相关的内容,尽量也了解一些Linux对于内存的管理机制。这两块都太不熟悉。

对于java.lang.outofmemoryerror java heap space这个错误的解决方案,这篇博文比国内搜到的大多数内容都好太多《http://blogs.opcodesolutions.com/roller/java/entry/solve_java_lang_outofmemoryerror_java》。

留:《http://outofmemory.cn/c/java-outOfMemoryError》

我之内存管理分析之不足

截止目前为止,对于我们正在做的性能测试有了一点概念,但是对于我们这次要做得到的东西仍然没有一个深刻的了解。原因有如下几个方面:
1、我之前只是听说过而没有接触过性能测试方面的东西,这次上来之后对于服务器上的一系列操作 ,查看,和压力测试工具的使用,以及内存分析工具在Linux上的安装和使用,都有些摸不到头绪。工具的安装还好,从网上找一下教程,然后针对本地服务器的情况做适当修改进行操作就行了。但是网上的教程也是基于一定的基础来做的,现在是我对这部分基础都了解的不够,这导致我拿起来一个软件,凑凑合合安装完成后,依然不知道怎么用,有的甚至卡在不知道怎么启动上面。wired。
2、对于系统,尤其是服务器方面的内存管理没有什么 概念。这要牵扯到我当时的操作系统本身 就学的不怎么样,现在不只是说jvm的内存管理,出的问题还是jvm的堆外内存溢出。这个概念我差不多就是第一次接触。在随后的接触和处理过程中,主逐渐发现,现在对于“jvm堆外内存溢出”这个结论也只是猜测而已,并没有定论。技术领导想要通过这次性能测试来判断是否是jvm堆外内存溢出,如果是,那么我们可以选择升级线网环境的jdk版本来fix之前出现的bug,如果不是,那么我们就得再使用其他角度进行性能测试,并争取复现bug,并解决。
3、对于Java虚拟机和Java内存个管理,没有进行过深入的研究。虽然自开始做开发,就是使用Java,jsp和Java的一些框架等,但是对于Java真正核心的jvm的机制,管理内存的方法等,都没有了解过。(好吧时间有点紧写的仓促一些)

问题已经发现,但是解决却不是一时半会就能解决的。长时间忽视自己Java基础的深入,以为能做普通开发,能顺畅使用Java(实际这个也没能)语言进行开发就可以了。这只是一个很初级的程序员能够干活的要求。想要成为更高层次的程序员,设计师,架构师,技术经理等,必须对更深入的问题有研究,有了解,能够理解并处理这些问题。

从这次处理这个问题开始,我需要了解的一些东西:
1、Java内存处理的机制,方法。
2、jvm运行机制和方法。实际上,貌似这两个应该是同一个。
3、压力测试的相关的一些基础。

从网上着一些资料,好好熟悉一下。

以下为部分需要参考文档

《http://wenku.baidu.com/view/2e3f652cb4daa58da0114a1a.html》

《http://wenku.baidu.com/view/b965f6c30c22590102029d60.html》

以及性能测试文档

linux系统巡检

今天开始进行线上服务器进行每日一次的日常巡检,看是否有突发问题导致系统宕机或者是否有较明显的征兆表现出来当前应用的缓慢内存泄露。

查看cpu使用率,命令: top -n1

之前没有用过这个命令,详细参数暂不考虑研究,输出此命令后在控制台输出的东西的意义如下:
top – 06:25:36 up 592 days, 10:59, 2 users, load average: 0.04, 0.03, 0.00—–(系统从开机到现在运行了多长时间)
Tasks: 177 total, 1 running, 174 sleeping, 0 stopped, 2 zombie—–(总任务数和任务状况)
Cpu(s): 0.2%us(当前用户cpu使用比例), 0.1%sy(系统使用cpu比例), 0.0%ni, 99.5%id(当前cpu剩余比例), 0.2%wa, 0.0%hi, 0.0%si, 0.0%st—–(cpu使用状况)
Mem: 48149M total(内存总数), 14024M used(当前使用的内存数量), 34124M free(当前空闲的内存数量), 220M buffers(用作内核缓存的内存量) —– (内存使用状况)
Swap: 32773M total(交换区总量), 1349M used(使用的交换区总量), 31424M free(剩余的交换区总量), 11807M cached(缓冲的交换区总量) ——(交换区总量)

检查共享内存大小 cat /proc/meminfo
查看的是/proc/目录下的meminfo文件里的内容,主要看第一个信息MemTotal:     49304924 kB,大于1G即可

 

 

 

 

JVM堆外内存溢出

一个socket服务网项目,每台机器的线程量3w左右。最后一次更新发布后,出现了一个奇怪的问题,就是运行一段时间之后,jvm的堆外内存就会基本被占用完,需要重启一次服务器才行。为了服务器安全,设置了一个内存使用上限比例,当服务器内存使用比例到达这个数值之后,就不再接收用户的请求,表现出来的现象就是用户无法登陆了。问题很严重。

经过几位高级工程师的讨论和分析,猜测造成这种现象可能的原因有两个:
1.我们的应用中使用了ByteBuffer.allocateDirect ,这种方式会使用堆外内存,但由于线上服务器使用的jdk版本时 6.32之前的一个版本,在此之前的版本中存在堆外内存回收的bug,因此认为可能是这个原因导致了当前问题。
2.jdk工具包中的java.util.zip.Deflater方法会使用堆外内存,同时,这个方法还存在内存释放方面的bug。我们的应用中使用了xmpp,据说这个会很频繁的调用这个方法,有可能是这个原因造成的服务器堆外内存溢出 。

但是堆外内存很难检测,按照文章中的推荐,需要使用工具查看我们的应用中是否有不停的调用这个方法,推荐的工具是google-perftools。这个东西还没怎么用过,需要了解一下怎么安装和使用。尽快把环境部署起来吧。

个人学习总结分析。。。

从开始做开发到现在,真正做前端的时候不多,以前做的也是一些简单的页面,没有什么华丽的效果,绚丽的展现,但是如果能做出这么一个产品是我很大的一个梦想。到目前为止两次动手准备学前端,但是都没怎么坚持下来。毛病有很多,其中一个显著的是,当自己动手的时候,遇到了问题,会去网上找答案,找到了但是记不住。。。偶尔,还会迷失在浩如烟海的大批答案中。

各种各样的问题和不停的低效率的尝试总是非常快的消耗我的耐心和精力,而且少有连续的时间让我能连续的学习(这里是为自己找借口呢。。。)。实际是有时间的,有时候开始学习一点,然后就碰到一些诸如下班,开会等事情打断,一旦打断之后自己就很不容易接上之前的进度而继续学下去。

闲下来的时候,大把的时间也没有花在认真钻研一下某一个框架或者某一个产品上,而是花在了大致浏览其他新闻和新框架、新语言上面。虽然这样表现出自己对很多语言潮流和概念潮流都比较了解,但是并么有精通,导致自己也就嘴上厉害一点,但是做起东西来并不如意,总是各种卡壳,因为有太多细节不知道如何处理和技术功底不足,有些甚至只是一些很初级的东西。

一直有觉得,想要做出来一款产品,想要做私活,想要创业,需要自己也要会前端才行,这样才能做的来。最近自己想了一下,发现那样的话,还是拿自己作为一个开发人员去做,自己做的仍然是最低级的,最可替代的活,仍然不能提升自己的价值。诚然,能够做到高级的技术,也是非常挣钱,但仍然是可计算的,可替代的技术的钱。

因此,我觉得我应该在当前已经熟悉的模块和领域,深入的研究下去,精通这个之后,涉猎其他领域应该也轻松的多,因为大家都是使用的相同的协议而只是用了不同的语言、语法去实现而已。