一、Paramon简介

应用运行特征收集器 Paramon

Paramon广泛应用于高性能计算、大数据和人工智能领域,秒级监控集群和应用的系统级、微架构级以及函数级等性能指标,智能分析性能异常,实时告警,是管理人员保障集群高效运行的必备基础软件,也是开发人员优化程序的利器。

高效管理集群

一键显示异常节点,快速排查集群异常按用户作业维度,快速定位查看作业状态同一界面多级指标关联分析,快速定位性能瓶颈智能分析作业性能,主动推送异常告警

展现先进的运营管理能力

整体宏观,秒级刷新,震撼的视觉冲击

丰富的色彩指标,秒级动态刷新集群运行状态,行业同仁参访,生动直观展现先进的运营管理水平。

微观多级指标指导优化

多级指标关联分析,数据价值深入展现

同一窗口单节点CPU、内存、磁盘、网络等多级指标关联展现,直观发现和定位性能瓶颈。

提升人工智能程序效率

GPU分卡性能指标直观展现

面向人工智能使用GPU计算场景,清晰直观实时展现各GPU卡利用率、显存使用率以及温度等性能指标,一键快速查看各GPU卡使用模式等配置信息,助人工智能程序提速。

快速定位用户作业瓶颈

在大规模集群的数百用户作业中,快速按照用户作业维度定位目标作业节点及运行特征,通过鼠标滚轮便捷缩放节点窗口,通过同一界面多级指标关联分析,快速诊断用户作业性能瓶颈。

 

二、安装环境说明

1、总体介绍

如图所示:整个集群由四个计算节点(cluster1,cluster2,cluster3,cluster4)和一个管理登录节点(cluster0)组成,其中四个计算节点运行paramon后端采集程序,管理登录节点运行paramon服务端程序,前台系统可安装在管理登录节点上。

本文安装的是paramon旗舰版,只有旗舰版和管理员版有后台服务端系统,而且旗舰版能监控AVX指令集的使用情况,对于高性能超级计算来说非常重要,所以这里安装的是旗舰版。另外,本文操作使用的是手动安装,自动安装请根据官方文档尝试。

为了确保安装后能正常运行,请关闭集群节点的防火墙,或者确保 22、10011、10012、10089、10091、10093、10095、10803 这八个端口可通信。

本文安装时已经关闭所有防火墙。

2、硬件配置

计算节点(4个):

CPU:i5-5257U 2核2线程

内存:2GB DDR3L-2133Mhz

硬盘:SSD 20GB

GPU:无

管理登录节点:

CPU:i5-5257U 3线程

内存:4GB DDR3L-2133Mhz

硬盘:SSD 20GB

GPU:Intel iris pro 6100

3、软件环境

操作系统:CentOS 7 (只有管理登录节点安装了GNOME图形化桌面,计算节点安装的是minimal版本)

编译相关:gcc, gcc-c++,gcc-fortran,make,cmake,git

运行环境:mpich,openmpi,nfs

4、其它依赖安装

由于paramon-mgr-8.2.0-1007.centos7.x86_64.rpm包含了图形化界面,所以要安装几个图形库才能使用这个包。

rpm -ivh paramon-mgr-8.2.0-1007.centos7.x86_64.rpm
错误:依赖检测失败:
libGL.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libX11-xcb.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libX11.so.6()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libXext.so.6()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libXrender.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libfontconfig.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libperl.so()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libxcb.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要

所以这里需要手动安装这些依赖库(GNOME桌面环境已经包含了上述库文件,就不用啦):

yum install -y libGL libXrender fontconfig perl-libs

三、安装配置Paramon之后端采集端

后端采集端将被安装在计算节点上。

1、下载安装包

下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。

2、安装paramon后端采集端

下载好后,切换到root用户,或者使用sudo执行以下命令:

rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm

准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]

显示以上信息就说明安装完成。

3、修改配置文件

修改这三个配置文件:

/etc/paratera/pcnt.conf

/etc/paratera/pcnt_exbasic.conf

/etc/paratera/pcnt_job.conf

将其中的缺省 IP 地址“127.0.0.1”修改为“后台服务器”具体的 IP 地址

4、启动服务

用root权限执行命令:

service paramon-cnt restart

出现Restarting paramon-cnt (via systemctl): [ OK ] 则说明启动成功

 

四、安装配置Paramon之后台服务端

后台服务端将被安装在登录管理节点上。

1、下载安装包

下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。

2、安装paramon后台服务端

下载好后,切换到root用户,或者使用sudo执行一下命令:

rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm

准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]

显示以上信息就说明安装完成。

3、修改配置文件

修改这三个配置文件:

/etc/paratera/pcnt.conf

/etc/paratera/pcnt_exbasic.conf

/etc/paratera/pcnt_job.conf

将其中的缺省 IP 地址“127.0.0.1”修改为“后台服务器”具体的 IP 地址

4、启动服务

用root权限执行命令:

service paramon-mgr restart

出现Restarting paramon-mgr (via systemctl): [ OK ] 则说明启动成功

另外,如果不想统计该登录管理节点的系统信息,即不作为计算节点来统计cpu内存IO等用量,请执行命令service paramon-cnt stop 关闭paramon-cnt服务。

五、安装paramon前台

前台程序可以被安装在任意需要使用paramon图形化监控界面的节点上,本文将它安装在登录管理节点上。

1、下载安装包

下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。

2、安装paramon前台程序

下载好后,切换到root用户,或者使用sudo执行一下命令:

rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm

准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]

显示以上信息就说明安装完成。

3、修改.pmon配置文件

然后修改文件扩展名为“.pmon”的集群配置文件:

/etc/paratera/nodelist.pmon

Paramon 对此配置文件格式要求严格,缺省内容如下:

#@127.0.0.1

#!CLUSTER:1

 

#$PARATERA = mgr:2 io:2 compute:8

#*ALIAS PARATERA = ParateraAlias

#&mgr = localhost localhost.localdomain

#&io = io1 io2

#&compute = compute1 compute2 compute[3-8]

需要根据具体集群的信息来配置,下面依次说明这个配置文件中各行的意义和修改方法:

第一行:指定“后台服务器”的 IP 地址,如果“前台”和“后台服务器”是同一台机器,那么这一行不用修改。

第二行:指定集群的数量,如果只配置一套集群,那么这一行不用改动,如果要配置多套集群,请把数字“1” 修改为具体的集群数目。

第三行:空行保持不变。

第四行:指定集群中的节点类型和节点数量,以“:”分隔某类节点的类型与数量,不同类别节点间以空格隔 开,缺省配置中列出了三类节点,分别是:

mgr:2 // 两个管理节点

io:2 // 两个 IO 节点

compute:8 // 八个计算节点

请根据具体集群的情况修改节点类型和数量,如果某类节点数量为 0,则不用列出这类节点,比如一个集群中 有一个管理节点和 4 个计算节点,没有单独设置 IO 节点,那么这一行配置如下:

PARATERA = mgr:1 compute:4

第五行:指定集群名和集群别名,格式为:#*ALIAS 集群名 = 集群别名。

第六行至第八行:分别对应第四行中所列的各类节点,指定具体的节点名(hostname)。以第六行为例,关键字 “#&io”表示这一行是 io 节点的节点名列表,“io1 io2”是具体每个计算节点的节点名。

另外各类节点的节点名(hostname)还支持数字通配形式表示。以第 7 行为例,关键字“#&compute”表示 这一行是计算节点的节点名列表,“compute[3-8]”是指“compute3”到“compute8”6 个节点的节点名。 在使用数字通配形式表示节点名时需要注意下面几点:

1.使用数字通配形式表示的节点名可以和普通节点名混用,二者之间必须用空格符号隔开,不能用任何 其他字符;

2.使用数字通配形式表示的节点名数字通配部分数字位数必须相等。

举个例子,一套集群有一个管理节点和 4 个计算节点,管理节点同时作为“前台”和“后台服务器”,管理节 点的“/etc/hosts”文件内容如下:

127.0.0.1 localhost.localdomain localhost

172.16.1.1 cluster1

172.16.1.2 cluster2

172.16.1.3 cluster3

172.16.1.4 cluster4

172.16.220.10 cluster0

那么这套集群的“.pmon”文件应当配置为:

#@127.0.0.1

#!CLUSTER:1

 

#$PARATERA = mgr:1 compute:4

#*ALIAS PARATERA = ParateraAlias

#&mgr = cluster0

#&compute = cluster[1-4]

配置好“.pmon”文件之后就可以运行 Paramon 了。

4、启动

paramon-admin-ult

 

六、激活

联系paratera购买软件许可或申请试用。

1、激活后台采集端

将得到的预授权软件证书文件(paramon-mgr-ult.lic )重命名为“paramon-cnt.lic”,然后拷贝到所有后台采集端节点的 “/etc/paratera/lic/”目录下。

最后在所有后台采集端节点上重新启动 Paramon 后台采集端服务:

# service paramon-cnt restart

2、激活前台客户端

对 于 Paramon 前 台 , 将 前 台 的 预 授 权 软 件 证 书 文 件(paramon-mgr-ult.lic )重命名为 “ paramon-mon.lic ” ,拷 贝 到使用前台程序的节点中 , 例 如 “/etc/paratera/lic/”目录下,然后在命令行启动 Paramon:

# paramon-admin-ult

Paramon 软件会自动检查证书设置并以 basic 模式启动,设置好paramon工作目录后,准备激活:选择“锁定证书”,点击“注册…”

选择锁定证书方式且选择之前拷贝好的预授权证书文件“/etc/paratera/lic/paramon-mon.lic”,然 后点击“确定”,如果证书验证成功,Paramon 软件主窗口标题栏会显示“Paramon 应用运行特征收集器-旗舰版”字样

七、使用

在打开集群时,选择第5步中,配置好的nodelist.pmon文件,就能打开我们上面所配置的集群了。

如图所示,cluster0是后台管理节点,以及paramon的后台服务端,只要能访问该节点,便能查看该集群的监控数据。

cluster1-4是计算节点,此时没有计算任务,故而基本都是黑色,利用率很低。

其它使用截图:

某个节点详情:

这些指标中有的是百分率,有的是绝对数值,下面是对这些指标的说明:
 内存使用率:内存使用的百分比,上限为 100%
 内存读速率和内存写速率:统称“内存带宽”,上限为 100GB/s
 SWAP 实时使用率:SWAP 分区的实时使用百分比,上限为 100%
 SWAP 使用率:SWAP 分区使用的百分比,上限为 100%
 CPU ALL 使用率:CPU 总利用率所占的百分比,上限为 100%
 CPU SYWA 使用率:内核态占 CPU 时间百分比+等待 IO 请求占 CPU 时间百分比,上限为 100%
 CPU 有效计算比例:Gflops 占峰值的比例,上限为 100%
 磁盘读/写速率:读写磁盘的速率,上限为 100MB/s
 网络文件系统(NFS)接收/发送速率:网络文件系统的读写速度,上限为 100MB/s
 网络接收/发送速率:网络的收发速度,上限为 120MB/s
 IB 接收/发送速率:InfiniBand 网络的收发速度,上限为 1500MB/s

还可以暴力的显示GPU利用率:

参考资料:

paramon旗舰版官方文档

paramon官网


0 条评论

发表评论