# 运维需求及操作指引

# 1、环境搭建

a) 默认业务统一部署在腾讯云南京区域---对地域有特殊要求的请通知运维特别说明

b) 设备数量超过100台、特殊高配置机型,请至少提前2周通知运维

c) 操作系统统一安装tlinux2.2 如特殊需求请单独通知运维说明

d) 机器初始化需要安装第三方组件请特殊说明比如(即通监控上报monitor agent、cl5)

e) 对外域名统一为 xxx.mogs.qq.com xxx来区分不同的业务,如果需要特殊域名请单独找运维沟通

f) 对外服务模块和监听端口一次性提供给运维

g)请邮件给到运维 carinalu;zimskyzeng;noseawu;

格式如下:

gamesvr单机承载数量:在线/注册

环境类型 : 正式、测试、预发布 ; 期望搭建完成时间:

模块1 设备配置1() 数量1 ; 模块2 设备配置2 :数量2

部署程序包的 home目录,/data/home/user00/XXX, 请提供XXX的目录名

对外服务模块 监听端口 服务类型(多台负载均衡 还是单点) 是否需要域名

cl5申请相关: 模块 监听端口 用途

把以上信息一次性邮件提供给运维做配置

# 2、机器登陆

设备由运维申请后,交付后开发如何登陆机器

a) bf ssh dev@IP bf ssh root@IP bf ssh user00@ip

b) 登陆权限:

dev账户可以登录所有机器 root可以登录测试环境机器 user00可以登录所有机器 如果你无法登陆:提供登录机器的开发人员名单给到运维,申请权限

# 3、CDN

a) 资源CDN域名统一配置成 https://xxximage.mogs.qq.com/xxx ,xxx 代表业务目录,每一个业务分配一个独立的域名和目录 (注意, 因公司安全要求,目前是强制使用https,如果使用http访问,会强制跳转为https,请客户端同学注意 支持https)。访问资源如: https://xxximage.mogs.qq.com/xxxx/yy.jpg

b) 使用COS客户端和通过腾讯云API上传。推荐使用COS客户端来上传

c) COS客户端下载地址:https://cos5.cloud.tencent.com/cosbrowser/ (opens new window)

d) 安装完毕后,操作如下:

点击登录即可

0.png

登录后点击上传按钮上传资源

1.png

文件常见的操作

2.png

e) 腾讯云提供了对COS操作的详细API:https://cloud.tencent.com/document/product/436/7751 (opens new window)

如果业务有自动化构建以及上传需求,可以参考API来操作。API操作所需的SecretID和SecretKey MOGS会统一提供。

# 4、版本发布

例行版本发布:运维建设标准运维自助任务,开发自助执行,开发同学把以下信息提供给运维,由运维统一建设好开放给开发同学或者运营同学自助执行:

a) 项目组提供需要执行任务的人员名单 b) 开发同学提供详细执行步骤 c) 运维同学建设好自助任务开放权限给开发同学用 d) 运维同学提供使用文档给到开发

自助执行 :请访问 o.ied.com--添加应用 标准运维,运维添加上面申请的人员名单后就可以看到自己负责的业务了---点击进入模板列表的自定义模板--找到要执行的模板快速创建任务即可。(如没有用过该平台的同学可以要求运维提供一份使用文档)

紧急版本发布:如果例行版本发布流程不满足可以紧急登陆tcm执行任务,但是需要通知运维check后执行

# 5、部署规范

a) tcm管理进程 b) 进程统一运行在user00 c) 业务home目录/data/home/user00/xxx /data/home/user00/xxx/run/bin/模块/bin文件 /data/home/user00/xxx/run/etc/模块/配置文件 /data/home/user00/xxx/run/log/模块/日志 d) 其他目录:初始化会建设日常需要基础目录 apps backup log monitor release tools,并把业务log目录软连到数据盘 e) 打程序包请排除log目录 f) 运维工具目录和业务目录分离(tcm配置相关需要和业务目录分离) g) 不可部署和程序无关工具和进程 h)初始化:业务基础目录、dns配置 如需要其他组件请特殊说明 I) 现网日志如打开debug必须通知运维,定位完成后及时关闭。现网确保开启INFO级别日志

# 6、告警相关

基础告警:机器性能相关、日志自动清理 , 告警接收人员为设备负责人 (运维人员)

业务相关:进程异常退出告警、core文件产生 ,告警接收人为设备负责人和开发人员

以上告警都为运维统一部署和配置,如需要特殊其他告警,请联系运维单独部署。

# 7、故障处理

a) 机器故障处理:运维为第一负责人,收到故障通知后,周知开发和运营人员影响时间和范围,由运营人员决定是否发布公告,运维故障处理好周知恢复时间。

b) 业务进程级别故障:开发为第一负责人,运维协助开发紧急定位和更新变更现网,运维周知项目组影响范围和时间,由运营人员决定是否发布公告。故障处理好开发人员进行故障原因周知和恢复时间。

# 8、tlog、经分、DB

a) 数据接入:运维需要开发提供 tlog的xml全量文件,由运维提交数据接入流程 http://dsa.idata.ied.com/apps/ctr_data_apps/new_tglog_vw (opens new window) ,接入后运维把相关tglog地址信息提供给开发配置后,产生数据就可以启动经分建设了。经分接入人员相关: vincenthou leschen

b) 日常tlog的xml结构变更流程,群里@运维 发送tlog文件 说明变更业务 由运维提交变更。

c)DB:DBA -tcaplus:leotaoyi zenkong; DBA redis: bencui;

tcaplus的建表和后面表变更 以及redis变更,请@运维进行提交变更单 DBA审核过单,运维执行。

# 9、节假日、上线导量支撑--扩缩容

节假日活动扩容: 业务上线或者节假日、周年庆活动等大规模导量计划至少需要提前2周通知到运维,由运维统一对业务容量、周边 CDN、DB、支付、登录等接口周边进行容量评估和扩容建设,并给出扩容计划和方案,由项目组统一评估。

日常扩容:由运维提前申请设备,制定扩容方案,通知项目组评估扩容。