回答:日常维护应覆盖五大类:1) 系统与软件更新,定期执行安全补丁与内核更新(可用apt/yum或自动化工具);2) 监控与告警,部署 Prometheus、Zabbix 或 Cloud 监控,关注 CPU、内存、磁盘、网络延迟(CN2 特别注意 RTT 与丢包);3) 日志与审计,集中化日志(ELK/EFK)并定期检查异常与安全事件;4) 安全加固,关闭不必要端口、启用 SSH 公钥认证、Fail2ban、防火墙规则与 SELinux/AppArmor;5) 磁盘与硬件健康,使用 smartctl 检查 SMART,评估 RAID/LVM 状态并清理垃圾文件和临时占用。
回答:每日/每周检查应包括:1) 网络连通:用 mtr、ping 检测到主要节点的延迟与抖动;2) 服务健康:检查 nginx、mysql、redis 等进程;3) 备份状态:确认最近备份完成且校验通过;4) 磁盘空间:df -h;5) 安全日志:检查 /var/log/auth.log 与异常登录。
回答:使用 Ansible/SaltStack 实现补丁、配置下发与任务编排;配合 Cron 或 CI/CD(GitLab CI)定期触发健康检查与快照;日志与备份采用异地上报或对象存储(如 OSS、S3)以防单点故障。
回答:备份应遵循 3-2-1 原则:至少保留 3 份,2 种介质,1 份异地。对日本CN2服务器,建议采用组合策略:1) 全量镜像快照(云快照或 LVM snapshot)作为快速恢复手段;2) 应用级备份,如 mysqldump 或 Percona XtraBackup(热备),以及 Redis RDB/AOF;3) 文件增量备份:rsync、borg、restic 或 rclone 到对象存储;4) 定期把备份异地复制到国内/其他区域以防网络或机房故障。
回答:典型策略:数据库每小时增量、每日全量、保存 7 天;文件数据每日增量、每周全量、保存 4 周;镜像快照按变更情况每天或每周,保留 2~4 周并异地保存。将重要备份上锁并启用加密(GPG 或内置加密功能)。
回答:每次备份完成后执行完整性校验(checksum 或恢复到临时环境验证),并至少每月进行一次恢复演练,确保备份链没有缺页或版本不匹配。
回答:诊断步骤要分层:网络层、系统层、应用层。网络层用 mtr -rw 或 traceroute 检查到目标的跳数与丢包点,区分是 CN2 路由问题还是回程丢包;系统层查看 dmesg、syslog、资源占用(top/iotop);应用层检查服务日志(nginx/error.log、app log)。若怀疑 CN2 路线波动,可与带宽提供商或机房运维沟通,并使用多个出口或 BGP 多线备份。
回答:1) 获取时间线(何时开始、影响范围);2) 导出关键日志与监控图表;3) 若是磁盘/硬件故障,立即把实例置为只读并触发快照;4) 若是服务崩溃,优先回滚配置或重启依赖服务;5) 若是网络中断,切换到备用链路或容灾节点并告警。
回答:网络诊断:mtr -rw 8.8.8.8;磁盘健康:smartctl -a /dev/sda;日志追踪:tail -n 200 /var/log/nginx/error.log;数据库状态:mysqladmin ping。
回答:恢复流程分为准备、触发、恢复、验证四步。准备阶段制定 SLA、RTO/RPO 指标并准备恢复文档与权限;触发阶段判断故障级别并执行预案(如切换到热备、启用灾备节点);恢复阶段根据故障类型采取快照恢复、数据库回滚或二进制日志回放(利用 MySQL binlog 或 WAL);验证阶段确认服务可用、数据一致并关闭故障状态。
回答:场景 A(主库崩溃):1) 将只读从库提升为主库;2) 指向负载均衡器并执行应用配置切换;3) 将故障主库离网后在隔离环境恢复备份并做全量校验。场景 B(磁盘损坏):1) 启用快照恢复到新实例;2) 挂载并验证文件完整性;3) 重新加入集群。
回答:对于线上业务,RTO 建议控制在数分钟到数小时内,RPO 根据数据敏感度从几秒(启用 binlog/AOF)到几小时不等;使用异地热备与实时复制可显著降低 RTO/RPO。
回答:恢复后需做三件事:1) 全面验证:功能测试、数据一致性校验、性能回归测试与监控阈值检查;2) 根因分析(RCA):收集事件链路、日志、配置变更记录,形成 RCA 报告并列出改进项;3) 改进执行:补丁、配置加固、自动化脚本修正、增加监控告警并更新运维 runbook,最后把修正后的流程纳入定期演练计划。
回答:建议每季度或每次重大变更后做恢复演练,演练结果要记录为可执行的 playbook(Ansible/Runbook),并在知识库中保存故障案例与处理步骤,确保新同事能快速上手。
回答:在日本 CN2 环境中,网络波动是常见因素,备份与监控策略要兼顾链路特性;任何自动化脚本上线前都应在灰度或演练环境验证,避免二次事故。