当前求职方向:AI 基础设施工程师(训练数据链路 / 推理性能优化)。
我有 4 年分布式存储与高性能后端经验,长期聚焦 PB 级数据链路、异构存储统一接入、缓存加速与多租户流量治理。
我持续在解决 AI 系统最关键的工程问题:吞吐、延迟、稳定性、成本。
代表性成果
- 在训练链路中落地 SmartBlockCache + 访问模式预取 + Zero-Copy,GPU 集群 I/O Wait 降低 40%。
- 推动核心管理模块向 Golang 微服务重构,关键接口延迟降低约 50%。
- 建设自动化运维与告警体系,平均故障恢复时间(MTTR)降低约 40%。
- 优化小文件写入与存储组织,小文件写入吞吐提升 15%,空间利用率提升 7%。
技术方向
- 训练基础设施:数据加载链路、缓存体系、吞吐瓶颈定位
- 推理工程:延迟与吞吐优化、资源隔离、多租户治理
- 系统工程:可观测性、压测、故障定位与 RCA
关键词
AI Infra, Training Data Pipeline, Inference Performance, Distributed Storage, Ceph, S3, POSIX, Cache, Prefetch, Zero-Copy, QoS, Rate Limiting, GPU I/O Wait, Observability, RCA, Golang
联系方式
- 微信:hrp2617
- 邮箱:hrp2617@163.com
如果你在招聘 AI Infra / 训练平台 / 推理平台 相关岗位,欢迎交流。