特征工程
围绕数据窗口、统计聚合、类别编码、缺失机制和异常值构造特征,让模型看到真正与任务相关的信号。
Machine Learning Modeling / LLM Fine-tuning
在数据、模型与新技术之间建立秩序。专注传统机器学习建模、大模型微调与模型评估, 用稳定的实验方法把复杂问题拆成可验证、可复盘、可迭代的工程结果。
Profile
安水关注的不是“把模型跑起来”这一件事,而是模型是否真正理解了任务、是否经得起验证、 是否能在真实约束中稳定工作。传统机器学习建模提供了扎实的底座:先检查数据来源与样本分布, 再设计特征、建立基线、比较算法、分析误差,最后把结论沉淀成可以复现的实验记录。
面向大模型时代,安水同样重视完整链路。微调并不是简单地堆训练轮次,而是从任务定义、 指令数据构造、训练策略选择、评估样本设计、推理表现分析到部署前验证的连续过程。 只有当数据、目标、评估和工程约束对齐时,模型能力才会从“看起来聪明”变成“可靠可用”。
Traditional ML
对结构化数据、行为数据和业务表征类问题,传统机器学习仍然是高效、可解释、可控的核心工具。 安水的建模习惯从问题定义开始:确认预测目标、数据窗口、样本标签、泄漏风险与评估口径, 再选择合适的模型族,而不是先从算法名出发。
在实践中,特征工程、样本切分、交叉验证、类别不均衡处理、误差分析和可解释性常常比模型复杂度更重要。 一个稳健的 XGBoost、LightGBM 或逻辑回归基线,配合清晰的验证体系,往往能更早暴露问题本质。
围绕数据窗口、统计聚合、类别编码、缺失机制和异常值构造特征,让模型看到真正与任务相关的信号。
使用时间切分、交叉验证、留出集和稳定性对比,避免一次偶然分数掩盖泛化风险。
通过特征重要性、分层指标、错误样本和业务规则校验,找到模型表现背后的原因。
关注阈值选择、漂移风险、边界样本、人工审核成本和监控指标,避免模型只在离线环境漂亮。
LLM Fine-tuning
大模型微调的关键不只是训练参数,而是任务、数据和评估之间的闭环。安水会先判断问题是否适合微调: 如果只是知识补充,RAG 可能更合适;如果是输出格式、领域表达、决策偏好或复杂指令遵循, 才进一步考虑 SFT、LoRA 或 QLoRA 等策略。
在数据阶段,重点是清洗噪声、统一格式、覆盖边界场景,并设计能暴露模型短板的评估集。 在训练阶段,关注学习率、上下文长度、样本配比、过拟合迹象和推理成本。微调完成后,不只看单条示例, 还要通过批量评估、人工抽检、错误分类和对照实验确认效果是否真实提升。
Technology Radar
安水关注新技术的方式是先理解能力边界,再判断适用场景。技术趋势值得追,但真正有价值的是把它转化为可解释的实验、 可验证的指标和可维护的系统设计。
关注检索质量、分块策略、重排、引用可追溯和答案一致性,让知识库问答从演示走向可用。
关注任务拆解、工具调用、状态管理和失败恢复,避免把复杂流程交给不可控的单轮生成。
关注图文理解、结构化抽取和多模态评估样本,判断模型是否真的理解输入而不是复述表面线索。
关注量化、蒸馏、推理加速与硬件约束,让模型能力在成本、延迟和稳定性之间取得平衡。
Methodology
模型不是起点,问题才是起点。目标、约束、成本和评估口径清楚后,算法选择会自然收敛。
没有可靠评估,优化只是调参幻觉。好评估需要覆盖真实分布、边界样本和业务上最不能错的场景。
每一次实验都应记录数据版本、参数、指标和结论。长期看,复盘能力比单次灵感更重要。
从数据处理、模型训练、推理服务到监控反馈,每个环节都应能独立检查,系统才有稳定性。
Case Notes
以下是基于能力范围整理的项目叙事,用于说明安水处理问题的方式,不伪造具体公司名称或不可验证成果数字。
结构化预测
面对多来源结构化数据,先清理字段口径和时间窗口,再建立可解释基线模型。 通过特征分组、样本分层和稳定性评估,判断模型是否捕捉到长期有效的信号。
文本任务微调
对需要稳定格式和专业语气的文本任务,先定义输出规范,再构造指令样本与反例样本。 使用 LoRA 或 QLoRA 做参数高效微调,并用固定评估集比较微调前后的格式稳定性和答案质量。
知识增强
对知识密集型问答,优先分析知识来源、分块策略和召回质量,再决定是否需要微调。 通过 RAG、重排、引用约束和答案一致性检查,减少模型凭空生成的风险。
Capability Matrix
Contact