Kaleem Ullah Qasim

人工智能博士研究生,西南交通大学 | AI研究员 | 智能体系统 & 语言模型推理

成都| +86-13111895637| kaleem@my.swjtu.edu.cn

LinkedIn | Upwork | GitHub | 谷歌学术 | HuggingFace

教育背景

人工智能博士研究生

2022 – 2026

西南交通大学(SWJTU),计算机与人工智能学院,成都

计算机应用技术硕士

2019 – 2022

西南财经大学(SWUFE),成都

研究方向

大语言模型与小语言模型推理(LLM/SLM Reasoning) | 递归任务分解(Recursive Decomposition) | 智能体系统与多智能体协作 | 强化学习对齐(RLHF / DPO / GRPO / 可验证奖励RL) | 上下文工程

技术技能

编程与开发: Python | TypeScript | JavaScript | SQL | FastAPI | Django | Flask | Git | REST APIs | GraphQL
大模型与生成AI: HuggingFace(Transformers / TRL / PEFT / Datasets / Accelerate) | 模型微调(SFT / LoRA / QLoRA) | vLLM | DeepSpeed | FSDP | RAG架构 | 上下文工程 | 上下文学习
智能体系统: MCP(模型上下文协议) | OpenAI Agents SDK | Pydantic AI | smolagents | Google ADK | LangGraph | LangChain | LlamaIndex | AutoGen | CrewAI | ReAct模式 | 工具使用与函数调用
对齐与智能体RL: RLHF(PPO / REINFORCE) | 偏好优化(DPO / CPO / ORPO) | GRPO | 可验证奖励RL | TRL | verl | OpenRLHF | 奖励建模 | 多智能体强化学习
机器学习与评测: PyTorch | scikit-learn | XGBoost | LightGBM | BERT | Transformer | NLP | 迁移学习 | lm-evaluation-harness | OpenCompass
MLOps与云平台: AWS(SageMaker / Lambda / S3) | 华为昇腾(Ascend) | Docker | Kubernetes | MLflow | Weights & Biases | 向量数据库(Pinecone / Weaviate / ChromaDB)

科研与工作经历

华为技术有限公司科研合同(递归推理智能体系统,首席研究员)

2025 – 至今
  • 凭借 RDoLT 论文(JAIR Q1,16 次引用)赢得华为委托科研项目,担任首席研究员,主导构建基于递归分解的 AI 智能体框架
  • 设计核心递归分解逻辑与记忆模块,在 AIME、U-MATH 等复杂数学推理基准及自研算法测试集上验证智能体控制能力,相比纯 CoT 方案显著提升
  • 系统评估异构大小模型组合策略,在性能与推理成本之间取得最优平衡;调研并选型强化学习训练方案
  • 在华为昇腾平台上构建 RL 训练闭环,目标冲击 AIME/U-MATH 等基准榜单第一,并发表 CCF-A 类论文或申请专利

AI 工程师 & 大模型专家,Upwork(自由职业)

2023 – 至今
  • Top Rated 自由职业者(前 10%),100% 工作成功率,20+ 客户全 5 星好评
  • 使用 LangChain/LlamaIndex/CrewAI 结合 Pinecone、Weaviate 向量数据库构建生产级 RAG 聊天机器人,任务完成时间减少 20%,领域特定查询准确率达 95%
  • 使用 LoRA/QLoRA 微调本地大模型(Llama 2/3, Mistral),在保障 GDPR 合规的同时将任务准确率提升 25%
  • 使用 LangGraph 和 AutoGen 开发多智能体 AI 工作流编排系统,语义搜索准确率提升 35%,API 延迟降低 40%

研究合同工(交通AI),吉达大学(Dr. Tariq Alsahfi)

2024 – 至今
  • 联合发表 2 篇大模型交通分析论文,发表于 Alexandria Engineering Journal(Q1,5 次引用)和 arXiv,聚焦时空推理与混合大模型架构
  • 开发 TraffiCoT-R 框架,结合思维链提示与多智能体协调用于交通预测,集成 GPT-4、GIS 数据与图神经网络(PyTorch Geometric)
  • 构建 SAFE 混合系统,使用随机森林和 Qwen3-4B 大模型进行事故严重程度分类,严重事故召回率达 85.7%(传统 ML 为 0%)

研究合同工(AI安全),浙江大学(Dr. Haitao Xu)

2022 – 2024
  • 联合发表 IEEE INFOCOM 2025 论文,对欺骗性联盟营销实践进行实证研究,使用 NLP 和网络图分析技术(2 次引用)
  • 开发 ADsFlow Chrome 扩展,通过 DOM 分析和计算机视觉(OpenCV)实现动态网络广告实时检测与分类
  • 构建网页分类系统,使用微调的 RoBERTa 和 BERT 嵌入识别网页意图(网络安全威胁/营销/钓鱼),已申请专利

数据科学家,成都瑞维拓生物科技有限公司

2020 – 2023
  • 通过集成机器学习模型(随机森林、梯度提升)进行需求预测和动态定价优化,助力公司荣获阿里巴巴市场第一,同比增长 180%
  • 使用时间序列预测(ARIMA, Prophet)和 NLP 关键词分析实施预测性 SEO,12 个月内搜索曝光量增加 95%,自然流量提升 65%
  • 使用 Streamlit、Plotly 和 PostgreSQL 构建实时分析仪表板,集成自动化 ETL 管道,数据驱动决策响应时间提升 60%

学术论文

谷歌学术:总引用 37 次 | h-index: 3 | i10-index: 2

代表性研究项目

  • 提出递归任务分解 + 知识传播机制,将复杂推理拆解为可逐层验证的子问题树,缓解 CoT/ToT 长链推理误差累积
  • 在 GSM8K、MATH、MMLU-STEM 上较 CoT/ToT 基线显著提升;被引 16 次,据此赢得华为委托研究合同
  • 设计过程级可验证奖励信号,结合 GRPO 在递归分解轨迹上对 7B 推理模型进行端到端强化学习训练
  • 在 AIME 与 U-MATH 基准上较 SFT 与纯 GRPO 基线取得稳定增益,目标冲击开源数学推理榜首位
  • 课程学习驱动的自适应递归深度调度算法,按样本难度动态调整推理步数,验证 SLM 递归推理范式可扩展性
  • 在保持精度前提下显著加速训练并降低推理成本,为资源受限场景下的小模型推理提供新路径
  • 多智能体协同 + 规则注入框架,结合 Qwen3-4B 与随机森林集成,用于自然不平衡数据下事故严重性预测
  • 严重事故召回率达 85.7%(传统 ML 基线 0%),整体准确率 53.1%,验证 LLM 结构化分类的归纳能力

证书与语言

语言能力: 英语(流利) | 中文(HSK 5 级 & HSKK 中级) | 乌尔都语(母语) | 印地语(流利)