GenAI Perf压测bge-m3
运行镜像环境 docker run -it --rm \ --gpus all \ --ipc=host \ -v /data/models:/vllm-workspace/nim/.cache/models \ -p 5000:5000 \ --entrypoint /bin/bash \ vllm-bge-m3:v0.1.0 运行模型 vllm…
2025-11-13 11:15
|
155
|
|
172 字
|
2 分钟
七牛云部署 CSI 并测试模型
一、部署 CSI 和镜像准备 1.1 部署命令 kubectl apply -f https://github.com/qiniu/kubernetes-csi-driver/releases/download/v0.2.0/kodo-plugin.yaml 1.2 kodo-plugin.yaml 配置文件(国内镜像版本) --- apiVers…
2025-11-07 10:01
|
196
|
|
1186 字
|
32 分钟
AI运维管理平台——通过自然语言管理K8s和linux服务器
github:https://github.com/st-lzh/Wuhr-AI-ops/tree/main blibli演示视频:智能AI运维平台——走向AIOPS_哔哩哔哩_bilibili 网站演示:Wuhr AI Ops - 面向运维工程师的AI助手平台 项目概述 Wuhr AI Op…
2025-8-05 14:51
|
573
|
|
946 字
|
5 分钟
我开源了一个AI运维平台,让你用自然语言管理K8s和Linux服务器
作为一名运维工程师,每天都要面对各种复杂的命令行操作、监控告警和故障排查。想象一下,如果你可以对电脑说:"帮我查看昨天nginx的错误日志"、"检查一下集群的CPU使用情况",然后AI就能自动帮你执行相应的运维操作,那该多爽? 经过几个月的开发和测试,我终于把这个想法变成了现实。今天,正式宣布 Wuhr AI运维管理平台 开源! 项目亮点 🚀 自然…
2025-8-01 16:58
|
755
|
|
879 字
|
5 分钟
AI编程工具实战心得:Cursor与Augment
作为一名一线运维开发,我在过去最近一直在深度使用了多款AI编程工具。今天想分享一下Cursor和Augment两款工具的实际使用体验,以及对AI编程在运维开发领域的一些思考。 工具对比:Cursor vs Augment 基本信息对比 对比维度CursorAugment工具类型AI编程IDE(基于VSCode)AI编程平台+VSCode插件基础架构…
2025-7-02 11:28
|
808
|
|
1623 字
|
17 分钟
告别OOM!这款开源神器,如何为你精准预测AI模型显存?
对于每一位在 AI 浪潮中驰骋的开发者而言,CUDA out of memory 这个错误信息无疑是最令人沮丧的“拦路虎”之一。在 Cloud Studio 这样高效的云端开发环境中,我们追求的是极致的开发效率和资源利用率。然而,一个配置不当的训练任务,不仅可能导致数小时的工作付诸东流,还会造成宝贵的 GPU 算力浪费。 “我的模型到底需要多大显存…
2025-6-26 11:25
|
645
|
|
1946 字
|
8 分钟
RAG高效召回策略:提升召回质量的关键方法
RAG(Retrieval-Augmented Generation,检索增强生成)系统的性能高度依赖于其召回阶段的质量。高效的召回能力能够确保大语言模型(LLM)获取到最相关、最准确的上下文信息,从而生成高质量的回答。本部分将深入探讨提升RAG召回质量的多种核心策略。 1. 合理设置TOP_K值 在向量检索中,TOP_K参数用于指定召回结果的数量…
2025-6-13 11:33
|
708
|
|
3369 字
|
16 分钟
RAFT 方法微调 RAG 模型
论文: RAFT: Adapting Language Model to Domain Specific RAG, 2024链接: https://arxiv.org/pdf/2403.10131 核心思想:如何最好地准备考试? 传统方法的局限性 基于微调的方法:通过"学习"来实现"记忆"输入文档或回答练习题而不参考文档 基于上下文检索的方法:未能…
2025-6-13 11:21
|
365
|
|
770 字
|
3 分钟
RAG流程与优化
随着大语言模型技术的快速发展,检索增强生成(RAG)系统已成为企业智能化转型的重要技术路径。本文将详细阐述RAG系统从概念验证到生产环境部署的完整实施流程,为企业提供切实可行的落地方案。 1. 数据集准备与语料构建 RAG系统的基础在于高质量的数据集准备,这一阶段决定了整个系统的知识覆盖面和准确性。 文档结构化处理 采用现代智能文档处理技术,对各类…
2025-6-13 10:54
|
582
|
|
1974 字
|
8 分钟
n8n 汉化版部署
n8n 是一款强大的开源自动化工作流工具,支持通过可视化界面创建复杂的工作流,广泛用于数据处理、API 集成和任务自动化。本文介绍如何通过 Docker 或 Docker Compose 部署 n8n 汉化版(默认中文界面),并通过自定义参数实现数据持久化、解除访问限制等优化,适合开发测试和生产环境。 发布日期:2025年6月12日 | 作者:Ka…
2025-6-12 18:08
|
1,838
|
|
1034 字
|
6 分钟