术语库

常见开发者术语和技术概念的清晰定义和解释。

共 270 个术语

全部 (270)

AI 人工智能 (171)

编码与格式 (9)

数据格式 (13)

安全与加密 (17)

网络与协议 (12)

开发工具 (17)

数学与计算 (8)

其他 (23)

A2A 协议

A2A 协议（Agent-to-Agent Protocol）是由 Google 发起的开放互操作标准，使基于不同框架构建的 AI Agent 能够通过统一接口相互发现、通信和协作。

AES

AES（高级加密标准）是一种对称分组密码算法，被美国政府采用作为加密机密信息的标准。它使用 128、192 或 256 位的密钥以 128 位的固定大小块加密数据。

Agent Harness

Agent Harness 是 AI Agent 周围的运行时控制层，用于约束执行、管理工具和状态、捕获轨迹、应用策略、评估行为并支持失败恢复。

Agent 开发套件（Agent Development Kit）

Agent 开发套件（Agent Development Kit）是用于构建 AI Agent 的框架层，提供模型访问、工具注册、记忆、规划、执行控制、人工监督、回调、评估和可观测性等可复用抽象。

Agent 记忆

Agent 记忆是指使 AI 代理能够跨交互存储、检索和利用信息的系统和机制，使其能够维护上下文、从过去的经验中学习，并随时间提供个性化响应。

Agent 轨迹（Agent Trajectory）

Agent 轨迹（Agent Trajectory）是 AI Agent 一次运行的有序记录，包括观察、消息、决策、工具调用、工具结果、错误、审批、状态变化和最终输出。

Agent 运行时（Agent Runtime）

Agent 运行时（Agent Runtime）是管理 AI Agent 会话的执行环境，包括状态、工具调用、记忆访问、策略、事件、取消、重试和失败处理。

AI Agent

AI Agent（人工智能代理）是由大语言模型驱动的自主软件系统，通过感知-推理-行动循环（Perception-Reasoning-Action Loop）实现目标导向的任务执行，能够调用工具、管理...

AI Code Review

AI Code Review 是一种将人工智能（特别是大型语言模型，如 GPT-4, Claude 3.5 Sonnet）集成到软件开发生命周期（SDLC）中的自动化代码审查技术。当开发者提交代码变更...

AI 应用构建器（App Builder）

AI 应用构建器（App Builder）是一类无代码/低代码平台，利用大语言模型从自然语言描述生成完整的功能性 Web 应用，使非开发者能够通过对话创建软件。

AI 护栏

AI 护栏是在人工智能系统中实施的安全机制和约束，用于防止有害、不当或意外的输出，同时确保模型在可接受的边界内运行。

AI 水印（AI Watermark）

AI 水印（AI Watermark）是一种在 AI 生成内容（文本、图片、音频、视频）中嵌入不可感知信号的技术，使其能够在不降低内容质量的前提下可靠地检测合成来源。

AI幻觉

AI幻觉是大语言模型生成看似自信权威但实际上错误或捏造信息的现象，包括虚构引用、错误事实和不存在的实体。这源于模型基于统计模式预测而非检索验证事实的本质，可通过检索增强生成和人工审核等方法缓解。

API 网关

API 网关是一个服务器组件，作为所有客户端 API 请求的统一入口，提供路由、身份认证、速率限制、负载均衡、缓存和请求/响应转换等横切关注点的集中管理。

ASCII

ASCII（美国信息交换标准代码）是一种字符编码标准，为 128 个字符分配数值，包括英文字母、数字、标点符号和控制字符。它构成了现代文本编码系统的基础。

AutoGen

AutoGen 是一个用于开发大型语言模型（LLM）应用的开源框架。它的核心设计理念是“多智能体对话（Multi-Agent Conversation）”：将复杂的任务分配给多个具有不同人设、工具和系...

AWQ

AWQ（激活感知权重量化）是一种仅权重量化方法，通过分析激活分布而非仅依赖权重大小来识别和保留关键权重，在 INT4 精度下实现业界领先的准确率，同时支持大语言模型的高效部署。

Base64

Base64 是一种将二进制数据转换为 ASCII 字符串格式的编码方案。它使用 64 个可打印字符（A-Z、a-z、0-9、+、/）来编码二进制数据。

BM25

BM25 是一种概率词法排序函数，它根据查询词匹配、词频饱和、逆文档频率和文档长度归一化为文档打分。

BMI

BMI 是通过体重（公斤）除以身高（米）的平方计算得出的数值，用于评估个人体重是否在健康范围内。世界卫生组织将其分为体重不足、正常、超重和肥胖等类别，广泛应用于健康筛查、医学诊断和健身追踪，但不能区分...

ChatModel

ChatModel 是调用对话式语言模型的应用层抽象，通过结构化消息、标准化参数、可选流式输出、工具调用支持和供应商无关的响应处理来封装模型调用。

CMYK

CMYK 是一种用于彩色印刷的减色模型，通过混合青色、品红、黄色和黑色四种油墨在纸张等物理介质上呈现色彩。与屏幕显示的 RGB 加色模型不同，CMYK 通过吸收光线产生颜色，广泛应用于杂志、包装、名片...

Context Engineering

Context Engineering（上下文工程）是指在 AI 驱动的应用（如 AI IDE、Agent）中，通过静态规则配置（如 `.cursorrules`）、动态检索（如 RAG）、符号链接（...

CrewAI

CrewAI 是一个专为协调具有特定角色的多个自主智能体（Agents）而设计的开源 Python 框架。与强调底层图论或自由对话的框架不同，CrewAI 采用了一种“面向组织架构”的范式：开发者只需...

Cron

Cron 是类 Unix 操作系统中基于时间的任务调度器，允许用户安排命令或脚本在指定的时间间隔自动运行。它使用一种称为 cron 表达式的特殊语法来定义任务执行的时间。

CSV

CSV（逗号分隔值）是一种纯文本文件格式，使用逗号分隔值、换行符分隔记录来存储表格数据。它是应用程序之间数据交换最常见的格式之一，特别是电子表格和数据库。

DPO

DPO（Direct Preference Optimization，直接偏好优化）是一种简化的语言模型人类偏好对齐方法，直接使用偏好数据优化策略，消除了 RLHF 中需要单独奖励模型和强化学习阶段的...

Eino

Eino 是 CloudWeGo 生态中的开源 Go 语言框架，用于构建面向生产的 LLM 应用和 AI Agent，提供类型化组件、编排原语、流式处理、回调机制和可观测性钩子。

Emoji

Emoji 是一套在 Unicode 中编码的标准化象形符号和图标，用于数字通信中表达情感、物体、概念和想法。每个 emoji 都有唯一的 Unicode 码点，各平台使用自己的设计渲染，广泛应用于社...

Encryption

Encryption（加密）是使用数学算法和密钥将明文数据转换为不可读格式（密文）的过程，确保只有拥有正确解密密钥的授权方才能访问原始信息。

EXIF

EXIF 是一种标准，指定了数码相机和智能手机使用的图像、声音和辅助标签的格式，在图像文件本身中存储相机设置、日期/时间、GPS 位置等元数据。

Geohash

Geohash 是一种地理编码系统，将地理坐标（纬度和经度）编码为由字母和数字组成的短字符串。它由 Gustavo Niemeyer 于 2008 年发明，提供了一种将世界划分为网格单元的分层空间数据...

GIF

GIF（图形交换格式）是 CompuServe 于 1987 年开发的位图图像格式，支持最多 256 种颜色和动画。它广泛用于网络上的短动画、表情包和简单图形。

Glob

Glob 是一种使用通配符字符来指定文件名或路径集合的模式匹配语法。它起源于 Unix shell，现在广泛用于编程语言、构建工具和文件系统。

Go

Go（也称为 Golang）是一种静态类型的编译型编程语言，由 Google 设计。它强调简单性、效率，并通过 goroutine 和 channel 内置支持并发编程。

GPT模型

GPT模型是由 OpenAI 开发的大型语言模型系列，采用带有自注意力机制的 Transformer 架构，通过预测序列中的下一个 token 来生成类人文本，在海量文本语料上进行预训练，并针对各种下...

GraphRAG

GraphRAG（Graph Retrieval-Augmented Generation）是一种高级的 AI 检索架构。它在数据入库阶段使用 LLM 提取文本中的实体和关系构建知识图谱，在查询阶段结...

GRPO（Group Relative Policy Optimization）

GRPO（Group Relative Policy Optimization）是一种语言模型强化学习优化方法，它使用一组采样回答内部的相对奖励，而不是单独价值模型。

GUID

GUID（全局唯一标识符）是微软对 UUID 标准的实现，是一个 128 位的标识符，用于在计算机系统中唯一标识信息。GUID 和 UUID 本质上是同一事物，只是名称不同。

Gzip

Gzip 是一种文件压缩格式和软件应用程序，使用 DEFLATE 算法来减小文件大小，广泛用于压缩网页内容和减少 HTTP 传输中的带宽消耗。

HMAC

HMAC 是一种将密钥与哈希函数结合的消息认证技术，通过双重哈希结构验证数据完整性和来源真实性。它能抵抗长度扩展攻击，广泛应用于 API 请求签名、JWT 令牌验证和 Webhook 安全校验等场景，...

HSL颜色

HSL颜色（色相、饱和度、亮度）是一种圆柱形颜色模型，以比 RGB 更直观的方式表示颜色，便于人类理解和操作。它将颜色分为三个组成部分：色相（颜色本身）、饱和度（颜色强度）和亮度（明暗程度）。

HTML实体

HTML实体是以 & 开头、以 ; 结尾的字符串，用于表示 HTML 中的特殊字符，这些字符要么会被解释为 HTML 代码，要么无法通过键盘直接输入。

Hybrid Search

Hybrid Search（混合检索）是一种在信息检索和 RAG（检索增强生成）系统中同时使用多种搜索算法的技术。最常见的组合是将捕获上下文和概念含义的**密集向量检索（Dense Vector Re...

HyDE（Hypothetical Document Embeddings）

HyDE（Hypothetical Document Embeddings）是一种检索技术，它让语言模型生成一个假设文档或答案，嵌入这段生成文本，并用它检索真实文档。

IP地址

IP地址是分配给网络中每个设备的唯一数字标识符，用于主机识别和位置寻址。IPv4 使用 32 位地址（如 192.168.1.1），IPv6 使用 128 位地址解决地址耗尽问题。IP地址可分为公网地...

ISO 8601

ISO 8601 是一种用于以清晰、无歧义格式表示日期和时间的国际标准，使用 YYYY-MM-DDTHH:MM:SS 模式，可选附带时区信息。

Jailbreak (越狱)

Jailbreak (越狱) 在人工智能领域指的是一种高级对抗性提示（Adversarial Prompting）技术。攻击者通过精心设计的、通常极具创造性的语言输入，绕过基础大语言模型（如 GPT-...

JavaScript

JavaScript 是一种高级解释型编程语言，使网页具有交互性，是 Web 应用程序的重要组成部分。它在浏览器和服务器（Node.js）上运行，使其成为最通用的编程语言之一。

JPEG

JPEG（联合图像专家组）是一种常用的数字图像有损压缩方法，特别适用于照片。该格式通过丢弃一些人眼不太能感知的图像数据来实现显著的文件大小减小。

JSON

JSON（JavaScript 对象表示法）是一种轻量级的、基于文本的数据交换格式，易于人类阅读和编写，也易于机器解析和生成。它基于 JavaScript 语法的一个子集，但与编程语言无关。

JSON Schema

JSON Schema 是一种用于描述和验证 JSON 数据结构的规范语言。它定义数据类型、必需属性、格式约束和嵌套结构，广泛应用于 API 请求响应验证、配置文件校验、表单生成和 OpenAPI 规...

JSON Web令牌

JSON Web令牌是一种紧凑的、URL 安全的方式，用于在两方之间传递声明。JWT 中的声明被编码为 JSON 对象，并使用加密算法进行数字签名。

JSON 模式（JSON Mode）

JSON 模式（JSON Mode）是一种 LLM API 或解码能力，用于约束模型响应成为合法 JSON，或强烈偏向 JSON 语法。

JSONPath

JSONPath 是一种用于 JSON 文档的查询语言，能够使用类似于 XML 的 XPath 的路径表达式从复杂的 JSON 结构中提取和过滤数据。

KTO（Kahneman-Tversky Optimization）

KTO（Kahneman-Tversky Optimization）是一种偏好调优方法，它使用标记为 desirable 或 undesirable 的样本优化语言模型，而不要求成对比较。

KV Cache

KV Cache（键值缓存）是 Transformer 模型推理中的一种优化技术，通过存储注意力机制中先前计算的 Key 和 Value 矩阵，消除自回归 token 生成过程中的冗余计算，从而显著提...

LangGraph

LangGraph 是一个用于构建状态化（Stateful）、多智能体（Multi-Actor）应用的 Python/JS 框架。作为 LangChain 生态的扩展，它将复杂的业务工作流抽象为有向图...

Lint

Lint 是由代码检查工具（linter）输出的静态分析告警或错误，用于在运行前发现风格问题、可疑写法和潜在缺陷。

LLM-as-Judge

LLM-as-Judge 是一种评估技术，使用大语言模型来评估、打分或比较其他 AI 模型或智能体的输出，作为昂贵人工评估的自动化替代方案，用于评判有用性、安全性和事实准确性等维度。

LoRA

LoRA（Low-Rank Adaptation，低秩适应）是一种参数高效的微调技术，通过在 Transformer 层中注入可训练的低秩分解矩阵来适应大型预训练模型，在保持模型性能的同时大幅减少可训...

LoRA 秩（LoRA Rank）

LoRA 秩（LoRA Rank）是 LoRA 适配器中使用的低秩维度，用于控制向冻结基础模型添加多少可训练容量。

Lorem Ipsum

Lorem Ipsum 是一种伪拉丁语占位文本，常用于平面设计、Web 开发和出版中，用于展示视觉布局而不受有意义内容的干扰。自 16 世纪以来，它一直是行业标准的虚拟文本。

Markdown

Markdown 是由 John Gruber 于 2004 年创建的轻量级标记语言，用于格式化纯文本文档。它使用简单直观的语法，可以轻松转换为 HTML 和其他格式，同时保持原始形式的可读性。

MCP

MCP（Model Context Protocol，模型上下文协议）是由 Anthropic 于 2024 年推出的开放协议标准，通过 JSON-RPC 2.0 规范实现 AI 应用与外部工具、数据...

MCP 主机（MCP Host）

MCP 主机（MCP Host）是拥有用户会话的 AI 应用或 Agent 环境，负责向模型或用户呈现 MCP 能力，并协调一个或多个连接到 MCP Server 的 MCP Client。

MCP 客户端（MCP Client）

MCP 客户端（MCP Client）是通常由 MCP Host 管理的协议组件，用于建立并维护到 MCP Server 的连接，并与其交换 Model Context Protocol 消息。

MCP 工具（MCP Tool）

MCP 工具（MCP Tool）是 MCP Server 暴露的可执行能力，通过名称、自然语言描述、输入 Schema 和结构化结果，让 AI 应用可以通过协议请求执行。

MCP 应用

MCP 应用（Model Context Protocol Application）是基于 MCP 标准构建的 AI 原生应用，通过统一的协议接口为大语言模型提供结构化的工具、数据源和服务访问能力。

MCP 提示词（MCP Prompt）

MCP 提示词（MCP Prompt）是 MCP Server 暴露的可复用提示模板，让 MCP Client 和 Host 可以呈现一致的任务型指令、参数和交互模式。

MCP 服务器（MCP Server）

MCP 服务器（MCP Server）是实现 Model Context Protocol 的进程或服务，向兼容 MCP 的 AI 应用暴露工具、资源和提示词等能力。

MCP 网关（MCP Gateway）

MCP 网关（MCP Gateway）是中间层，用于集中管理多个 MCP Server 的发现、路由、认证、授权、策略执行、可观测性和流量控制。

MCP 资源（MCP Resource）

MCP 资源（MCP Resource）是 MCP Server 暴露的读取型上下文原语，表示文件、记录、文档、Schema、仓库状态或生成视图等可供 AI 应用检查的数据。

MCP 采样（MCP Sampling）

MCP 采样（MCP Sampling）是 Model Context Protocol 的一项能力，允许 MCP Server 在用户和客户端控制下，通过 MCP Host 或 Client 请求语...

MD5

MD5（消息摘要算法5）是一种广泛使用的加密哈希函数，它产生一个128位（16字节）的哈希值，通常表示为32个字符的十六进制数。它被设计用作校验和来验证数据完整性。

MIME类型

MIME类型是一种标准化标识符，用于指示文件或数据的性质和格式。它由类型和子类型组成（如 text/html、image/png），通过 HTTP 的 Content-Type 头传输，使浏览器和服务...

Mock Data

Mock Data（模拟数据）是人工生成的虚拟数据，用于软件测试、前端开发和功能演示。它模拟真实数据的结构和格式，使开发人员能够独立于后端服务工作，测试边缘情况，同时保护敏感的生产数据不被暴露。

NanoID

NanoID 是一个用于 JavaScript 的小巧、安全、URL 友好的唯一字符串 ID 生成器。它生成比 UUID 更短的紧凑标识符，同时保持类似的碰撞抵抗能力。

Ollama

Ollama 是一个用于在本地机器上运行、构建和共享大型语言模型（LLM）的开源框架。它通过类似 Docker 的命令行体验，将复杂的模型权重下载、量化（Quantization）配置以及 GPU 硬...

OpenTelemetry

OpenTelemetry 是一个开源可观测性框架，提供统一的 API、SDK 和工具集，用于从分布式系统中生成、收集和导出遥测数据（链路追踪、指标和日志），帮助开发者监控和排查应用程序问题。

ORPO（Odds Ratio Preference Optimization）

ORPO（Odds Ratio Preference Optimization）是一种偏好优化方法，它把对 chosen 回答的监督学习与针对 rejected 回答的赔率惩罚结合起来。

PagedAttention

PagedAttention 是一种 LLM 服务技术，它像虚拟内存分页一样用固定大小块管理键值缓存显存，以减少浪费和碎片。

PDF

PDF（便携式文档格式）是 Adobe 于 1992 年开发的文件格式，用于在不同平台和设备上一致地呈现文档。无论使用什么软件、硬件或操作系统查看，它都能保留字体、图像、图形和布局。

PEFT

PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）是一系列技术，通过仅训练一小部分参数来使大型预训练模型适应下游任务，在保持竞争性能的同时大幅降低计算需求。

PNG

PNG（便携式网络图形）是一种支持无损数据压缩和透明度的光栅图形文件格式。它使用 DEFLATE 压缩算法，支持 24 位真彩色和 32 位 RGBA（含 alpha 通道），非常适合需要透明背景的徽...

PPO（Proximal Policy Optimization）

PPO（Proximal Policy Optimization）是一种强化学习算法，它在更新策略时限制每次更新与旧策略之间的距离。

Prompt Injection

Prompt Injection（提示注入）是一种专门针对基于大型语言模型（LLM）的应用程序的网络安全攻击。在这种攻击中，恶意用户通过精心构造的输入，诱导 LLM 忽略其原始的系统设定（System...

QLoRA

QLoRA（量化低秩适应）是一种高效的微调技术，结合了 4 位量化和 LoRA 适配器，能够在消费级硬件上微调大型语言模型，同时保持接近全精度的性能。

Rerank

Rerank（重排序）是信息检索和 RAG 流程中的一个进阶阶段。在传统的向量检索（如余弦相似度）或关键词检索（如 BM25）快速召回大量候选文档后，Rerank 引入一个计算成本更高但理解能力更强的...

REST接口

REST接口是一种用于设计网络应用程序的架构风格，使用 HTTP 请求对由 URL 标识的资源执行 CRUD 操作（创建、读取、更新、删除）。它强调无状态通信和统一接口。

RGBA颜色

RGBA颜色是 RGB 模型的扩展，增加了 alpha 通道控制透明度。格式为 rgba(R, G, B, A)，其中 RGB 值范围 0-255，alpha 值 0-1 表示从完全透明到完全不透明。...

RGB颜色

RGB颜色是一种加色模型，通过将红、绿、蓝光以不同强度组合来创建广泛的颜色光谱。每个颜色通道通常范围从 0 到 255，允许超过 1600 万种可能的颜色组合。

RLHF

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种训练技术，通过使用人类反馈训练奖励模型，然后通过强化学习优化来引导模型行为...

RSA

RSA（Rivest-Shamir-Adleman）是一种非对称加密算法，使用一对密钥——公钥用于加密，私钥用于解密。它是最早的实用公钥密码系统之一，广泛用于安全数据传输。

SHA-256

SHA-256（安全哈希算法256位）是一种加密哈希函数，产生256位（32字节）的哈希值，通常表示为64个字符的十六进制数。它是由NSA设计的SHA-2系列的一部分，广泛用于数据完整性验证和数字签名...

Skill

Skill 是 AI 智能体系统中封装特定能力的模块化组件，通过提示词模板、指令和工具配置定义智能体在特定任务中的行为。Skill 支持 MCP 等协议扩展智能体功能，可组合构建复杂工作流，是现代 A...

Slug

Slug 是字符串的 URL 友好版本，通常从标题或名称派生，只使用小写字母、数字和连字符。它用于为网页、博客文章和其他内容创建人类可读且 SEO 友好的 URL。

SSE 传输（SSE Transport）

SSE 传输（SSE Transport）是基于 HTTP 的 Model Context Protocol 传输模式，使用 Server-Sent Events 传递服务端到客户端的消息，同时通过 ...

SSL/TLS安全协议

SSL/TLS安全协议是用于在计算机网络上提供安全通信的加密协议，提供数据加密、身份认证和完整性验证三大安全服务。TLS 是 SSL 的继任者，广泛应用于 HTTPS 网站加密、电子邮件安全传输、VP...

SVG

SVG（可缩放矢量图形）是一种基于 XML 的矢量图像格式，用于二维图形，支持交互性和动画。与光栅图像不同，SVG 图形可以缩放到任何尺寸而不会损失质量。

Token（令牌）

Token（令牌）是大型语言模型（LLM）处理文本的基本单位，代表一段可以是单词、子词、字符或标点符号的文本片段。分词（Tokenization）是将文本分解为这些离散单元的过程，使模型能够将人类可读...

TOML

TOML 是一种人类可读的配置文件格式，语法简洁明了，可直接映射到哈希表数据结构。支持字符串、数字、布尔值、日期时间、数组和表等数据类型，广泛用于 Rust（Cargo.toml）和 Python（p...

Transformer模型

Transformer模型是一种深度学习架构，由 Google 研究人员在具有里程碑意义的论文《Attention Is All You Need》（2017）中提出，它通过用自注意力机制取代循环神经...

TypeScript

TypeScript 是一种强类型编程语言，通过添加可选的静态类型注解来构建在 JavaScript 之上。由 Microsoft 开发，它编译为纯 JavaScript，可以在任何 JavaScri...

Unicode

Unicode 是一种通用字符编码标准，为世界上每种书写系统的每个字符分配一个唯一的数字（码点）。它旨在表示人类交流中使用的所有字符，包括字母、符号和表情符号。

Unix时间戳

Unix时间戳（也称为 Unix 纪元时间或 POSIX 时间）是一种将时间表示为自 Unix 纪元（1970 年 1 月 1 日 00:00:00 UTC）以来累计秒数的系统。它提供了一种简单、与时...

URL 编码

URL 编码（百分号编码）是一种在统一资源标识符（URI）中编码信息的机制，通过将不安全的 ASCII 字符替换为 '%' 后跟两个表示字符字节值的十六进制数字来实现。

UTF-8

UTF-8（8 位 Unicode 转换格式）是一种可变宽度字符编码，可以表示 Unicode 标准中的每个字符。它每个字符使用 1 到 4 个字节，并且向后兼容 ASCII。

UUID

UUID（通用唯一标识符）是一个 128 位的标识符，保证在所有空间和时间上都是唯一的。UUID 表示为 32 个十六进制数字，以 8-4-4-4-12 的格式分成五组，用连字符分隔。

vLLM

vLLM 是一个开源 LLM 服务引擎，面向高吞吐推理设计，提供高效 KV Cache 管理、连续批处理和 OpenAI 兼容服务 API。

WebLLM

WebLLM 是一个由 MLC-AI 团队开发的开源项目，旨在将大型语言模型（LLM）直接引入 Web 浏览器中运行，无需服务器支持。它利用 Apache TVM 深度学习编译器将模型权重编译为高效的...

WebP

WebP 是 Google 开发的现代图像格式，为 Web 图像提供卓越的无损和有损压缩。它通常比 JPEG 和 PNG 产生更小的文件大小，同时保持相当的质量。

XML

XML（可扩展标记语言）是一种使用自定义标签存储和传输数据的标记语言。它具有严格的语法规则，支持命名空间和 XSD 模式验证，广泛应用于企业数据交换、文档格式（如 Office、SVG）和配置文件等场...

XPath

XPath 是一种用于从 XML 文档中选择节点和计算值的查询语言，使用类似文件系统的路径表达式导航 XML 树形结构。它支持绝对路径、相对路径和谓词过滤，提供丰富的内置函数，广泛应用于 XSLT 转...

YAML

YAML（YAML Ain't Markup Language）是一种人类可读的数据序列化语言，常用于配置文件和数据交换。它使用缩进来表示结构，使其比 JSON 或 XML 更易于阅读复杂的嵌套数据。

上下文压缩（Context Compression）

上下文压缩（Context Compression）是在不丢失任务关键信息的前提下，减少发送给 LLM 的上下文数量。

上下文召回率（Context Recall）

上下文召回率（Context Recall）是一种 RAG 评估指标，用于衡量检索到的上下文是否包含回答用户问题所需的证据。

上下文学习

上下文学习（In-Context Learning，ICL）是大语言模型从输入提示中提供的示例学习和适应新任务的能力，无需更新模型参数或进行显式训练。

上下文窗口

上下文窗口是大语言模型在单次交互中能够处理的最大 token 数量，包括输入提示和生成的输出。它决定了模型能够考虑多少信息，直接影响长文档处理、多轮对话记忆和复杂推理任务的能力，现代模型如 GPT-4...

上下文精确率（Context Precision）

上下文精确率（Context Precision）是一种 RAG 评估指标，用于衡量检索到的上下文中有多少内容与用户问题或期望答案相关。

上下文缓存（Context Caching）

上下文缓存（Context Caching）是复用重复提示词上下文或已计算模型状态的做法，使 LLM 服务不必为每个请求重复计算相同输入 token。

上下文预算（Context Budget）

上下文预算（Context Budget）是在模型有限上下文窗口中，为指令、用户输入、检索证据、记忆、工具数据和预期输出规划 token 分配。

中间遗忘现象（Lost in the Middle）

中间遗忘现象（Lost in the Middle）是语言模型相比上下文开头或结尾，更不稳定地使用长上下文中间信息的倾向。

事实锚定（Grounding）

事实锚定（Grounding）是把 AI 系统输出绑定到检索证据、可信来源、工具结果或结构化数据上的做法，而不是只依赖模型记忆。

二维码

二维码是一种二维矩阵条形码，可以存储各种类型的数据，包括 URL、文本、联系信息等。它由 Denso Wave 于 1994 年发明，用于追踪汽车零部件，此后已广泛用于移动扫描应用。

二进制

二进制（也称为 base-2）是一种只使用两个符号的数字系统：0 和 1。它是计算机的基础语言，所有数据和指令最终都表示为二进制数字（位）序列。

交叉编码器（Cross-Encoder）

交叉编码器（Cross-Encoder）是一种排序模型架构，它联合编码查询和候选文档或片段，并输出相关性分数。

人在回路（Human-in-the-Loop）

人在回路（Human-in-the-Loop）是在 AI 系统的明确决策点插入人工复核、审批、纠正或升级的控制模式。

人工智能

人工智能（Artificial Intelligence，AI）是计算机科学的一个分支，专注于创建能够执行通常需要人类智能才能完成的任务的智能系统，包括学习、推理、问题解决、感知和自然语言理解。

代理工作流

代理工作流是一种设计模式，AI 代理通过多步推理、工具使用和自我纠正，自主规划、执行和迭代复杂任务，无需持续的人工干预。

代码压缩

代码压缩是一种网页优化技术，通过移除源代码中的空白符、注释并缩短变量名来减小文件体积，同时保持代码功能不变。常用工具如 Terser 和 cssnano 可将 JavaScript 和 CSS 文件压...

代码检查

代码检查是一种静态分析技术，使用自动化工具在不执行代码的情况下分析源代码，发现语法错误、潜在 bug、风格不一致和安全漏洞。常用工具包括 ESLint、Pylint 等，可集成到 IDE 和 CI/C...

代码美化

代码美化是通过添加缩进、换行和一致的空格来格式化代码或数据的过程，本质上是代码压缩的反向操作。它将紧凑的代码转换为结构清晰的格式，便于阅读、调试和代码审查，常用工具包括 Prettier、Black ...

倒数排名融合（Reciprocal Rank Fusion）

倒数排名融合（Reciprocal Rank Fusion）是一种排名聚合方法，它根据每个文档在各个结果列表中排名的倒数来合并多个检索列表。

偏好数据（Preference Data）

偏好数据（Preference Data）是记录同一提示词或任务下，哪些模型回答被偏好、排序、拒绝或评分的训练数据。

元数据过滤（Metadata Filtering）

元数据过滤（Metadata Filtering）是使用附加在文档或分块上的结构化属性来限制检索结果的做法，例如权限、来源、日期、产品、语言或版本。

内容分发网络

内容分发网络是由全球分布的边缘服务器组成的网络架构，通过在地理位置上最接近用户的节点缓存和交付内容，显著降低延迟并提升加载速度。它还提供 DDoS 防护、负载均衡和 SSL 终止等安全功能，是现代网站...

冷启动（Cold Start）

冷启动（Cold Start）是模型服务在运行时、模型权重、缓存或硬件尚未完全预热时处理请求产生的额外启动延迟。

函数调用

函数调用是大语言模型的一项能力，允许模型生成结构化输出，指定要调用的函数及其参数，使 AI 系统能够以可靠且类型安全的方式与外部工具、API 和服务进行交互。

分块大小（Chunk Size）

分块大小（Chunk Size）是在检索增强生成系统中，为每个被索引文档单元选择的 token、字符或结构长度。

分块重叠（Chunk Overlap）

分块重叠（Chunk Overlap）是在相邻文档分块之间保留的重复文本，使切分边界附近的信息仍然可以被检索到。

分词器（Tokenizer）

分词器（Tokenizer）是把文本转换为语言模型可处理的 token ID，并把生成的 token ID 解码回文本的组件。

十六进制

十六进制（也称为 hex 或 base-16）是一种使用 16 个不同符号的位置计数系统：数字 0-9 表示值 0-9，字母 A-F（或 a-f）表示值 10-15。它提供了一种人类友好的方式来表示二...

十六进制颜色

十六进制颜色是网页设计中最常用的颜色表示法，格式为 #RRGGBB，由三对十六进制值（00-FF）分别表示红、绿、蓝通道强度。它支持 1670 万种颜色，可简写为 #RGB 形式，现代 CSS 还支持...

卷积神经网络

卷积神经网络（CNN，Convolutional Neural Network）是一类专门用于处理图像等结构化网格数据的深度神经网络，通过卷积层使用可学习的滤波器自动学习空间层次特征，从而检测边缘、纹...

双编码器（Bi-Encoder）

双编码器（Bi-Encoder）是一种检索模型架构，它分别把查询和文档编码为嵌入向量，使二者可以通过相似度搜索高效比较。

反向传播

反向传播（Backpropagation）是一种训练人工神经网络的基础算法，它利用微积分中的链式法则，通过将误差从输出层反向传播到输入层来高效计算梯度。该算法通过计算每个权重对整体误差的贡献程度，实现...

变分自编码器

变分自编码器是一种生成式深度学习模型，它将神经网络自编码器与变分贝叶斯推断相结合，学习将输入数据编码到连续的潜空间中，并解码重建或生成新的数据样本。

合成数据（Synthetic Data）

合成数据（Synthetic Data）是人工生成的、模拟真实世界数据统计特性和模式的数据，主要用于在真实数据稀缺、昂贵或受隐私限制时训练、测试和验证 AI 模型。

向量嵌入

向量嵌入是一种将离散数据（如单词、句子或实体）转换为高维稠密向量的机器学习技术，使语义相似的项目映射到向量空间中相近的点。它是语义搜索、推荐系统和 RAG 检索增强生成的核心技术，支持通过余弦相似度计...

向量数据库

向量数据库是专为存储和查询高维向量嵌入设计的数据库系统，使用 HNSW、IVF 等近似最近邻算法实现毫秒级相似性搜索。它支持余弦相似度等多种距离度量，可扩展至数十亿向量，是构建语义搜索、RAG 系统和...

吞吐量（Throughput）

吞吐量（Throughput）是服务系统在单位时间内完成的工作量，例如每秒请求数、每秒输出 token 数或每秒总 token 数。

哈希

哈希是一种单向数学函数，将任意大小的输入数据转换为固定长度的数字指纹，具有确定性、雪崩效应和抗碰撞性等特性。常用算法包括 SHA-256 和 SHA-3，广泛应用于密码存储、数据完整性验证、数字签名和...

回调处理器（Callback Handler）

回调处理器（Callback Handler）是生命周期钩子组件，接收模型调用、工具、检索器、流或编排节点产生的事件，用于日志、追踪、指标、调试、审计或策略执行。

图片压缩

图片压缩是通过算法移除冗余或不重要的数据来减小图像文件大小的技术。无损压缩（如 PNG）保留所有数据，有损压缩（如 JPEG）牺牲部分质量换取更小体积。它对网页性能优化至关重要，现代格式如 WebP ...

图编排（Graph Orchestration）

图编排（Graph Orchestration）是一种把 AI 应用逻辑表示为节点和边的控制流模式，支持分支、循环、并行路径、重试、状态转换和显式执行结构。

域名系统

域名系统是一种分层分布式命名系统，将人类可读的域名（如 example.com）转换为计算机用于在网络上相互识别的 IP 地址（如 192.0.2.1）。

多智能体

多智能体系统是一种 AI 架构，由多个具有专门角色的自主智能体协作完成复杂任务。每个智能体可扮演研究员、程序员或审查员等角色，通过 AutoGen、CrewAI 等框架实现任务分解、通信协调和涌现式问...

多模态

多模态 AI 是能够同时处理、理解和生成多种数据类型（文本、图像、音频、视频）的人工智能系统。代表模型如 GPT-4V 和 Gemini 可实现跨模态推理，支持图像描述、视觉问答、文档理解等任务，提供...

大语言模型

大语言模型（LLM，Large Language Model）是一种在海量文本数据上训练的人工智能模型，能够以出色的流畅性和上下文感知能力理解、生成和处理人类语言，为对话式 AI 到代码生成等应用提供...

奖励模型（Reward Model）

奖励模型（Reward Model）是一种根据偏好数据或人工反馈训练出来、用于为候选回答分配分数的模型。

安全超文本传输协议

安全超文本传输协议是 HTTP 的安全版本，使用 TLS（传输层安全）加密浏览器与服务器之间的所有通信。它保护数据完整性、机密性，并验证服务器身份。

审批关卡（Approval Gate）

审批关卡（Approval Gate）是策略检查点，用于暂停或阻断 AI 动作，直到人工复核人、规则引擎或可信服务批准、拒绝、修改或升级该动作。

宽高比

宽高比是图像、视频或显示器宽度与高度的比例关系，用冒号分隔表示（如 16:9、4:3）。保持正确的宽高比可防止图像变形失真。常见比例包括 16:9（高清视频）、4:3（传统屏幕）、1:1（社交媒体）和...

密码

密码是用于验证用户身份的秘密字符串，通过与系统存储的凭证匹配来授予对账户或数据的访问权限。强密码应包含大小写字母、数字和特殊字符，并配合双因素认证使用。密码通常以哈希形式安全存储，而非明文。

对话模板（ChatTemplate）

对话模板（ChatTemplate）是可复用的角色化消息模板，用于把变量、指令、示例、检索上下文和输出要求转换为提供给语言模型的结构化聊天消息。

小样本学习

小样本学习是一种机器学习范式，模型仅从少量示例（通常 1-10 个）中学习执行任务。在大语言模型中，通过在提示词中提供示例来引导模型行为，无需微调权重即可适应新任务，是提示工程和上下文学习的核心技术。

小语言模型

小语言模型（SLM）是一类参数数量显著少于大型语言模型的语言模型，通常从数亿到几十亿参数不等，专为在资源受限的设备上高效部署而设计，同时保持实用的能力。

层叠样式表

层叠样式表是一种用于描述 HTML 和 XML 文档呈现的样式语言，控制网页的布局、颜色、字体和动画效果。CSS 将内容与样式分离，支持 Flexbox、Grid 布局和媒体查询等现代特性，是构建响应...

工作流编排（Workflow Orchestration）

工作流编排（Workflow Orchestration）是在可重复 AI 或自动化流程中，对任务、依赖关系、数据映射、执行策略、审批和输出进行结构化协调的方式。

工具使用

工具使用是 AI 系统（特别是大型语言模型）与外部工具、API 和服务交互的能力，用于执行文本生成之外的操作，如网络搜索、代码执行、数据库查询和文件操作。

差异对比

差异对比是一种比较技术，用于识别和显示两组数据之间的差异。它基于最长公共子序列算法，能够精确标记文本文件或代码中添加、删除和修改的内容，是版本控制系统和代码审查工具的核心功能，广泛应用于软件开发协作流...

序列化

序列化是将内存中的数据结构或对象转换为线性格式的过程，便于存储到文件、数据库或通过网络传输。常见格式包括 JSON、XML、YAML 和 Protocol Buffers。逆向过程称为反序列化，用于还...

应用程序接口

应用程序接口是一组规则、协议和工具，允许不同的软件应用程序相互通信。它定义了软件组件应如何交互，使开发人员能够访问其他服务的功能或数据，广泛应用于第三方服务集成、微服务架构和移动应用后端通信等场景。

延迟（Latency）

延迟（Latency）是 AI 系统中从请求到响应或某个里程碑之间经过的时间，例如第一个 token、最后一个 token 或工具结果完成。

开放授权

开放授权（OAuth）是一种开放标准授权协议，允许用户授权第三方应用访问其资源而无需共享密码。它通过访问令牌实现安全的委托访问，广泛应用于社交登录（如使用 Google/GitHub 登录）、API ...

引用溯源（Citation）

引用溯源（Citation）是把 AI 生成声明归因到支持该声明的具体来源文档、片段、URL、记录或工具输出。

张量并行（Tensor Parallelism）

张量并行（Tensor Parallelism）是一种模型并行策略，它把大型神经网络张量及其计算拆分到多个加速器上。

强化学习

强化学习（Reinforcement Learning，RL）是一种机器学习方法，智能体通过与环境交互，以奖励或惩罚的形式接收反馈，并通过策略调整其行为以最大化长期累积奖励来学习做出最优决策。

循环神经网络

循环神经网络是一类专门用于处理序列数据的神经网络，通过维护隐藏状态来捕获前序时间步的信息，使网络能够学习文本、语音和时间序列数据中的时间依赖关系和模式。

微调

微调（Fine-tuning）是一种迁移学习技术，通过在较小的特定任务数据集上继续训练过程，将预训练的机器学习模型适配到特定任务或领域。这种方法利用预训练模型中已捕获的通用知识，同时为专业应用定制其行...

思维链

思维链（Chain-of-Thought，CoT）是一种提示技术，通过引导大语言模型将复杂推理任务分解为中间步骤，模拟人类思维过程来提高准确性和可解释性。

情感分析

情感分析是一种自然语言处理（NLP）技术，用于从文本中识别和提取主观信息，判断所表达的观点是正面、负面还是中性。它涵盖文档级分析（整篇文本的整体情感）、句子级分析（单个句子的情感）和方面级分析（针对文...

扩散 Transformer（DiT）

扩散 Transformer（DiT）是一种生成模型架构，用 Transformer 替换扩散模型中传统的 U-Net 骨干网络，实现更优的扩展特性和更高质量的图像与视频生成。

扩散模型

扩散模型是一类生成式深度学习模型，通过逐步对正态分布变量进行去噪来生成数据，逆转前向扩散过程——该过程逐步向训练数据添加高斯噪声直至变成纯噪声。

持有者令牌

持有者令牌是 HTTP 认证中使用的一种访问令牌类型，客户端出示令牌以访问受保护的资源。术语 'bearer' 意味着持有令牌的任何一方都可以使用它来访问资源，而无需额外的身份证明。

指令微调（Instruction Tuning）

指令微调（Instruction Tuning）是一种监督微调方法，它用多样化指令-回答样本训练语言模型，使模型学会遵循用户任务。

推测解码（Speculative Decoding）

推测解码（Speculative Decoding）是一种 LLM 推理技术，其中更快的草稿模型提出多个候选 token，再由较大的目标模型并行验证。

提示词

提示词是提供给 AI 模型的自然语言输入或指令，用于引导模型生成响应，作为人机交互的主要接口，通过精心设计的文本、上下文和格式指令来塑造模型的输出。

提示词 CI/CD（Prompt CI/CD）

提示词 CI/CD（Prompt CI/CD）是把持续集成和持续部署实践应用到 LLM 应用中的提示词、模板和评估变更。

提示词回归测试（Prompt Regression Test）

提示词回归测试（Prompt Regression Test）是一种评估，用于检查提示词或相关 LLM 应用变更是否破坏了先前预期行为。

提示词工程

提示词工程是一种设计、优化和迭代输入指令（提示词）的实践方法，旨在与大语言模型（LLM）及其他生成式 AI 系统进行有效沟通，以获得准确、一致且可靠的输出结果。

提示词模板（Prompt Template）

提示词模板（Prompt Template）是把固定指令与变量输入组合起来、生成一致 LLM 请求的可复用提示结构。

提示词版本管理（Prompt Versioning）

提示词版本管理（Prompt Versioning）是随时间跟踪、审查、测试和发布提示词及提示词模板变更的实践。

数据URL

数据URL是一种 URI 方案，允许将小型数据项内联嵌入到网页文档中，就像它们是外部资源一样，使用 Base64 编码将二进制数据直接表示在 URL 字符串中。

数据集策划（Dataset Curation）

数据集策划（Dataset Curation）是选择、清洗、组织、标注、去重和验证数据，使其适合模型训练或评估的过程。

文本生成视频（Text-to-Video）

文本生成视频（Text-to-Video）是一种 AI 生成技术，利用扩散模型或 Transformer 架构从自然语言描述生成时序连贯的视觉序列，实现从文本提示到视频内容的自动创作。

文档分块（Chunking）

文档分块（Chunking）是把长文档或数据源切分为较小可检索单元的过程，这些单元需要保留足够语义上下文，以支持向量嵌入、索引、检索和有依据生成。

文档加载器（Document Loader）

文档加载器（Document Loader）是内容摄取组件，从文件、网页、对象存储、数据库、SaaS 系统或 API 读取原始内容，并转换为供下游 AI 处理的标准化文档表示。

文档转换器（Document Transformer）

文档转换器（Document Transformer）是在文档被嵌入、索引、检索或语言模型消费之前，对已加载文档进行清洗、分块、增强、过滤或结构重组的管线组件。

文生图

文生图是一种生成式 AI 技术，利用扩散模型和 Transformer 架构将自然语言描述转换为视觉图像。代表性系统包括 DALL-E、Midjourney 和 Stable Diffusion，广泛...

无监督学习

无监督学习（Unsupervised Learning）是一种机器学习类型，算法在没有预定义输出或人工监督的情况下从未标记数据中学习模式。系统通过识别相似性、差异性和分组，自主发现数据中隐藏的结构、关...

时区

时区是地球上采用统一标准时间的区域，以与协调世界时（UTC）的偏移量表示。全球划分为 24 个主要时区，部分地区实行夏令时。在软件开发中，正确处理时区对于跨地区调度、日志记录和国际化应用至关重要。

时间戳

时间戳是标识事件发生确切时刻的编码信息，常见格式包括 Unix 时间戳（自1970年以来的秒数）和 ISO 8601 字符串。它广泛用于日志记录、数据库追踪、API 计时和分布式系统的事件排序，是确保...

机器学习

机器学习（Machine Learning，ML）是人工智能的一个子领域，它使计算机系统能够在无需显式编程的情况下，自动从经验中学习和改进。它专注于开发能够访问数据、从中学习并基于发现的模式做出预测或...

条形码

条形码是一种机器可读的数据表示形式，通过平行线条（一维条码如 UPC、EAN）或几何图案（二维条码如二维码）编码信息。广泛应用于零售结账、库存管理、物流跟踪和身份验证，可通过扫描设备或智能手机快速读取...

查询字符串

查询字符串是 URL 中问号（?）之后用于向服务器传递参数的部分，由以 & 分隔的键值对组成。它广泛应用于搜索查询、分页控制、数据过滤和营销追踪等场景，特殊字符需要进行 URL 编码处理，是 Web ...

查询改写（Query Rewriting）

查询改写（Query Rewriting）是在搜索前，把用户原始问题转换为一个或多个更清晰、扩展后或更适合检索的查询的过程。

标准输入输出传输（STDIO Transport）

标准输入输出传输（STDIO Transport）是 Model Context Protocol 的本地传输方式，在 MCP Client 和 MCP Server 之间通过子进程标准输入和标准输出...

校验和

校验和是通过数学算法从原始数据计算得出的固定长度数值，用于检测数据在传输或存储过程中是否发生错误或篡改。常见算法包括 CRC、MD5 和 SHA 系列，广泛应用于文件下载验证、网络协议和数据备份等场景...

梯度下降

梯度下降（Gradient Descent）是一种一阶迭代优化算法，通过沿着梯度的负方向（即最陡下降方向）重复移动来寻找函数的最小值。它是训练机器学习模型、最小化损失函数的基础优化技术，常见变体包括随...

检索器（Retriever）

检索器（Retriever）是查询到上下文的组件，接收用户或 Agent 查询，并返回相关文档、分块、记录、段落或可供工具读取的上下文，用于后续推理和生成。

检索增强生成

检索增强生成是一种 AI 架构，通过在生成响应之前从外部知识库检索相关信息来增强大语言模型的输出，结合信息检索系统和生成式 AI 的优势，产生更准确、更新和可验证的答案。

模型对齐

模型对齐是训练 AI 系统使其行为符合人类价值观、意图和期望的过程。通过 RLHF、Constitutional AI 等技术，确保模型遵循 HHH 原则（有用、无害、诚实），避免产生有害或非预期的输...

模型推理

模型推理（Inference）是使用已训练好的模型对新的、未见过的数据进行预测或生成输出的过程，代表了将学习到的模式应用于实际输入的部署阶段，期间不更新模型参数。

模型服务化（Model Serving）

模型服务化（Model Serving）是在生产环境中把机器学习模型或语言模型部署到 API 或服务后面，使应用可以在运行时可靠调用它们的实践。

正则表达式

正则表达式（Regex）是定义搜索模式的字符序列，用于字符串中的模式匹配。它使用元字符、量词和分组等语法定义复杂的匹配规则，广泛应用于表单验证、文本搜索替换、数据提取、日志分析和输入过滤等场景。

每秒 Token 数（Tokens per Second）

每秒 Token 数（Tokens per Second）是一种吞吐指标，用于衡量 LLM 在解码阶段每秒生成多少输出 token。

注意力机制

注意力机制（Attention Mechanism）是一种神经网络技术，它通过计算加权重要性分数，使模型能够动态地关注输入数据的相关部分，从而在进行预测或生成输出时选择性地关注最相关的信息。

测试时计算（Test-Time Compute）

测试时计算（Test-Time Compute）是一种在 AI 模型推理阶段（而非训练阶段）分配额外计算资源以提升输出质量的技术，通常通过扩展思维链推理、自我验证或迭代优化来实现。

深度学习

深度学习（Deep Learning）是机器学习的一个子集，它使用具有多层结构的人工神经网络（深度神经网络）从原始输入数据中逐步提取更高层次的特征，从而实现分类、检测和生成等任务的自动表示学习。

混合专家模型

混合专家模型（MoE）是一种神经网络架构，使用多个专门的子网络（专家）和门控机制来动态地将输入路由到最相关的专家，在保持计算效率的同时实现大规模模型容量。

温度参数

温度参数是大语言模型中控制输出随机性的关键超参数，通过缩放 token 概率分布来影响生成结果。低温度（0-0.3）产生确定性输出，适合代码生成；高温度（0.7-1.2）增加多样性，适合创意写作，常与...

灾难性遗忘（Catastrophic Forgetting）

灾难性遗忘（Catastrophic Forgetting）是模型在新数据上训练或微调后，先前学到的能力丢失或退化的现象。

生成对抗网络

生成对抗网络是一类由两个神经网络组成的深度学习模型——生成器和判别器——通过对抗竞争同时训练，其中生成器学习创建逼真的合成数据，而判别器学习区分真实样本和生成样本。

生成式AI

生成式AI是一类能够创建新内容的人工智能系统，包括文本、图像、音频、视频和代码。它通过深度学习从海量数据中学习模式，生成与训练数据相似的新颖输出，代表产品包括 ChatGPT、DALL-E 和 Sta...

监督学习

监督学习是最常见的机器学习方法，通过分析带标签的训练数据学习输入到输出的映射关系。主要分为分类（预测离散类别）和回归（预测连续值）两类任务，常用算法包括决策树、随机森林、支持向量机和神经网络，广泛应用...

监督微调（SFT）

监督微调（SFT）是一种监督训练阶段，它在精选的提示词-回答样本上微调预训练语言模型。

监督智能体（Supervisor Agent）

监督智能体（Supervisor Agent）是协调型 Agent，负责向专家 Agent 或 Worker 分配任务、监控进度、解决冲突、执行策略并汇总结果。

知识图谱

知识图谱是将真实世界实体及其关系组织为节点和边的图结构数据库，使用主语-谓语-宾语三元组表示事实。它支持语义查询和逻辑推理，与大语言模型结合可减少幻觉并提供事实基础，广泛应用于搜索引擎知识面板、智能问...

知识蒸馏

知识蒸馏是一种模型压缩技术，通过训练较小的学生模型学习大型教师模型输出的软概率分布，转移隐含的暗知识。蒸馏后的模型可保留原始性能的百分之九十以上，体积缩小数倍，广泛用于移动端部署和边缘计算场景。

视觉语言模型（VLM）

视觉语言模型（VLM）是一种多模态 AI 模型，能够同时处理和推理视觉（图像、视频）与文本输入，支持图像理解、视觉问答和基于图像的文本生成等任务。

神经网络

神经网络是一种模拟人脑结构的计算模型，由输入层、隐藏层和输出层的神经元相互连接组成。通过反向传播算法调整连接权重进行学习，能够识别复杂模式和进行非线性映射，是深度学习的核心架构，广泛应用于图像识别、自...

稀疏检索（Sparse Retrieval）

稀疏检索（Sparse Retrieval）是一种词法搜索方法，它用稀疏词项权重向量表示查询和文档，并通过显式词项匹配检索结果。

稠密检索（Dense Retrieval）

稠密检索（Dense Retrieval）是一种语义搜索方法，它把查询和文档表示为稠密嵌入向量，并通过向量相似度检索结果。

空白字符

空白字符是文本中表示空间但渲染时不可见的字符，包括空格、制表符、换行符和回车符等。它们在代码缩进、文本格式化和数据解析中起关键作用，某些编程语言如 Python 和 YAML 依赖空白字符定义语法结构...

系统提示词（System Prompt）

系统提示词（System Prompt）是定义 LLM 应用持久角色、行为、约束和响应策略的高优先级指令层。

红队测试（Red Teaming）

红队测试（Red Teaming）是一种结构化的对抗测试方法论，安全专家通过刻意尝试触发 AI 系统的有害、不安全或非预期行为，在部署前识别系统漏洞。

纪元时间

纪元时间（也称为 Unix 时间、POSIX 时间或纪元秒）是一种时间表示系统，将时间点表示为自 1970 年 1 月 1 日 00:00:00 UTC 以来经过的秒数（不计闰秒）。

索引器（Indexer）

索引器（Indexer）是管线组件，用于把处理后的文档、分块、向量嵌入、元数据或稀疏检索特征写入可搜索存储系统，以便后续检索。

结构化查询语言

结构化查询语言是管理关系数据库的标准化语言，采用声明式语法执行数据查询、插入、更新和删除操作。SQL 支持复杂的多表连接、聚合分析和事务处理，具备 ACID 属性保证数据一致性，是后端开发、数据分析和...

结构化输出（Structured Output）

结构化输出（Structured Output）是让 LLM 以 JSON、XML、表格或受 schema 约束对象等可预测机器可读格式返回数据的做法。

统一资源定位符

统一资源定位符是 URI 的子集，提供了在互联网上定位和访问资源的完整地址。它由协议（如 https）、域名、端口、路径、查询参数和片段标识符组成，是 Web 浏览、API 请求和超链接的基础寻址机制...

统一资源标识符

统一资源标识符是遵循 RFC 3986 标准的字符串，用于唯一标识互联网或系统内的资源。它包含方案、主机、路径等组件，是 URL 和 URN 的统称。URI 构成了 Web 架构的基础，广泛用于 AP...

聊天机器人

聊天机器人是一种人工智能软件应用程序，旨在通过文本或语音界面与用户模拟类人对话。聊天机器人的类型从遵循预定义脚本的简单规则型系统，到利用自然语言处理（NLP）和大型语言模型（LLM）来理解上下文、意图...

自动驾驶

自动驾驶（Autonomous Driving）是一种使车辆能够在无需人工干预的情况下自主导航和运行的技术，它结合了传感器、人工智能和控制系统。自动驾驶涵盖了 SAE 国际定义的各种自动化级别，从 L...

自然语言处理

自然语言处理是人工智能的一个分支，专注于使计算机能够以有意义和有用的方式理解、解释、生成和响应人类语言。它将计算语言学与机器学习和深度学习技术相结合，弥合人类交流与计算机理解之间的鸿沟。

规划器-执行器（Planner-Executor）

规划器-执行器（Planner-Executor）是一种 AI Agent 架构，把高层任务拆解和策略选择与具体动作执行、观察和结果报告分离。

解码阶段（Decode Phase）

解码阶段（Decode Phase）是 LLM 推理中使用预填充阶段创建的 KV Cache，逐个 token 生成输出的阶段。

计算机视觉

计算机视觉（Computer Vision）是人工智能的一个领域，使计算机能够解释和理解来自世界的视觉信息，如图像和视频。它涉及开发能够自动从视觉数据中提取有意义信息的算法和模型，模拟人类的视觉感知能...

训练数据

训练数据（Training Data）是用于教导机器学习模型识别模式、进行预测或执行特定任务的标注或未标注样本集合。它是算法在模型开发过程中学习的基础输入。

语义搜索

语义搜索是一种基于向量嵌入理解查询含义和意图的信息检索技术，能够跨越不同措辞找到概念相关的内容。它使用 Transformer 模型将文本转换为语义向量，结合向量数据库实现高效相似性匹配，广泛应用于知...

语音识别

语音识别（Speech Recognition）是一种使计算机能够识别并将口语转换为文本的技术，也称为自动语音识别（ASR）或语音转文本（STT）。它利用声学模型、语言模型，以及越来越多的端到端深度学...

超文本传输协议

超文本传输协议是万维网的基础协议，定义了消息如何在 Web 浏览器和服务器之间格式化和传输。它是一种无状态的应用层协议，能够检索链接的资源。

超文本标记语言

超文本标记语言是用于创建网页和 Web 应用程序的标准标记语言，使用尖括号包围的标签定义文档结构和内容。HTML5 引入了语义元素、原生多媒体支持和丰富的 API，与 CSS 配合实现样式设计，与 J...

跨域资源共享

跨域资源共享是一种安全机制，允许 Web 浏览器向与提供网页的域不同的服务器发出请求。它使用 HTTP 头来告诉浏览器应该允许哪些跨源请求。

路由智能体（Router Agent）

路由智能体（Router Agent）是 AI Agent 或路由组件，用于对请求分类，并委派给最合适的工具、工作流、模型或专家 Agent。

转义字符

转义字符是一种触发后续字符进行替代解释的特殊字符，通常以反斜杠开头。它用于在字符串中表示换行符、制表符等不可打印字符，或表示引号、反斜杠等原本具有特殊含义的字符，广泛应用于编程语言、JSON、正则表达...

过拟合

过拟合（Overfitting）是机器学习中的一种建模错误，当模型过度学习训练数据（包括其中的噪声和随机波动）时发生，导致模型在新的、未见过的数据上泛化性能较差。

连续批处理（Continuous Batching）

连续批处理（Continuous Batching）是一种 LLM 服务技术，它在推理期间动态组合活跃请求，在不等待固定批次结束的情况下加入新请求并移除已完成请求。

适配器（Adapter）

适配器（Adapter）是添加到预训练神经网络中的小型可训练模块，使模型可以在不更新全部原始权重的情况下被适配。

通用人工智能

通用人工智能是一种理论上的人工智能形式，具备在广泛任务领域中理解、学习和应用知识的能力，其认知水平可达到或超越人类，与专为特定任务设计的狭义人工智能系统不同。

速率限制

速率限制是一种控制客户端在指定时间窗口内可向 API 或服务发起请求数量的技术，保护系统免受过载和滥用，并确保所有消费者之间的资源公平分配。

量化

量化是一种模型压缩技术，将神经网络权重和激活值从高精度表示（如 32 位浮点数）降低到低精度格式（如 8 位或 4 位整数），在保持可接受精度的同时显著减少模型大小和推理成本。

链式编排（Chain Orchestration）

链式编排（Chain Orchestration）是一种线性或近似线性的组合模式，LLM 应用步骤按定义好的顺序执行，并把一个组件的输出传递给下一个组件。

零样本学习

零样本学习是一种机器学习范式，模型无需任何任务特定示例即可执行新任务，仅依靠预训练知识和自然语言指令理解任务要求。这种能力随模型规模增大而涌现，广泛应用于文本分类、翻译和问答等场景，是评估大语言模型泛...

预填充（Prefill）

预填充（Prefill）是 LLM 推理中并行处理完整输入提示词，并在逐 token 解码开始前生成初始键值缓存的阶段。

首 Token 延迟（TTFT）

首 Token 延迟（TTFT）是从发送 LLM 请求到客户端收到第一个生成 token 之间的延迟。

黄金数据集（Golden Dataset）

黄金数据集（Golden Dataset）是一组经过策划的可信样本，用作评估模型、提示词、检索或产品行为的稳定参考。