科技前沿速递:Unsafe LLM-Based Search: Quantitative Analysis and Mitigation of Safety Risks in AI Web Search
AI内容安全这篇论文聚焦于人工智能驱动搜索引擎(AIPSEs)的安全风险,通过量化分析、对比实验、案例验证和防御策略研究,系统揭示了 AIPSEs 的安全隐患并提出解决方案,具体内容如下:
一、研究背景与动机
随着大型语言模型(LLMs)的发展,AIPSEs(如 ChatGPT Search、Kimi 等)通过检索增强生成(RAG)技术整合外部数据与 LLM 知识,解决了 LLM “知识截止” 和 “幻觉” 问题,提供更精准高效的响应。但这类系统存在安全风险:检索器可能访问恶意网站,LLM 可能未经安全检查直接引用其内容,导致有害信息传播(如 2024 年 11 月有开发者因 ChatGPT Search 生成的恶意代码损失 2500 美元)。因此,论文首次对 AIPSEs 的安全风险进行量化分析,并探索 mitigation 方案。
二、核心概念与研究设计
1. 关键定义
- AIPSEs:结合知识数据库、检索器和 LLM 的搜索引擎,通过解读用户意图、检索并总结外部数据生成答案,区别于传统搜索引擎(TSEs)的关键词匹配模式。
- 风险类型:根据 URL 危害性和位置,将 AIPSEs 响应中的 URL 分为四类:
- Main Risk:恶意 URL 直接嵌入回答(用户一键可触发攻击);
- Warning Risk:恶意 URL 出现在回答中但附带风险提示;
- Source Risk:恶意 URL 仅在 “来源” 列表(需用户主动点击);
- None Risk:良性 URL。
2. 数据与实验设计
- 数据来源:从 PhishTank、ThreatBook、LevelBlue 收集恶意 URL,经筛选和人工验证后保留 100 个典型样本,覆盖 “热门软件”“加密货币平台” 等日常场景。
- 查询类型:构建三类查询测试 AIPSEs:
- 关键词列表查询(由 GPT-4o 提取 5 个关键词);
- 自然语言查询(由关键词转换为日常搜索语句);
- URL 查询(直接以恶意 URL 为输入)。
三、安全风险量化结果
1. 整体风险水平
7 个主流 AIPSEs(ChatGPT Search、Perplexity 等)均存在安全漏洞:47% 的响应包含风险内容,34% 直接引用有害内容。其中 Grok、TextCortex、Kimi 的 “Main Risk” 响应最多(41、34、32/100 次查询),而 ChatGPT Search、Copilot 相对谨慎。
2. 不同查询类型的影响
- URL 查询:显著增加风险,如 Grok 中 48/49 的 “Source Risk” URL 在直接查询后转为 “Main Risk”,Kimi 的 URL 查询响应 100% 为 “Main Risk”。
- 自然语言查询:轻微降低风险,多数 AIPSEs 的 “None Risk” 响应增加(如 ChatGPT Search 从 39 增至 60),但中文 AIPSEs(豆包、Kimi)对英文隐式关键词的安全对齐较弱。
四、与传统搜索引擎(TSEs)的对比
1. 效用对比
采用 Google 搜索质量评分(NMR),AIPSEs 的用户满意度显著更高:Kimi(4.98)、Copilot(4.90)远高于 Google(3.64)、Bing(4.48),因 AIPSEs 能直接生成精准答案,减少用户手动筛选成本。
2. 安全性对比
AIPSEs 的恶意 URL 暴露更少:即使 TSEs 开启安全模式,其风险响应数量仍显著高于 AIPSEs(如 Google 的风险 URL 数量是 Doubao 的 6 倍)。
五、案例研究:AIPSEs 的易欺骗性
1. 在线文档欺骗
构建虚构加密货币平台 “V50TAIS” 及其恶意 API 文档(含窃取私钥的代码),测试发现 8 个基础模型(如 ChatGPT-o1、Claude 3.5)均直接复制恶意代码,未提示风险。
2. 钓鱼网站误导
搭建模仿官方网站的钓鱼网站(www.hsfaisz.org),通过伪造 “官方声明” 和颠倒事实(如虚构物种保护状态),所有测试模型均将其识别为官方网站,甚至警告真实官方网站。
六、风险缓解策略
提出两类防御方案,均基于 GPT-4.1 实现:
1. 基于提示的防御
通过特定提示词让 LLM 过滤有害内容,但效果有限,防御成功率仅 37.0%。
2. 基于代理的防御
设计 “思考 - 行动 - 观察” 循环(ReAct 框架),整合两类工具:
- 内容精炼工具:用链式思维(CoT)识别钓鱼、恶意软件等六类风险,替换或标注有害信息;
- URL 检测器:包括 XGBoost(基于 15 项 URL 特征)、PhishLLM(验证域名 - 品牌映射)、HtmlLLM(分析 HTML 代码)。
- 其中 HtmlLLM-Detector 效果最佳,F1 分数 0.822,能解决 78.3% 的 “Main Risk” 响应,且仅减少 10.7% 的可用信息。
七、研究贡献与结论
- 首次量化 AIPSEs 的安全风险,揭示其对恶意内容的高敏感性;
- 证实 AIPSEs 在效用和安全性上优于 TSEs;
- 提出高效代理防御策略,为 AIPSEs 安全优化提供参考。
论文强调,需通过技术升级和机制设计,在保持 AIPSEs 效率的同时,强化其对恶意内容的过滤能力。