谷歌最新推出的 Gemini AI 模型之一在安全性方面得分较低

发布时间:2025-05-06 分类:AI资讯 浏览量:8

根据该公司的内部基准测试,最近发布的谷歌人工智能模型在某些安全测试中的得分比其前代产品更差。

谷歌在本周发布的一份技术报告中透露,其 Gemini 2.5 Flash 模型比 Gemini 2.0 Flash 更容易生成违反其安全准则的文本。在“文本到文本安全性”和“图像到文本安全性”两项指标上,Gemini 2.5 Flash 分别下降了 4.1% 和 9.6%。

文本转文本安全性衡量的是模型在提示下违反 Google 准则的频率,而图像转文本安全性则评估的是模型在使用图像提示时遵守这些准则的程度。这两项测试都是自动化的,无需人工监督。

谷歌发言人在一封电子邮件声明中证实,Gemini 2.5 Flash“在文本到文本和图像到文本的安全性方面表现较差”。

这些令人惊讶的基准测试结果出炉之际,人工智能公司正努力使其模型更加宽容——换句话说,它们不太可能拒绝回应有争议或敏感的话题。Meta表示,对于其最新一批 Llama 模型,他们对这些模型进行了调整,使其不再“偏袒某些观点”,而是回应更具“争议性”的政治提示。OpenAI 今年早些时候表示,它将 调整未来的模型 ,使其不再采取编辑立场,而是对有争议的话题提供多种视角。

有时,这些放纵的努力会适得其反。TechCrunch周一报道称,OpenAI ChatGPT 的默认模型允许未成年人进行色情对话。OpenAI 将此行为归咎于一个“漏洞”。

根据谷歌的技术报告,目前仍处于预览阶段的 Gemini 2.5 Flash 比 Gemini 2.0 Flash 更忠实地执行指令,包括那些存在问题的指令。该公司声称,性能下降部分归因于误报,但也承认 Gemini 2.5 Flash 有时会在明确要求时生成“违规内容”。

报告中写道:“当然,在敏感话题上的(遵循指示)与违反安全政策之间存在矛盾,这反映在我们的评估中。”

SpeechMap 是一项用于测试模型如何应对敏感和争议性问题的基准测试,其评分也表明,Gemini 2.5 Flash 拒绝回答争议性问题的可能性远低于 Gemini 2.0 Flash。TechCrunch 通过人工智能平台 OpenRouter 对该模型进行测试发现,它会毫无怨言地撰写文章,支持用人工智能取代人类法官、削弱美国的正当程序保护以及实施广泛的、无需授权的政府监控计划。

安全人工智能项目联合创始人托马斯·伍德赛德表示,谷歌在技术报告中提供的细节有限,表明模型测试需要更加透明。

伍德赛德告诉 TechCrunch:“遵循指令和遵循政策之间存在权衡,因为有些用户可能会要求提供违反政策的内容。在这种情况下,谷歌最新的 Flash 型号在更多地遵循指令的同时,也更多地违反了政策。谷歌没有提供关于违反政策的具体案例的详细信息,尽管他们表示这些案例并不严重。由于缺乏更多信息,独立分析师很难判断是否存在问题。”

谷歌此前曾因其模型安全报告实践而受到抨击。

该公司花了数周时间才发布其功能最强大的型号 Gemini 2.5 Pro 的技术报告。该报告最终发布时,最初省略了关键的安全测试细节。

周一,谷歌发布了一份更详细的报告,其中包含更多安全信息。

微信微博Email复制链接