网页搜索

OPL 数据空间的 Web Search 允许语言模型访问互联网上的实时信息。如果搜索流程表现异常，可以按本页逐项排查。

常见问题

在启用了组织的部署中，Web Search 可以按组织单独关闭、继承或覆盖。即使实例级默认开启，某个组织里也可能被显式禁用。

处理方法：

如果用户反馈搜索 UI 整块消失，先按作用域 / 配置问题排查，而不是直接怀疑 provider 宕机。

典型报错包括：

原因是网页内容抓取器默认不会读取 http_proxy / https_proxy。

解决方法：

或者设置环境变量：

WEB_SEARCH_TRUST_ENV=True

这是一个 PersistentConfig 变量，也可以通过管理界面配置。

如果日志里出现 403 Client Error: Forbidden，通常是因为 SearXNG 没有开启 json 输出格式。

请在 settings.yml 中加入：

search:
  formats:
    - html
    - json

然后重启 SearXNG。

通常有两个原因：上下文窗口太小，或正文提取器配置不合适。

可尝试：

增大上下文长度：网页常常超过 4,000 到 8,000 token。若模型只有 2,048 token，上下文会被严重截断。建议至少提升到 8,192，复杂网页场景更适合 16,384+。
调整结果数量：通过 WEB_SEARCH_RESULT_COUNT 控制每次抓取结果数。
更换内容加载器：对 JavaScript 很重的网站，可以把 WEB_LOADER_ENGINE 换成 playwright；也可以尝试 firecrawl、tavily 等提取器。

关于上下文窗口不足的问题，详见 RAG 排障指南。

如果 Web Search 经常超时，可以检查：

WEB_SEARCH_CONCURRENT_REQUESTS=1

Brave 免费层尤其需要这样做。

WEB_LOADER_CONCURRENT_REQUESTS=1

变量	说明
`WEB_SEARCH_TRUST_ENV`	内容抓取时是否读取代理环境变量
`WEB_SEARCH_RESULT_COUNT`	抓取多少条搜索结果
`WEB_SEARCH_CONCURRENT_REQUESTS`	对搜索引擎的并发请求数
`WEB_LOADER_CONCURRENT_REQUESTS`	网页正文抓取并发数
`WEB_LOADER_ENGINE`	内容提取引擎