Oracle Data Cloud Crawler

什么是 Oracle Data Cloud Crawler?

Oracle Data Cloud Crawler 是一个可访问 Web 页面并检查和分析 Web 页面内容的自动化机器人。从这一角度来看,它类似于搜索引擎企业使用的机器人。

Oracle Data Cloud Crawler 现可通过以下用户代理识别:

Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)

Mozilla/5.0 (iPhone; CPU iPhone OS 8_3 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12F70 Safari/600.1. 4 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)

Oracle Data Cloud Crawler 还可通过来自 Oracle 自有 IP 地址的请求识别。对于可疑请求,请对照适当的 RIPE 数据库,使用适当的 Whois 工具或查找服务检查请求的 IP 地址。截至本页面内容创建时,Oracle Data Cloud Crawler 仅使用以下 IP 地址:

  • 132.145.9.5
  • 132.145.11.125
  • 132.145.14.70
  • 132.145.15.209
  • 132.145.64.33
  • 132.145.66.116
  • 132.145.66.156
  • 132.145.67.248
  • 140.238.81.78
  • 140.238.83.181
  • 140.238.94.137
  • 140.238.95.47
  • 140.238.95.199
  • 152.67.128.219
  • 152.67.137.35
  • 152.67.138.180

  • 148.64.56.64 到 148.64.56.80
  • 148.64.56.112 到 148.64.56.128

Oracle Data Cloud Crawler 为何爬取我的站点?

Oracle Data Cloud 支持广告主在 Web 页面上投放情境化广告,而这要求检查或爬取 Web 页面,判断页面属于哪一类或哪些类别。

Oracle Data Cloud Crawler 将仅按需求访问 Web 页面。如果 Oracle Data Cloud Crawler 访问了您的站点,这意味着一条广告最近被投放到了一个信息尚不可用或需要刷新的 Web 页面上。在这种情况下,当一名用户访问了一个 Web 页面后,您常常会很快检测到一条来自 Oracle Data Cloud Crawler 的请求。Oracle Data Cloud Crawler 在设计上十分友好,它会限制针对特定站点的请求速率,并在站点不可用、速度缓慢或重复返回非 200 (OK) 状态码时自动退出。

很多系统都可能引发 Oracle Data Cloud 分析您的站点。届时,Oracle Data Cloud Crawler 会执行爬取操作,然后向一系列实时竞价系统(RTB,例如 Rubicon 和 AppNexus 等等)提供实时的情境化信息 — 第三方广告服务器系统经常会在自己的广告伺服策略中使用这些 RTB 系统。

使用 Robots.txt 进行拦截

Oracle Data Cloud 不向任何人提供搜索引擎系统,也不向任何搜索或其它系统分享所爬取的您的站点内容。换言之,我们将仅在一条广告投放后,需要查询页面的上下文时分析您的站点。

如有需要,您可以使用 robots.txt 文件拦截和阻止 Oracle Data Cloud Crawler 爬取您的站点。

阻止爬取您站点的特定部分

User-agent: grapeshot
Disallow: /private/
Disallow: /messages/

阻止爬取整个站点

User-agent: grapeshot
Disallow: /

允许 Oracle Data Cloud Crawler 爬取站点

User-agent: grapeshot
Disallow:

Oracle 将严肃对待关于停止爬取任意站点或停止爬取站点部分内容的请求以及关于 Oracle 操作的任何其它反馈,然后快速采取适当行动。不过,由于 Oracle 每天检查一次 robots 文件,因此您的站点文件变更可能需要 24 小时才能生效。请发送电子邮件至 odc-crawler_ww@oracle.com,Oracle 会立即排除您的站点或开展调查。

更多信息

如果您认为您的站点受到不当访问,或 Oracle Data Cloud Crawler 导致您的站点出现问题,请联系 Oracle Data Cloud (odc-crawler_ww@oracle.com),Oracle 将就您的问题开展调查。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。