WordPress 谷歌不收录?修复“已抓取 – 尚未编入索引”及头部代码清理指南

作者: lidafu 2025年12月20日
WordPress 谷歌不收录?修复“已抓取 – 尚未编入索引”及头部代码清理指南

作为一名外贸独立站 (Foreign Trade Independent Site) 站长,你是否遇到过这种崩溃瞬间:辛辛苦苦更新了产品页,满怀期待打开 Google Search Console (GSC),结果却看到一行冷冰冰的报错:

“已抓取 – 尚未编入索引” (Crawled – currently not indexed)

这意味着 Google 的爬虫(Spider)来过,但觉得页面质量不够,拒绝收录。对于依靠 Google SEO 流量获客的外贸朋友们来说,不收录就等于这个页面的存在没有意义或者有副作用。

很多教程会让你去发外链、写长文,但作为一名有十年经验的前端工程师,我要告诉你一个被 90% WordPress 建站公司都忽略的真相:你的网站代码太脏,拖累了收录速度。

crawled-currently-not-indexed

到底什么是“已抓取 – 尚未编入索引”?

简单来说,Google 的收录过程分三步:

  1. 发现 (Discover): 知道你有一个链接。
  2. 抓取 (Crawl): 派蜘蛛下载你的页面内容。
  3. 索引 (Index): 把内容存入数据库,准备给用户搜索。

“已抓取 – 尚未编入索引” 意味着你卡在了第 2 步和第 3 步之间。Google 抓取了你的页面,但判定这个页面“价值不够”或“技术质量不达标”,为了节省服务器资源,决定暂时不收录。

这就好比: 图书馆管理员翻开了你写的书,觉得纸张太烂或者字迹潦草,最后决定不把它放上书架。

为什么会出现这种情况?

除了内容质量,WordPress 网站速度优化 (Speed Optimization) 做得不到位是主要原因。Google 的爬虫有“抓取预算” (Crawl Budget),如果你的网页充斥着无用的代码,爬虫会判定这是一个低质量的“信噪比” (Signal-to-Noise Ratio)页面。

当你使用未经过深度优化的 WordPress 主题时,源代码里往往塞满了:

  • Emoji 兼容代码(为了兼容 10 年前的旧电脑):拖慢首屏加载时间 (FCP)。
  • RSS Feed 链接(现代 B2B 网站几乎没用的订阅源):B2B 外贸网站 根本不需要的功能。
  • wp-json API(没意义的东西):暴露版本号,不仅影响速度,还存在 WordPress 安全漏洞 风险。

这些“垃圾代码”不仅拖慢了网站打开速度,还会浪费 Google 的抓取预算 (Crawl Budget)。如果爬虫把时间都花在解析这些无意义的脚本上,它对你核心内容的评分自然会降低。

3步自测:你的 WordPress 网站是否需要代码清理?

在开始 Technical SEO (技术端 SEO) 修复之前,先自测一下:

  1. 打开网站首页,右键“查看网页源代码”。
  2. 搜索一下关键词:_wpemojiSettings、wp-emoji-release.min.js、application/rss+xml、generator
  3. 如果看到几十行密密麻麻的 script 标签,说明你的网站处于“虚胖”状态。

都是无用噪音:

performance optimized before

从上图可以看到有大量的冗余代码(具体多少可以看看和优化后相比减少了多少体积)

如何解决?WordPress 头部代码清理方案 (附 PHP 代码)

为了解决这个问题,我写了一段轻量级的 PHP 函数,专门用于清理这些技术债务。我们不需要安装臃肿的插件,只需要把这段代码放入主题的 functions.php 中。

这是我为 PufferGo 标配的清理方案如下:

/**
 * PufferGo 深度清理 WordPress 头部 (wp_head)
 * 移除无用的 meta 标签、链接和静态资源,提升安全性和代码整洁度
 * 
 * 使用静态变量确保只执行一次,避免重复执行带来的微小性能开销
 */
function puffer_cleanup_head() {
    // 使用静态变量确保只执行一次(避免在多个钩子上重复执行)
    static $cleaned = false;
    if ($cleaned) {
        return;
    }
    $cleaned = true;
    
    // 1. 移除 Emoji (前端性能优化)
    // 现在的浏览器都原生支持 Emoji,不需要加载额外的 JS/CSS
    remove_action('wp_head', 'print_emoji_detection_script', 7);
    remove_action('admin_print_scripts', 'print_emoji_detection_script');
    remove_action('wp_print_styles', 'print_emoji_styles');
    remove_action('admin_print_styles', 'print_emoji_styles');
    remove_filter('the_content_feed', 'wp_staticize_emoji');
    remove_filter('comment_text_rss', 'wp_staticize_emoji');

    // 2. 移除 RSS Feed 链接 (HTML 瘦身)
    // 如果你不指望通过 RSS 获取订阅用户,可以移除这些自动生成的链接
    remove_action('wp_head', 'feed_links', 2); // 文章和评论 feed
    remove_action('wp_head', 'feed_links_extra', 3); // 分类等特定条件的 feed

    // 3. 移除 REST API 发现链接 (安全 + 隐蔽)
    // 防止机器扫描你的 API 入口,不影响古腾堡编辑器使用
    remove_action('wp_head', 'rest_output_link_wp_head', 10);
    remove_action('wp_head', 'wp_oembed_add_discovery_links', 10); // 移除 oEmbed 发现

    // 4. 移除古董级编辑接口 (代码洁癖)
    // wlwmanifest: 为 Windows Live Writer (微软已停更十几年) 服务的
    remove_action('wp_head', 'wlwmanifest_link');
    // RSD: Really Simple Discovery,早期博客客户端用的 XML-RPC 发现链接
    remove_action('wp_head', 'rsd_link');

    // 5. 移除 WordPress 版本号 (安全)
    // 默认会在源码里显示 <meta name="generator" content="WordPress 6.x" />
    // 移除它可以防止黑客一眼看出你的版本是否有已知漏洞
    remove_action('wp_head', 'wp_generator');

    // 6. 移除短链接 (Shortlink)
    // 类似 <link rel='shortlink' href='...?p=123' />,有了伪静态通常不需要这个
    remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
}

// 使用多个早期钩子确保清理生效(函数内部有防重复执行机制)
// plugins_loaded 优先级 1:在插件加载后立即执行
add_action('plugins_loaded', 'puffer_cleanup_head', 1);

// after_setup_theme 优先级 1:在主题加载之前执行
add_action('after_setup_theme', 'puffer_cleanup_head', 1);

// init 优先级 1:确保在 WordPress 核心功能注册后立即移除
add_action('init', 'puffer_cleanup_head', 1);

// template_redirect 优先级 1:在模板加载之前执行(确保在 wp_head 输出前移除)
add_action('template_redirect', 'puffer_cleanup_head', 1);

优化后的效果:索引恢复与排名提升

WordPress站点性能优化前后对比

执行清理后,你会发现效果明显:

  1. 源代码行数减少<head> 区域变得清爽,关键的 SEO 标签(Title, Description)更加突出,HTML 体积减小了,网页加载速度也能提升。
  2. 安全隐患降低:黑客无法一眼看出你的 WordPress 版本号。
  3. 收录概率提升:虽然这不是“收录魔法”,但这是建立 Google 信任的基础一步。

资源请求数量减少了1个,总资源也减少了(3635428-3613784) / 1024 ≈ 21.14kb,完成时间提前6.49-5.99=0.5s,DOMContent加载时间减少 276-210 = 66ms

至此,干干净净,白白胖胖,又没有一丝赘肉,从此轻轻松松,舒舒服服,开开心心赚大钱。

关于WordPress谷歌不收录常见问题(FAQ)

其实所有网站中,谷歌不收录的原因有很多,但是针对今天这个WordPress网站来说,页面有大量冗余代码导致性能缓慢或者本来不该收录的链接就不应该允许存在


为什么我的新网站一直显示“发现 – 目前尚未构建索引”?

这通常是“沙盒期”的表现。除了持续更新原创内容,确保网站代码整洁、没有死链也是缩短沙盒期的关键。


这个操作能让我的网站打开速度变快很多吗?

说实话,体感上可能不明显(毕竟只是21.14 KB 的代码)。但在 SEO 的微观世界里,每一毫秒的延迟和每一行无用代码的减少,都在为你的“爬虫友好度”加分。


移除 wp_head 里的代码会影响网站功能吗?

本文提供的代码仅移除了 Emoji 表情支持(现代浏览器已原生支持)和非必要的 Feed 链接,不会影响外贸独立站的询盘功能或页面展示。


还需要安装 WP Rocket 或 Autoptimize 插件吗?

头部清理是底层优化,属于“打地基”。在此基础上,配合缓存插件(如 WP Rocket)做静态资源压缩,效果会更好。

发表评论

发表评论