为了按特定的用户代理进行过滤
然后,,我单击了包含“(全部)”的单元格上的下拉图标,并选择了 Googlebot:
了解不同的机器人正在抓取哪些内容、移动机器人的抓取方式 twitter 数据库 与桌面机器人的抓取方式有何不同,以及抓取最多的地方发生在哪里,可以帮助您立即了解哪些地方存在抓取预算浪费以及网站的哪些区域需要改进。
查找低附加值 URL
抓取预算不应该浪费在低附加值 URL 上,这通常是由会话 ID、无限抓取空间和分面导航引起的。
为此,请返回日志文件,并按包含“?”的 URL 进行过滤。或 URL 列中的问号符号(包含 URL 词干)。要在 Excel 中执行此操作,请记住使用“~?”或波形符问号,如下所示:
一个“?”或问号,如自动过滤器窗口中所述,代表任何单个字符,因此添加波形符就像转义字符,并确保过滤掉问号符号本身。
这不是很容易吗?
查找重复的 URL
重复的 URL 可能会浪费抓取预算,并且是一个很大的 SEO 问题,但找到它们可能会很痛苦。 URL 有时可能有轻微的变体(例如 URL 的尾部斜杠与非尾部斜杠版本)。
最终,查找重复 URL 的最佳方法也是最无趣的方法 — 您必须按网站 URL 词干字母顺序排序并手动查看它。
頁:
[1]