从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的知乎止内抓关键词匹配,蓝点网猜测知乎应该是故意干扰谷歌想通过乱码来干扰搜索引擎和其他爬虫,可以随意抓取任何不受限的使用实阻内容 。对知乎来说现有数据是乱码蓝点个巨大金矿,因此从网站角度来说也是等爬个不错的防御方式。例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容,起确那么知乎就会返回乱码内容 ,容被显然这就是为了阻止其他搜索引擎抓取知乎的内容 。查看全文 :https://ourl.co/104695
昨天蓝点网提到有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,
测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码 ,
蓝点网也进行了测试复现了这种情况,# 科技资讯 知乎故意使用乱码干扰必应 / 谷歌等搜索引擎爬虫,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练 。即搜索结果里知乎内容的标题和正文内容都可能是乱码的,
考虑到此前知乎已经屏蔽除百度和搜狗以外的所有搜索引擎爬虫 (蜘蛛 / 机器人),检测到 UA 信息里包含这两个关键词就会返回乱码信息 ,
这种猜测现在基本已经坐实,如果不包含这些关键词则返回正常内容 。
值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,对知乎来说现有的内容是个巨大的金矿,而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容 。这不太可能是知乎也允许 OpenAI 抓取内容 。大部分还是乱码
测试8:baiduspider因为命中关键词也乱码
测试9 :这是百度爬虫渲染的完整UA
测试10:GPTBot大多数时候也是乱码的
测试1:正常浏览器UA可以返回正确内容
测试2 :测试 test-bing-bot 命中关键词 bot 返回乱码内容
测试3:测试 test-google-spider 命中关键词 spider 返回乱码
测试4 :测试 蓝点网-没有蜘蛛 未命中关键词返回正常内容
测试5:测试 蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码
测试6 :测试 蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码
测试7 :GPTBot命中关键词但意外没有乱码,不过大多数情况下也都是乱码的,估计接下来某个时候就会传输某某公司与知乎达成协议可以获取内容用于训练 AI 。