一、百度不登录能查到历史
登录与非登录状态下不登录是两个概念。
一个概念是,不登录的网页在百度搜索中无法被百度识别出来,因为百度蜘蛛还没有抓取网页。而百度能识别出来的是,百度蜘蛛的链接已经被百度系统识别,已经被百度蜘蛛抓取了,所以百度才会从浏览器上抓取到该链接。
另一个概念是,登录状态下百度蜘蛛抓取了链接,但是并未被百度抓取,那就相当于百度搜索完了链接,并没有被百度系统所识别。
所以,我认为如果一个网站登录的状态下,没有被百度蜘蛛抓取的话,那就是这个网站已经关闭了。
比如我们搜索到一个网站的域名,在百度搜索框中已经没有该域名,那么我们再继续搜索这个网站,这个网站也是不存在的,因为该网站已经关闭了,无法访问。
这就说明,没有被百度蜘蛛抓取,那网站肯定就关闭了,也就不会被百度识别出来。
那么我们如何解决这个问题呢?我们可以查看百度搜索框中的链接,以外的链接也可以使用这个工具,也就是站长工具,查看当前网站,是否也存在上述的情况,也就是站长平台的抓取。
当然,如果是没有被抓取的情况,那你就需要检查网站日志中的日志,看看百度蜘蛛抓取了什么内容,还有蜘蛛抓取了哪些页面。如果百度蜘蛛没有抓取的页面,那么我们就需要去查看下,是否存在抓取异常,然后根据蜘蛛抓取的页面内容和频次,来解决问题。
另一个概念是,页面被抓取之后,页面的数据是可以通过蜘蛛访问网站,从而进行抓取的,那么这个页面中是否存在“被抓”和“未抓”的情况,如果这两种情况都没有,说明网站中存在大量的“未抓”或者“未抓”页面,那么网站的页面抓取策略就不科学了,我们就需要对这些页面做出相应的策略调整,以便更好地对这些页面进行抓取,从而使得这些页面被抓取。
如何检查已抓页面?
检查当前页面是否有抓取异常,如果抓取异常,那么我们就要去查看是哪类页面没有被抓取,然后对抓取异常进行检测,查看是否有抓取异常的情况。当然,如果页面已经被抓取,那么我们需要先将这些页面数据清除,然后再进行抓取,如果是页面已经被抓取,但是页面没有被抓取的话,那么我们就需要将这些页面的数据进行死链提交。