|
Post by account_disabled on Apr 24, 2024 4:35:32 GMT -5
如果两页实际上并不相似但在指纹存在显着差异的情况下对它们进行了相似的测量这正是我们正在努力避免的那种负面客户体验。在数据可视化下方圈出一个潜在的故障点。圈出的点代表一对页面这些页面实际上完全不同但认为非常相似。左边甚至下面的点都没问题它代表了一对几乎重复的页面而旧的启发式页面却错过了点表示两个位值中相应位的差异。并非只有这种情况偶尔会出现这样的页面对。它发生在爬网中或更少但确实发生了。 如果我们选择匹配当前为遗留指纹定义的阈值的差异阈值则会出现误报。值得 巴西电话号码 庆幸的是选择一个阈值似乎是一个边界案例。高于差异假正数增加的机会。在下面我找不到任何此类病理病例我检查了成千上万个试图寻找的爬行物。因此我为基于的重复检测选择了一个不同的阈值。这导致由最终图形数据可视化表示的情况。这里我们绘制了表示两个差异阈值的行。垂直线左侧的所有内容均表示当前代码将报告为重复的内容。水平线以下的所有内容均代表代码将报告的内容。点我们看到两个启发式一致的页对数大于页数他们不同意的地方配对。请注意假正右下象限中仍然存在某些情况。 事实证明这些对与两个度量一致的对或就此而言与左上象限中的假负对没有太大区别。换句话说使用所选的阈值和旧指纹都错过了看到一些真正的的机会。可见结果使用此阈值决策假阴性的数量超过假阳性的数量。这符合我们的目标即使以产生假阴性为代价也可以将假阳性数量减至最少。请注意右下象限中的误报实际上彼此非常相似因此更准确地描述为遗留指纹启发式的误报而不是指纹启发式的误报。对客户而言最明显的方面是双重的。重复页面错误越少报告的重复页面错误数量就会普遍减少。但是值得指出的是我们可能仍会错过一些新事物。像当前的启发式方法一样仅报告了新重复页面的一个子集。
|
|