【问题提问、论坛交流】delimiter string 控制的。 例如,如果您想要索引 N.E.,而不是 N 和 E,则请将句点从分隔符列表删除。 结果是 N.E. 作为一个单独的标记在 ETI 中显示,而且会在运行时作为一个单元被查找。 由于分隔符的全局应用,如 First.Avenue 也作为一个单独的标记显示。
由于 ETI 的构造成本因引用数据大小的增长而变得更加昂贵,模糊查找提供一个选项,可以将 ETI 存储在服务器上,日后可以重新使用。 这个选项使您能够避免在每次运行模糊查找时都重新创建一个 ETI。 如果您的 ETI 会花费太多的时间而不能每次运行都重建,考虑创建一次而在接下来的运行中对其进行重用。 要做到这一点,在 Reference Table 选项卡上选择 Store new index,然后指定一个表名称。
注 ETI 可能会变得相当巨大,所以规划服务器空间可能是必要的。 在最坏的情况下,ETI 可能会是引用表的索引行中的数据大小的两倍。
如果您想要存储 ETI 但是引用数据不时地更改,您还可以启用 Maintain stored index。 这个功能在您的 ETI 上安装一个触发器,它检测对基础引用数据的修改。 只要这样的修改发生,此触发器将相应的更改传递到 ETI,从而使其保持为最新。 如果您不安装表维护,对您的引用表所做的更改将在没有警告的情况下使任何关联的 ETI 无效。
注 表维护功能在 Beta 2 版中不可用。
在运行时发生了什么
在运行时,模糊查找使用 ETI 查找其输入的最佳匹配。 在确定最佳匹配时,最重要的参数是 MinSimilarity 阀值。 您可以通过使用模糊查找UI 来设置这个自定义属性。 引用元组只有在其与输入足够相似时才会被返回。 因此,如果您设置了一个很高的相似性要求,模糊查找考虑的候选也会较少,而且结果可能是不返回任何匹配。 如果您将 MinSimilarity 设置得低,模糊查找将考虑更多的候选,而更有可能找到一个匹配,但搜索可能会用去更长的时间。
匹配条件包括:
| • |
为匹配给出的引用元组而需要对输入元组做的标记或字符插入、删除、替换以及重新排序的数量。 例如,输入 122 First Lane 很可能被认为比输入 22 N.E. 1st Ln & Leary Way 更接近引用 122 First Ln。 |
| • |
来自引用表的标记频率。 非常频繁的标记通常被认为几乎不会提供对匹配有用的信息。 相对稀少的标记被认为是它们在其中出现的行的特性。 |
设置正确的阀值取决于您的应用程序和数据的性质。 如果您要求一个在您的输入和引用之间的相近的匹配,您应该考虑为 MinSimilarity 设置一个大值,如 0.95。 如果您在进行一个研究性的项目,您可能会对检查弱匹配与相近匹配一样感兴趣,那么您应该将 MinSimilarity 设置为一个较低的值,如 0.1。 并没有可以用于确定这个范围的固定规则,所以建议您对数据设置进行试验。 查看几次运行的输出可以供设置最优值考虑。 例如,您执行第一次运行使用的阀值为 0.1。 您观测到一个特定的输入与一个相似性为 0.2 的特定的输出匹配。 如果对于您的应用程序来说此元组过于不相似(详细信息请参阅解释结果),第二次运行您可以将 MinSimilarity 设置为 0.3,从而排除与其过于不相似的匹配。 在一个小的测试集上重复此过程并反复数次测试设置,这会帮助您确定什么设置对于您的应用程序是合适的。
编辑:xker.com