经典问题:重复记录
营销人员很清楚重复记录的问题。同一个人或帐户的多个记录表明您的数据不准确或陈旧,这将导致糟糕的报告、扭曲的指标和糟糕的发送者声誉。它甚至会导致不同的销售代表对同一个账户进行访问。
去重复是识别重复记录并合并最佳数据的过程。
不太为人所知的重复数据字段问题也困扰着许多公司。
这篇文章将讨论……
- 重复的数据字段及其原因
- 如何把这个问题降到最低
- 如何进行数据统一
- 为该工作推荐的工具和资源
1.新出现的问题:重复的数据字段
今天,获取、丰富和确认线索有无数的选择。每一种选择都有其优点和缺点,所以营销人员通常会使用和探索多种数据源:
- 列出卖家和租客
- 联系充实和电子邮件验证服务
- 基于内容的客户生成服务
- 广告和社交销售平台
- 预测性的客户来源和评分服务
- 活动组织者
一个领先记录通常起源于一个来源,然后随着时间的推移被多个来源验证和丰富。在每次增强工作之后,营销人员通常同时保留新旧数据,目的是在统一之前审核新数据的质量,并在必要时恢复到旧数据。
但是,一旦工作日程变得繁忙,审核和统一就会被无限期推迟。因此,重复的数据字段会累积起来,导致记录包含(例如)两个职位名称、三个电子邮件、四组地址、五个电话号码、六个行业和七个公司规模。
此外,随着时间的推移,机构知识会逐渐消失,当前的营销团队无法确定重复数据字段的来源和年龄。
让我们来看看这个问题的一些解决方案。
2.首先,最小化字段重复
当复制记录增长时,清理工作逐步增加:识别和合并四个重复记录的工作并不比删除两个重复记录大多少。
相反,当复制时字段增加时,清理将呈指数级增长:统一四个行业数据字段所花费的精力是统一两个行业数据字段的两倍多。随着重复字段数量的增加,统一逻辑的开发和执行变得成倍复杂。
如何最小化重复字段?
及时审核统一
这似乎是显而易见的,但最好的建议是在数据新鲜、机构知识可用的情况下迅速统一领域。
审计小样本量和自动化统一
如果数据库有超过10,000条记录,则不太可能检查每一条记录。审计几百到上千条记录的代表性样本可以让您了解新数据的质量。然后您就可以决定如何将新数据与旧数据统一起来,并自动执行。审核,统一,然后继续前进。
明确标注数据来源和年龄
如果必须延迟统一工作,请确保清楚地为新数据标记其来源和年代,并提供足够的文档以支持未来的统一工作。
3.统一数据的提示
应用一致的统一逻辑
假设您有四个不同的行业数据字段。如何将它们统一起来?考虑一下这些驱动因素:
- 权威来源:您更信任哪个数据源?例如,来自Dunn和Bradstreet的行业数据可能比来自领先供应商的同等数据更权威。
- 源专注:哪个数据来源更符合你的市场观点?一个专注于你的行业的领先来源应该比一个广泛的市场来源提供更精确的数据。
- 年龄的数据:一个行业的数据变化缓慢,但是联系人和公司规模的数据经常会发生变化。最近的数据往往是更好的数据。
避免临时的决定
抵制手动检查每一个记录的冲动,并做出特别的、逐条记录的决定。虽然特别决策可能对特定记录产生更好的结果,但这种方法永远无法扩展;此外,您不太可能拥有足够的信息来优化地评估大多数记录。当应用到整个数据库时,一致的逻辑将产生比临时决策更好的总体结果。
抓住机会进行正常化和重新规划
什么比统一数据更好?统一归一化数据。您可以(而且应该)用最少的努力规范化诸如行业、公司规模、工作职能、工作级别、州、国家和电话号码等数据。例如,你如何有效地利用2000多个行业来开展活动?将2000多个行业重新映射到您为企业定义的10个行业。假设你的业务是物联网,在这种情况下,像丰田这样的汽车公司应该重新映射到“industry = Vehicle Telematics”——这是一个非标准的行业细分,但却是你的目标行业细分。
4.你需要的工具和资源
有哪些工具和资源可用于执行数据统一工作?
使用廉价劳动力
这是最受欢迎的方法,因为它最容易设置,不需要新技术。但是,需要非常详细的统一指示,结果的准确性取决于您的人员的素质。从长远来看,当数据集超过几十万条记录时,手动统一是昂贵的,而且难以扩展。
雇佣一名数据库开发人员
这是不低成本的劳动力。这种方法需要技术人员建立数据库并编写SQL脚本来提取、转换和加载数据。你所付出的是无限的灵活性。
寻找数据自动化解决方案
一旦您定义了统一逻辑,您就可以使用数据自动化解决方案轻松地自动化任务,该解决方案可以是基于云的,也可以是基于预置的授权软件。软件即服务解决方案将有助于降低成本,并确保非技术营销团队成员容易使用该解决方案。