用小型数据集处理数据的7个小技巧

发布时间：2021-04-28 17:25:47 所属栏目：动态来源：互联网

导读：基本的原材料，我们如何原型化和验证机器学习思想?在资源稀缺的情况下，如何有效地利用数据获取和创造价值? 在我的工作场所，我们为客户制作了很多功能原型。正因为如此，我经常需要让小数据走得更远。在本文中，我将分享7个技巧来改进使用小型数据集进行原

基本的原材料，我们如何原型化和验证机器学习思想?在资源稀缺的情况下，如何有效地利用数据获取和创造价值?

在我的工作场所，我们为客户制作了很多功能原型。正因为如此，我经常需要让小数据走得更远。在本文中，我将分享7个技巧来改进使用小型数据集进行原型设计时的结果。

1. 要意识到你的模型不能很好地推广

这应该是目前最重要的。你正在建立一个模型，它的知识是浩瀚的知识海洋中的一小部分，而这种情况应该是必然的。

如果你正在构建一个基于室内照片的计算机视觉原型，不要期望它在户外工作得很好。如果你有一个基于聊天室玩笑的语言模型，不要期望它适用于梦幻的小说。

确保你的经理或客户能理解这一点。这样，每个人都可以对模型应该交付的结果有一个现实的期望。它还为提出有用的新的KPI提供了机会，以便在原型范围内外对模型性能进行量化。

2.建立良好的数据基础设施

在许多情况下，客户端没有你需要的数据，公共数据也不是一个选项。如果原型的一部分需要收集和标记新数据，请确保你的基础设施尽可能少地产生摩擦。

你需要确保数据标记非常简单，以便非技术人员也可以使用。我们已经开始使用Prodigy，我认为这是一个很好的工具：既可访问又可扩展。根据项目的大小，你可能还想设置一个自动数据摄取器，它可以接收新数据并自动将其提供给标记系统。

如果将新数据快速而简单地导入系统，你将获得更多的数据。

3.做一些数据扩充

通常可以通过增加现有的数据来扩展数据集。它是对数据进行微小的更改，而不应该显著地更改模型输出。例如，如果一只猫旋转了40度，它的图像仍然是一只猫的图像。

在大多数情况下，增强技术允许你生成更多的"semi-unique"数据点来训练模型。首先，可以尝试在数据中添加少量高斯噪声。

对于计算机视觉，有许多简单的方法来增强图像。我对Albumentations库有很多的经验，它做了许多有用的图像转换，同时保持你的标签完好无损。

（编辑：沧州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

RTX 3080 12GB核心、显	金山办公发布全新品牌
大疆Mavic 3无人机升级	柔宇科技至暗时刻路