用小型数据集处理数据的7个小技巧
|
基本的原材料,我们如何原型化和验证机器学习思想?在资源稀缺的情况下,如何有效地利用数据获取和创造价值? 在我的工作场所,我们为客户制作了很多功能原型。正因为如此,我经常需要让小数据走得更远。在本文中,我将分享7个技巧来改进使用小型数据集进行原型设计时的结果。 1. 要意识到你的模型不能很好地推广 这应该是目前最重要的。你正在建立一个模型,它的知识是浩瀚的知识海洋中的一小部分,而这种情况应该是必然的。 如果你正在构建一个基于室内照片的计算机视觉原型,不要期望它在户外工作得很好。如果你有一个基于聊天室玩笑的语言模型,不要期望它适用于梦幻的小说。 确保你的经理或客户能理解这一点。这样,每个人都可以对模型应该交付的结果有一个现实的期望。它还为提出有用的新的KPI提供了机会,以便在原型范围内外对模型性能进行量化。 2.建立良好的数据基础设施 在许多情况下,客户端没有你需要的数据,公共数据也不是一个选项。如果原型的一部分需要收集和标记新数据,请确保你的基础设施尽可能少地产生摩擦。 你需要确保数据标记非常简单,以便非技术人员也可以使用。我们已经开始使用Prodigy,我认为这是一个很好的工具:既可访问又可扩展。根据项目的大小,你可能还想设置一个自动数据摄取器,它可以接收新数据并自动将其提供给标记系统。 如果将新数据快速而简单地导入系统,你将获得更多的数据。 3.做一些数据扩充 通常可以通过增加现有的数据来扩展数据集。它是对数据进行微小的更改,而不应该显著地更改模型输出。例如,如果一只猫旋转了40度,它的图像仍然是一只猫的图像。 在大多数情况下,增强技术允许你生成更多的"semi-unique"数据点来训练模型。首先,可以尝试在数据中添加少量高斯噪声。
对于计算机视觉,有许多简单的方法来增强图像。我对Albumentations库有很多的经验,它做了许多有用的图像转换,同时保持你的标签完好无损。 (编辑:沧州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



