科研数据分享最佳实践
原文:How to make your scientific data accessible, discoverable and useful
这篇文章讨论了在开放科学和可重复性的背景下发布可用和高质量数据的最佳实践。越来越多的研究人员被鼓励在发表论文的同时提交数据,但在处理来自不同来源和格式的数据时可能会遇到挑战。以下是一些数据科学家建议的关键做法:
制定元数据: 元数据描述数据,对于使数据符合FAIR(可找到、可访问、可互操作、可重用)原则至关重要。科学家应提供详细的数据收集、处理和变量信息,以及表格或文件之间相互关联的解释。
多分享: 最好能同时分享原始数据和派生数据。原始数据允许其他研究人员测试假设和处理策略,而派生数据则是分析的基础。
采纳标准: 科学家应该寻求更广泛社区的指导,了解数据存储库和文件格式。推荐使用开放、非专有的文件格式,如CSV,以确保数据长期可读。
包含代码: 当数据分析涉及代码时,研究人员应将代码与数据一起分享。代码应有良好的文档记录,清除特定计算机元素,并经过可重现性测试。
考虑可访问性: 考虑潜在数据用户的技术基础设施和要求。咨询相关组织,以获取有关数据标准和假设的反馈,并为不同条件下的用户开发低技术解决方案。
迈出第一步: 开放科学不必是非此即彼的。即使分享部分数据也能增加价值和促进合作机会。
通过遵循这些最佳实践,研究人员可以促进科学的发展,推动合作,并确保其工作的可重复性。