北京物流信息联盟

一种提升公众科学数据质量和可信度的理论框架

2022-04-06 07:07:30

公众科学

(图片来自:http://learningisopen.org/toolkit/citizen-science/)


  近年来,公众科学项目发展迅猛,这些项目将基于互联网的社交网络与基于社区的信息系统结合,利用集体智慧解决特定的科学问题。当前,在线的志愿者社区正在为多类科研项目提供研究数据,这些项目涉及天文学、鸟类观测、空气质量监测等多个方向。公众科学使科研大众化,使普通公民及业余爱好者们能够积极参与科学计划,并允许他们访问和使用他们自己的数据和社区内他人上传的集体数据,实现了一定程度上的数据共享。然而,公众科学和众包项目存在一些固有的缺点,比如参与者的专业知识不足、培训有限、匿名的参与者提交虚假数据、数据的时间和空间连续性差等,这些问题的出现,使得科学界中很多研究人员认为公众科学数据质量过低,无法在严谨的科学研究中作为数据依据。

Abdulmonem在第六届e-Science会议上发表文章Enhancing the Quality and Trust of Citizen Science Data。文章提出了一个技术框架,该框架将数据质量指标和可信度指标结合,为公众科学数据的可靠性提供了一个衡量标准,从而实现数据“有理可依”的使用。该框架中,在线公众科学社区中的用户信任度彼此之间受到相互衡量、预测和汇总,此外该系统还将为数据使用者提供查询、可视化、自动生成报告等多种服务。


数据质量

数据质量是数据在准确性、完整性、一致性和时效性上的多维度衡量。通过量化从现实系统到信息系统的数据映射的某些不足,可以使用这些标准来定义数据是否具有高质量。这些维度可以用来制定数据质量审计指南和程序、提高数据质量,指导现场的数据收集过程,比较不同研究的结果。

麻省理工学院的全面数据质量管理(Total Data Quality Management, TDQM)研究项目使用了TDQM循环,将数据质量与数据持续改进过程联系起来,随着数据不断录入和改进活动的进行,TDQW周期循环,确定质量维度是否合适以及是否需要引入新的数据质量评判标准。

图1: TDQM循环


数据可信度

当前大多数研究可信度和声誉的项目主要关注社交网站和社会性标签网站的内容,而在提高公众科学数据的质量和可靠性方面的研究还不够成熟。在社交网络中衡量可信度的方法主要有两种:(1)使用推荐系统来计算基于用户资料相似度的信任度。比如在电影评价网中,根据对同一特定电影评价的所有人,来相互评估计算用户之间的预测信任值;(2)使用评估信任度的攻击抵抗信任度模型(Attack Resistance trust metric model)来计算。这一信任度衡量的核心是一个网络流操作,这意味着如果有一个丰富的互联网络,流量应该到达网络的所有节点,在社交网络中,每个账户都是一个节点,两个账户之间的每个连接都是一个认证级别。计算从种子源开始到每个节点的距离,通过算法分离出与好节点之间不能认证的、距离种子源过远的坏节点即虚假帐户。该模型旨在从社交网络中过滤掉伪造的用户,从而减少无效或伪造数据的提交。


研究案例

CoralWatch是一个由昆士兰大学管理的公众科学项目,旨在“收集珊瑚漂白事件和珊瑚漂白化趋势的信息”。目前,CoralWatch项目有来自全球80个国家的1300多名会员,记录多于2.9万条。此项目中CoralWatch提供了简单的珊瑚健康颜色图表(图2),任何人(科学家,游客,潜水员等)都可以通过廉价方便的“用户友好型”和对珊瑚无危害的方式为该组织提供珊瑚漂白化相关的监测数据。通过CoralWatch项目收集的数据包括珊瑚物种,珊瑚的颜色,位置的纬度和经度,珊瑚礁名称,水温,数据收集时间以及数据收集的活动类型(例如,浮潜,礁石散步或钓鱼等)。除了收集监测数据之外,该项目还旨在向公众普及珊瑚礁漂白化的原因及其对全球气候变化的巨大影响。


图2 珊瑚健康表的使用


Abdulmonem的研究以CoralWatch公众科学项目作为案例,研究评估了她自己提出的整个技术框架的工具和服务。CoralWatch Web界面和数据库的系统架构见如图3。


图3 CoralWatch系统架构


CoralWatch Web允许用户注册和上传数据的同时还提供了一个简单的数据分析工具,根据提交的数据自动生成图表,而且还实现了地图界面,可以提供数据空间和时间维度的可视化。经过认证的用户将能够通过为调查提供一些元数据来创建新调查。调查的元数据包括参与者的详细信息、调查的地点、时间和日期、天气状况和水温。一旦用户创建一个调查,就可以方便地输入珊瑚颜色的观察数据(图4)。


图4 CoralWatch Web应用数据上传界面


 用户界面中,网络成员既可以评价其他成员的信任等级也可以对特定数据集进行评价。某一个成员的社区信任度用该成员所在的CoralWatch社区所有成员的信任值平均值来表示。 计算出的社区信任值在用户个人信息(图5)中显示。

图5 用户个人信息属性表


图6 CoralWatch网站主页


主页的主要组成部分是调查的时间视图(图6)。在地图上可以筛选一句属性查看数据,也可对数据进行过滤查询。


方法框架

Abdulmonem建立了一个创新的技术框架,控制提高数据质量,提供了获得公众科学数据的可靠性措施。该框架中的所有组件均使用CoralWatch公众科学项目作为测试平台来实施和测试。

数据质量和数据验证:

第一步使用TDQM循环确定该研究中的公众科学数据质量的主观和客观标准和指标。然后测量数据质量,就CoralWatch而言,数据质量的语法内容方面很容易衡量与修正,它们包括经纬度范围的问题、拼写错误、无效的温度、格式错误等。然而,根据调查真实数据值来衡量数据质量则是非常昂贵的,因此作者将珊瑚观测数据与其他机构收集的相关数据相关联,如ReefCheck、NOAA卫星数据和AIMS漂白案例数据,这些组织利用其他技术收集数据,如传感器、卫星图像和海面温度,用以评估珊瑚礁的健康状况。这些数据集为执行TDQM周期的第二和第三步提供一个基准。为执行TDQM周期的第四步,作者将执行一个严格的元数据和数据验证过程,使会员通过用户界面提交他们的数据之前执行表单验证。如果数据通过了TDQM评估,将被分配一个评估值或标记为验证数据;如果数据没有通过TDQM评估,将被标记为“未验证”。

添加社交可信度衡量:

为了提高公众科学数据的可靠性和信任度,作者将开发社会信任度衡量框架,将信任度分配给成员,并为他们提交的数据分配排名。作者使用上文“数据可信度”中提到的两种方法:推荐系统可信度衡量和攻击抵抗可信度衡量。

结合数据质量查询、可视化和添加标签:

利用这些信任指标,开发过滤、查询和呈现的方法,根据质量去除、加权或突出显示数据。 一系列时空可视化工具将通过GIS可视化显示。通过这个界面,用户能够对公众科学数据进行时空和基于关键词的查询和分析,实现动画模拟观察环境系统的行为,用户也能够根据指定所需的信任级别进行数据筛选。CoralWatch测试平台中,作者表示将开发分析和报告工具并考虑数据的可信度和可靠性,生成“珊瑚健康报告”,这些工具将使科学家能够根据过滤的公众科学数据实现数据应用。作者还计划扩展和评估社会书签工具,专门用于公众科学数据的标记和注释,用户能够将排名标签和其他注释附加到数据中以突出数据质量问题。

评估:

评估标准从框架工具和服务改善数据质量参数到用户使用角度涉及方方面面,添加建立反馈机制,收集用户对工作成效的反馈意见;监督评价志愿者的贡献;调查访谈科研工作人员,评估框架的优缺点和可用性。


编者认为:

Abdulmonem的本篇综述介绍了与提高数据质量和衡量公众科学项目的可信度有关的关键问题和挑战。公众科学使科学大众化、平民化,使公民和科学界能够共同监测、管理、维护和改善我们周围的环境。Abdulmonem表示我们需要一个框架来提高公众科学数据的质量和可信度,而且还有一系列来自数据质量领域和社会信任领域的现有技术可以被合并来最大限度地提高公众科学数据的质量和利用率。

编者认为,以公众科学和众包的方式收集数据将成为未来科学研究中数据收集不可或缺的方法之一,公众科学数据的大范围使用必然需要数据质量和可靠性的保障,这项研究的结果将提供一个技术框架,通过全新的信息技术整合为民间科学家收集的数据提供可靠的质量和可靠性检测方法。


原文出处


Alabri, A., & Hunter, J. (2010, December). Enhancing the quality and trust of citizen science data. In e-Science (e-Science), 2010 IEEE Sixth International Conference on (pp. 81-88). IEEE.


UBES_China 提供城市生态系统服务和生物多样性研究和管理的最新信息。欢迎大家分享相关信息。投稿邮箱:ubes_china@126.com


友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟