Page 1 of 1

我们如何收集和理解数据

Posted: Wed Feb 19, 2025 4:24 am
by jrineakter
以及如何设计解决社会挑战的解决方案,通常都是从占主导地位的种族、社会和文化多数人的立场出发的。引入挑战和颠覆这种思维方式的声音至关重要。

保证多样性的一种方法是向每个项目指导和工作组引入多样性配额。另一种更温和的方法可能是引入多样性和包容性战略,这不仅与组织的内部招聘和实践有关,还与该组织开展的所有项目有关。

4. 道德漏洞

在人类学+技术会议上,来自 ODI 的 Miranda Marcus 发表了精彩的Pechakucha演讲,探讨了数据收集、共享和使用的伦理影响(这个博客的名字实际上是受她的一张幻灯片启发的)。

安全收集、存储和使用个人数据所带来的道德挑战已广为人知。但如何识别和管理这些道德挑战尚不明确。

为此目的,有一些有用的工具,例如已 加拿大电话号码数据 经提到的 ODI 的数据伦理画布、英国政府的数据伦理框架和英国统计局的数据伦理自我评估。

5. 意想不到的后果

另一个需要考虑的重要问题是项目的意外后果。例如,如果这些数据或技术落入坏人之手并被用于坏事而不是好事,会发生什么?

在人类学+技术会议上,朱利安·科内比斯谈到了他参与的一个项目,该项目利用机器学习自动分析全国范围的卫星图像,以便绘制出达尔富尔地区破坏和冲突的规模。他认识到,他和他的同事收集的数据如果落入坏人之手,可能会被用于坏事,而不是好事。例如,这些地图可能会被用来打击进一步的暴力行为。然而,总的来说,他们认为可能的好处值得冒这个险,所以他们继续进行这个项目。

为了帮助识别意外后果,Doteveryone开发了后果扫描工具包,旨在支持组织在潜在危害或灾难发生之前减轻或解决它们。

6. 背景差距

数据通常是为了一个目的而收集的,然后被回收并用于另一个目的。需要了解原始数据的哪些背景信息才能确保其符合目的?

在本文中,Nathan Lau 建议了解以下问题很重要:谁收集了数据?数据来源是否可靠?数据是如何收集的?数据是何时收集的?数据是否足够新?数据是在哪里收集的?原产地的条件是否足够相似,以便研究结果可以转化?为什么要收集数据?其中是否存在偏见?

理解背景很重要,因为正如 Nathan 所解释的那样:“使用数据而不了解其任何内容(除了值本身),就像是二手听到一段删节版的引文,然后将其作为文章的主要讨论点引用。这样做可能没问题,但你可能会在之后发现说话者的意思与你的想法相反。”

数据科学家、分析师或统计员应该能够支持对数据背景的查询。此外,麻省理工学院的数据营养标签项目(一旦超越原型)应该有助于使查询数据背景更加简单。

为什么差距很重要
为什么这些差距很重要?为了让这一切不那么抽象,让我们使用下图中的类比。

想象一下你必须爬上这个楼梯。你会怎么做?

男子走上通往云端的楼梯
你可以飞跃并希望获得最好的结果。但很有可能差距太大,你无法到达彼岸。

或者,您可以走下楼梯,收集填补空隙所需的材料,然后再次尝试;这一次,您到达目的地的可能性会更大。

想办法填补空白并不容易。它可能会耗费时间。成本高昂。复杂。但是……如上所示,投资意味着你几乎肯定会达到你想要的目标。而为了节省时间和金钱而继续前进则会带来真正的风险,即你最终会到达一个远不如人意的地方。

但这一切都假设你知道你面临的差距。想象一下蒙着眼睛爬上同样的楼梯。你不可避免地会从缝隙中掉下去。

第二种情况往往更能反映现实。人们并不知道这些差距。人们并不是故意要跳过这个空隙。他们只是假设楼梯会一直延伸下去。这种假设建立在他们的生活经验之上——他们从来没有走过中间有一个大洞的楼梯。

当信息不完整、上下文不明确或听不到声音时,就会产生假设。这就是为什么假设可能很危险,需要被审视。想象一下,如果在你蒙着眼睛爬楼梯时,有人曾经从楼梯上摔下来过,那将是多么有价值。他们可能会提醒你注意这个风险——你甚至没有意识到——并且还会提供一些关于他们如何成功填补空白并到达另一边的想法。

通过让房间里的不同声音挑战您的假设,向您指出差距,可以揭示巨大的漏洞,并让您做出明智的决定,了解如何继续进行。