衡量机制独立性:能否在不消除人口统计信息的情况下消除偏见?
分析
本文探讨了在不牺牲语言模型识别人口统计信息能力的前提下,消除人口统计偏见的可能性。该研究使用多任务评估设置,并比较了基于属性和基于相关性的方法来识别偏见特征。主要发现是,有针对性的特征消融,特别是使用Gemma-2-9B中的稀疏自动编码器,可以在不显着降低识别性能的情况下减少偏见。然而,该研究还强调了维度特定干预的重要性,因为某些消除偏见的技术可能会无意中增加其他领域的偏见。该研究表明,人口统计偏见源于特定于任务的机制,而不是固有的人口统计标记,从而为更精确和有效的消除偏见策略铺平了道路。
引用
“人口统计偏见源于特定于任务的机制,而不是绝对的人口统计标记”