软件可能是用编程语言编写的,但人类语言是开发人员协作的核心。开发人员解释了项目在README中的工作原理。他们会在遇到问题时寻求帮助。他们审查、辩论和改进拉取请求中的代码。这种协作通常用英语进行,但并非总是如此。随着人工智能成为开发人员构建软件的重要组成部分,多语言开发人员内容比以往任何时候都更加重要。
今天, GitHub发布了GitHub多语言存储库数据集,这是一个存储库级元数据数据集,旨在帮助研究人员和开发人员发现具有非英语自然语言内容证据的公共GitHub存储库。
在构建数据集时,我们发现语言分布在README、问题和拉取请求之间有所不同:韩语是问题文本中最常见的非英语语言,但仅是README中第五常见的语言。葡萄牙语在非英语README列表中名列前茅,拥有超过300万个存储库。该数据集现在可以在GitHub上的CC0-1.0下使用。
它贯彻了我们在2025年做出的承诺,作为微软欧洲数字承诺的一部分,使多语言数据更容易访问,包括开源人工智能开发人员。数据集中的内容GitHub多语言存储库数据集故意不是存储库内容的转储。
相反,它是一个元数据集,可帮助开发人员和研究人员找到可能发生多语言协作的存储库。该数据集涵盖了4000多万个存储库中的8000多万个分类行。对于每个公共存储库,我们提供: README的语言分类、评论最多的问题以及评论最多的提取请求,每个提取请求的前150个字符用作输入示例。