Published August 14, 2024
| Version v1
Dataset
Restricted
漏洞定位到补丁数据集
Creators
Description
该数据集用于漏洞定位到补丁任务
- 任务背景:
开源软件的代码公开,这为发现和修复漏洞提供了便利,然而,这种透明性也使攻击者更容易找到并利用漏洞,因此及时发现和修复开源漏洞至关重要。由于开源社区是由全球开发者组成的,定位漏洞补丁并共享相关信息能使整个社区协作,迅速为所有用户开发补丁并增强防御能力。
-
核心任务描述:
开发自动化的检测和定位算法来快速检测和定位开源软件漏洞补丁,从而提高开源软件安全水平。
-
具体赛事任务:
针对常用开源软件,参赛团队可探索多种方式(包括但不限于自行开发自动化漏洞补丁分析定位算法、利用可公开获取的合法开源工具、或基于开源工具进行定制化开发等方式)进行漏洞补丁发现,并为每个漏洞根据其描述,提供与其相关的补丁的相关性。将漏洞补丁结果数据按照指定格式提交给组委会。
-
评估指标:
Recall(召回率)、F1-Score、NDCG@1、NDCG@5值
-
数据集信息描述:
数据集中包含“commit_id”,“cve_id”,“diff_code”,“commit_mess”,“label”,“cwe”,“desc_cve”共计7个字段。“commit_id”为补丁ID,“cve_id”为CVE ID,“diff_code”为字典形式的补丁diff信息,“commit_mess”为字符串形式的补丁message信息,“label”为判断该commit_id是否是修复该cve的漏洞补丁标签,1为是漏洞补丁标签,0则为不是,“cwe”字段为与该CVE相关的CWE类别信息,“desc_cve”字段为字符串形式的CVE漏洞描述。