Published November 3, 2025 | Version 0.1.0
Dataset Open

NTIS-WoS Matched Published Paper

  • 1. ROR icon Korea Institute of Science & Technology Information

Description

NTIS–WoS Matched Papers

This document accompanies the Zenodo release that links National Science & Technology Information Service (NTIS)-funded publications to Web of Science (WoS) metadata. It summarises the source data, cleansing pipeline, matching logic, key variables, and considerations for public sharing.

Dataset Overview

  • Purpose: expose a reproducible mapping between NTIS paper records and WoS identifiers so downstream users can validate or extend the linkage.
  • Public payload: the Zenodo table contains only six columns — NTIS project ID, DOI_NTIS, DOI_NTIS_cleaned, validity_flag, DOI_WoS, uid_WoS. Everything else (titles, bibliometrics, provenance flags) remains internal.
  • Matching keys: cleansing is still performed on the NTIS DOI; when a DOI cannot be recovered, an internal title_vol comparison is used to source the WoS DOI/uid before the public table is trimmed down.

Source Material

Dataset Description Contains
NTIS Korean Funding DB NTIS at November in 2023 NTIS project IDs (과제고유번호), published paper's titles, raw DOIs
WoS Web of Science DB at 39th weeks in 2024 WoS uid, title, vol, issue, citation indicators, etc.

Only the fields required for linking (year, title, DOI, SCI flag, NTIS project ID) are pulled into the working Polars DataFrame.

Processing Summary

  1. DOI cleansing (Polars)

    Simple replacements (looped sequentially):

    • '99999999999'→''
    • ' '→''
    • '\\\\n'→''
    • '?'→''
    • '링크'→''
    • 'ㄴ'→''
    • ','→'.'
    • ']'→'',
    • '%28'→'('
    • '%29'→')'


    Regex replacements
    (Rust-style backrefs):

    • .*?(10\\\\.\\\\d{4,9}/[-._;()/:a-z0-9]+)$1
    • (<https://dx>\\\\.doi\\\\.org/|http://dx\\\\.doi\\\\.org/|dx\\\\.doi\\\\.org/)``
    • ^0\\\\.10.
    • (10\\\\.\\\\d{4,9})\\\\.$1/
    • (10\\\\.\\\\d{4,9})([a-z0-9]+)$1/$2
    • %2f/
    • ^(\\\\d{2})(\\\\d{4}/)$1.$2 
    • (^/|^:)``

    Validation flag:

    • doi_pattern = r'(?i)^10.\\\\d{4,9}/[-._;()/:a-z0-9]+$'
  2. WoS title normalisation

    HTML-like markup is stripped so titles align with NTIS records:

    • pattern = re.compile(r"<[^>]*>")

  3. Matching workflow

    1. Primary DOI joinDOI_NTIS_cleaned (NTIS) ↔ DOI_WoS (WoS).
    2. Fallback exact-title join — for rows still missing DOI, match TITLE+VOL_NTISTITLE+VOL_WoS.

Table Description

Column label Description
NTIS project ID NTIS project identifier mapped to the paper
DOI_NTIS Original DOI string supplied by NTIS
DOI_NTIS_cleaned Normalised DOI after the cleansing rules
Validity flag Boolean flag indicating the cleaned DOI meets the canonical regex
DOI_WoS DOI harvested from the WoS record used for the match
uid_WoS WoS unique identifier that anchors all downstream metrics

All other columns (titles, title_vol, bibliometrics, internal match strategy) are retained only in the private diagnostic parquet.

Validation & Coverage Checks

  • cnt_valid_doi = df_pap_sub.group_by('is_valid_doi').len() — proportion of records with syntactically valid DOIs.
  • df_merged.drop_nulls(subset='uid').height / df_merged.height — overall linkage rate after applying DOI-first then title_vol.
  • df_wos.filter(pl.col('wos_title_clean').is_in(...)) — WoS slice that now maps to NTIS, supporting manual audits.

Limitations & Caveats

  • Hangul keyboard recovery rules from earlier experiments are disabled; enable them if new NTIS dumps show IME artefacts.
  • Title fallback relies on exact equality. A string-grouper prototype exists later in the notebook but is not part of the published pipeline.
  • When multiple DOIs appear in a single cell, only the first DOI is retained (design choice).

Sharing Considerations

  • The published six-column table carries only project/publication identifiers and DOI variants; no personal data or institutional review details are exposed.
  • Keep the richer diagnostic parquet internal (it includes titles, bibliometrics, and intermediate flags).
  • Consider adding a short note in the Zenodo description that non-essential NTIS/WoS metadata has been withheld intentionally.

This documentation should be packaged with the Zenodo upload so users understand the provenance of the matched dataset and the meaning of the key fields.

Acknowledgement

This dataset is a research output produced under KISTI’s 2025 Basic Project (Project No.: K25L4M2C3).

Methods (Korean)

NTIS–WoS 매칭 논문 설명

본 문서는 NTIS(국가과학기술지식정보서비스) 과제에서 산출된 논문과 Web of Science(WoS) 메타데이터를 연계하여 Zenodo에 공개하는 데이터셋을 설명합니다. 데이터 원천, DOI 정제 파이프라인, 매칭 로직, 공개 컬럼, 검증 절차, 공유 시 유의사항을 정리했습니다.

데이터 개요

  • 목적: NTIS 논문 레코드와 WoS 식별자를 일관된 방식으로 연결하여 외부 연구자가 연동 결과를 검증하거나 확장할 수 있도록 지원합니다.
  • 공개 범위: Zenodo에 제공되는 테이블은 6개 컬럼만 포함합니다 — NTIS project ID, DOI_NTIS, DOI_NTIS_cleaned, validity_flag, DOI_WoS, uid_WoS. 그 밖의 제목, 서지 지표, 매칭 로그 등은 내부 진단용 파일에만 존재합니다.
  • 매칭 키: NTIS DOI를 우선 정제하여 사용합니다. DOI가 복구되지 않는 경우 내부적으로 title_vol(제목+권) 조합으로 WoS DOI/uid를 확보한 뒤, 공개본에는 핵심 식별자만 남깁니다.

데이터 소스

데이터셋 설명 수록 내용
NTIS 2023년 11월 수집한 NTIS 연구개발 과제 데이터 과제고유번호, 논문명, 원본 DOI 등
WoS 2024년 39주차 기준 Web of Science 데이터 WoS uid, title, vol, issue, 인용 지표 등

연동에는 연도, 논문명, DOI, SCI 여부, 과제고유번호 등 필수 컬럼만 Polars DataFrame으로 읽어옵니다.

처리 요약

  1. DOI 정제 (Polars)

    • 단순 치환 (순차 적용):

      • '99999999999'→'', ' '→'', '\\\\n'→'', '?'→'', '링크'→'', 'ㄴ'→'', ','→'.', ']'→'', '%28'→'(', '%29'→')'
    • 정규식 치환 (Rust 스타일 백레퍼런스):

      • .*?(10\\\\.\\\\d{4,9}/[-._;()/:a-z0-9]+)$1
      • (<https://dx>\\\\.doi\\\\.org/|http://dx\\\\.doi\\\\.org/|dx\\\\.doi\\\\.org/)``
      • ^0\\\\.10.
      • (10\\\\.\\\\d{4,9})\\\\.$1/
      • (10\\\\.\\\\d{4,9})([a-z0-9]+)$1/$2
      • %2f/
      • ^(\\\\d{2})(\\\\d{4}/)$1.$2 
      • (^/|^:)``
    • 유효성 플래그:

      doi_pattern = r'(?i)^10.\\\\d{4,9}/[-._;()/:a-z0-9]+$'
      
      
  2. WoS 제목 정규화

    • HTML 유사 태그를 제거해 NTIS 제목과의 일치도를 높입니다.
    • 예: pattern = re.compile(r"<[^>]*>")
  3. 매칭 워크플로우

    1. DOI_NTIS_cleaned(NTIS) ↔ DOI_WoS(WoS) 1차 매칭
    2. DOI가 여전히 비어 있는 레코드에 대해 TITLE+VOL_NTISTITLE+VOL_WoS 정확 일치 보조 매칭

공개 테이블 컬럼 설명

컬럼 라벨 설명
NTIS project ID 논문이 속한 NTIS 과제의 고유 식별자 (과제고유번호)
DOI_NTIS NTIS에서 제공한 원본 DOI 문자열
DOI_NTIS_cleaned 정제 규칙 적용 후 얻은 표준 DOI
validity_flag 정제된 DOI가 DOI 정규식을 통과했는지 여부(불리언)
DOI_WoS 매칭된 WoS 레코드의 DOI
uid_WoS WoS 고유 식별자 (후속 WoS 지표와 연결되는 키)

제목(title), title_vol, WoS 서지 지표, 매칭 전략 플래그 등은 내부 진단 파일에서만 관리합니다.

검증 및 커버리지 점검

  • cnt_valid_doi = df_pap_sub.group_by('is_valid_doi').len() → 정제된 DOI의 유효성 비율 확인
  • df_merged.drop_nulls(subset='uid').height / df_merged.height → DOI와 title_vol 보조 매칭까지 포함한 전체 연동 비율
  • df_wos.filter(pl.col('wos_title_clean').is_in(...)) → WoS 측 매칭 레코드를 추출해 수작업 검증을 지원

한계 및 주의 사항

  • 과거에 사용했던 한글 키보드 오타 보정 규칙은 현재 비활성화되어 있습니다. NTIS 데이터에 IME 노이즈가 확인되면 재도입을 검토하세요.
  • 제목 보조 매칭은 정확 일치에 의존합니다. 노트북 후반에 string_grouper 기반 실험 코드가 있지만 현재 배포 파이프라인에는 포함되어 있지 않습니다.
  • 하나의 셀에 DOI가 여러 개 있을 경우 첫 번째 DOI만 유지하는 정책을 따릅니다.

공유 시 유의사항

  • 공개본은 과제/논문 식별자와 DOI 변형 정보만 담고 있으므로 개인정보나 기밀 정보 노출 위험이 없습니다.
  • 논문명, 서지 지표, 매칭 로그 등이 포함된 진단용 Parquet 파일은 내부에서만 관리합니다.
  • Zenodo 메타데이터에 “불필요한 NTIS/WoS 메타데이터는 의도적으로 제외했다”는 안내 문구를 추가하면 이용자 이해에 도움이 됩니다.

사사

이 데이터는 한국과학기술정보연구원(KISTI) 2025년도 기본사업으로 수행된 연구 결과물입니다 (과제번호: K25L4M2C3).

Files

Files (28.1 MB)

Name Size Download all
md5:a1f380a86519dc3d0f32ee4c81380899
28.1 MB Download

Additional details

Additional titles

Alternative title (Korean)
NTIS–WoS 성과 논문 매칭

Funding

Korea Institute of Science & Technology Information
Development of S&T Indicators and R&D Innovation Strategy Analysis Model K25L4M2C3

Dates

Available
2025-11-03
Initiate