2021 연구데이터 · AI 분석활용 경진대회 워크숍
경진대회 워크숍 계획1.경진대회 소개 및 추후 일정[이승복] ■ 개최 경위 지난 2013년부터 당시 미래부와 KISTI가 협력하여 국가연구데이터를 공유하고 활용하기 위한 거버넌스 체제 구축을 추진해오고 있고, 2018년 시범시스템 구축에 이어 2019년부터 본 시스템인 국가연구데이터플랫폼(DataON)을 구축해 오고 있음. 본 플랫폼이 구축되고 각 출연연구원 및 주요대학교 등 연구과정에서 생산되는 연구데이터를 구축하고 연계하도록 할 것임. 국내 연구데이터는 물론 해외 연구데이터 플랫폼들을 연계하게 되면 전세계의 연구데이터를 한 곳에서 검색할 수 있고, 활용할 수 있게 됨. 궁극적으로 융합연구를 가능하게 하고, 다양한 분석활동을 통하여 그동안 하지 못했던 연구를 할 수 있게 될 것으로 예상함. DataON를 홍보하고 향후 가능하게 될 융합데이터분석에 대한 사례를 발굴하기 위하여 본 경진대회를 개최하게 됨 ■ 대회 개요 □ 개요 ㅇ (목적) 연구데이터 공유·활용 활성화 및 DNA 저변 확대 ㅇ (주최/주관) 과학기술정보통신부/한국과학기술정보연구원 ㅇ (일정) '21.9.8.(수) ~ 11.24.(수) (예정) ㅇ (대회) DataON 또는 개인 보유 연구데이터를 사용하여 분석활용 사례 발굴 및 인공지능 모델 개발 ※ 연구데이터 부문과 인공지능 부문으로 진행하며 한 부문만 지원 가능 ㅇ 평가 및 시상 - (평가방법) 1차 서류평가, 최종 발표평가(※ 청중단 평가 포함) - (평가지표) 창의성(20점), 우수성(50점), 효과성(30점) ㅇ (시상내역) 총상금 1,400만원, 총 10개 팀 선발
구분
부문
수상자(또는 팀)
상금 및 부상
최우수상
연구데이터
1명(팀)
상금 200만원+과학기술정보통신부 장관상
최우수상인공지능
1명(팀)
상금 200만원+과학기술정보통신부 장관상
우수상
연구데이터
2명(팀)
각 상금 150만원+국가과학기술연구회 이사장상
우수상인공지능
2명(팀)
각 상금 150만원+국가과학기술연구회 이사장상
장려상
연구데이터
2명(팀)
각 상금 100만원+한국과학기술정보연구원 원장상
장려상인공지능
2명(팀)
각 상금 100만원+한국과학기술정보연구원 원장상
□ 대회일정 ㅇ 공고: '21.9.8.(수) ~ 10.8.(금) ㅇ 서류접수: '21.9.23.(목) ~ 10.8.(금) - 제출서류: 참가신청서, 공모 계획서 - 제출방법: 이메일 (sblee@kisti.re.kr) - 관련 문의: 042-869-0653 이승복 책임연구원 ㅇ 1차 서류평가 발표: '21.10.14.(목) 예정 ㅇ 워크숍(비대면): '21.10.15.(금), 1차 서류평가 후 본선 진출자 ㅇ 사례 및 모델 개발 기간: '21.10.15.(금) ~ 11.21.(일) ㅇ 발표자료 제출: '21.11.21(일) ㅇ 최종발표 평가: '21.11.24.(수) ㅇ 시상식: '21.12.2.(목) (미래연구정보포럼 2021 행사) ※ 모든 일정은 상황에 따라 비대면으로 진행 가능 □ 참가 자격 및 세부 부문 ㅇ (참가 자격) 연구데이터 분석활용 및 인공지능 분석 등에 관심 있는 누구나 ※ 개인 또는 팀(최대 4명)으로 참여 가능하며, 참가신청서 모든 항목 동의 필요 ㅇ (세부 부문) 연구데이터 부문과 인공지능 부문으로 구성하되 둘 중 한 부문만 지원 가능 - 연구데이터 부문: 일반적인 연구데이터의 분석활용 사례 개발 - 인공지능 부문: 기계학습이 가능한 데이터셋을 기반으로 최적 성능을 보이는 인공지능 모델 개발2. 개발 및 분석 환경 [신영호] ㅇ 분석환경 : DataON에서 다음과 같이 가상환경(VM, Virtual Machine)을 제공함
구분
제공 내용
비고
H/W제공
- CPU: 16core (3.0GHz)
- Memory : 15GB, GPU: V100(1개)
- Storage : 100GB
S/W제공
- python 3.6~3.8
- Tensorflow 1.14, Keras 2.2.5
- CUDA 10, cuDNN 7.4 gcc 4.8
※ 참가신청서에 VM활용여부 체크해주시고, "분석을 수행하기 위해 설치가 요구되는 오픈소스 라이브러리와 버전" 명시바람3. 평가지표 및 주안점 [신성호] □ 심사방법 및 평가항목 ㅇ (서류평가) 데이터 분석활용전문가로 평가위원 구성, 블라인드 서류심사 ㅇ (최종발표평가) 내·외부 전문평가위원(100%)심사 및 청중평가단(가산점 추가) ㅇ (평가항목) 창의성(20점), 우수성(50점), 효과성(30점) 총 100점 (1,2차 평가 동일)
평가항목
평가항목
창의성(20)
▪ 독창적인 아이디어인가?
▪ 새롭고, 가시적인 차별성을 가지고 있는가?
우수성(50)
▪ 내용이 충실하고 의미가 있으며 대회 목적과의 연관성이 충분한가?
▪ 내용이 구체적이고 뛰어나며 완성도가 높은가?
※ 연구데이터 부문에서 제공하는 데이터와 VM 분석환경을 최대한 활용하여 결과를 도출함으로서, 대회 목적과의 연관성을 높일 수 있음
데이터: DataON에서 검색되는 데이터, 참가자가 소유권을 가지고 있는 데이터, 오픈 데이터 모두 사용 가능. 하지만, 추후 DataON 등록 및 활용 사례 발굴을 고려해서 오픈 데이터만을 사용하는 경우는 좋은 점수를 받을 수 없음
VM 환경: Workflow, JupyterLab 2가지로 구성. JupyterLab으로 개발한 소스코드를 Workflow 돌아가는 방식이면 좋은 점수 획득
효과성(30)
▪ 관심을 끌 만큼 흥미로우며 홍보 효과가 충분한가?
▪ 활용성이 높은가?
ㅇ 선정: 1차 서류심사에서 각 부문별 최대 15개 팀 선발 후 최종평가 □ 유의사항 ㅇ 참가자 중 적합한 결과가 없을 경우 시상자를 선정하지 않을 수 있으며, 시상내역은 조정될 수 있음 ㅇ 대회 참가자의 활용 데이터 및 도구 등은 저작권 문제가 해결된 것만 사용할 수 있음 ㅇ 수상작은 DataON 홈페이지를 통해 공개 예정 ㅇ 수상 후에라도 타 유사 행사에서 수상이 되었거나, 내용 중 일부가 타인의 지적재산권을 침해한 경우 수상을 취소하며 시상금 전액을 회수함 ㅇ 심사점수는 비공개로 하며, 심사결과에 대해 이의를 제기할 수 없음 ㅇ 상금에 대한 제세공과금은 수상자가 부담함 ㅇ 그 외 기타사항은 주최자의 결정에 의하며, 공모전 참가신청서를 제출한 사람은 위의 모든 내용에 대해 동의한 것으로 간주함4. 부문별 세부 진행 설명 ㅇ 연구데이터 부문 [이승복] - 대상 데이터: DataON 공유데이터 및 기타 국내외 공유가능 데이터
KISTI 데이터셋
주요 내용
DataON 데이터
▪해외연구데이터
- (개요) 유럽(OpenAIRE), 호주(ARDC), 일본(IRDB) 등 해외 주요국 R&D과제들로부터 구축된 과학기술 분야 연구데이터
- (건수) 약 112만건
- (대회 주제) 자유
- (평가) 창의성(20), 우수성(50), 효과성(30)
DataON 데이터▪국내연구데이터
- (개요) 한국과학기술정보연구원, 한국지질자원연구원, 한국표준과학연구원 등 출연(연)에서 구축된 연구데이터 및 인공지능(NIA), 대형연구장비(KISTI) 등 전문 분야별 연구데이터
- (건수) 3,411건 (약 614GB)
- (대회 주제) 자유
- (평가) 창의성(20), 우수성(50), 효과성(30)
한국인 인체데이터
▪(개요) 한국인 인체 MRI. CT 영상 및 골격 데이터
▪(건수) 절단면 영상 및 3차원 모델(시신 4구(약 100GB)), 남녀 각 50구 CT 및 골격 3차원 영상, 물성 데이터(약 20GB)
▪(대회 주제) 자유
▪(평가) 창의성(20), 우수성(50), 효과성(30)
▪(URL) http://vkh3.kisti.re.kr, http://dk.kisti.re.kr/
한국의 생물자원정보
▪(개요) 한반도의 생물자원 정보
▪(건수) 54,428건
▪(대회 주제) 자유
▪(평가) 창의성(20), 우수성(50), 효과성(30)
▪(URL) https://species.nibr.go.kr/index.do
Compact Muon Solenoid (CMS)
▪(개요) 유럽 CERN에 있는 LHC (Large Hadron Collider)의 CMS 실험 데이터(일부 공개, 활용할 수 있는 앱도 제공)
▪(건수) 1,167건
▪(대회 주제) 자유
▪(평가) 창의성(20), 우수성(50), 효과성(30)
▪(URL) http://opendata.cern.ch/docs/about-cms
개인 보유의 연구데이터
▪지재권이 확보된 개인의 연구데이터
※분석에 활용할 데이터는 반드시 공개된 것을 활용해야 하며, 만약 문제가 발생 시 모든 책임은 참가자가 지도록 함 ㅇ 인공지능 부문[김성찬] - 대상 데이터: KISTI 기계학습 데이터
KISTI 데이터셋
주요 내용
국내 논문 QA
▪(개요) 국내 과학기술 분야 한글 논문 풀텍스트
▪(건수) 504,000건
▪(대회 주제) 자유
▪(평가) 창의성(30), 우수성(70)
국내 논문 QA
▪(개요) 한글 논문 초록으로부터 구축된 질의응답 쌍
▪(건수) 283,000건
▪(대회 주제) 질의응답 모델
▪(평가) 창의성(30), 우수성(70)
논문 문장 의미 태깅
▪(개요) 연구목적, 방법, 결과 등 국내 논문 문장 의미태깅
▪(건수) 155,000건
▪(대회 주제) 문장태깅 모델
▪(평가) 창의성(30), 우수성(70)
보고서 표/그림
▪(개요) 국가R&D보고서 수록 표/그림 이미지 및 설명텍스트
▪(건수) 341만건
▪(대회 주제) 자유
∙ (예시)
- 표/그림 이미지에서 텍스트 및 개인정보 인식 모델
- 표 이미지의 수치 데이터 변환 모델
- 이미지 캡셔닝 모델
▪(평가) 창의성(30), 우수성(70)
대전시 도로 영상 객체 인식
▪(개요) 대전시 도로 영상 데이터에 대한 객체* 인식셋
* 승용차, 버스, 소형트럭, 대형트럭, 바이크, 사람, 공사표지판, 스피드 범프, 포트홀, 크랙, 맨홀, 얼굴, 번호판 등 13종
▪(건수) 이미지 8.6만장(130GB), 13종 객체 25만개(105MB)
▪(대회 주제)
∙ 도로 주변 상황 분석 모델(교통량 분석, 교통사고 인식 등)
∙ 도로 노면 상태 분석 모델(크랙/포트홀 인식 등)
∙ 자유 주제 : 도시 사회현안 해결 문제 관련 분석모델/시스템 개발
(교통, 도시안전, 유동인구, 지역경제활성화 분야 등)
▪(평가) 창의성(30), 우수성(70)
5.질의 응답
등록일2021-10-15조회수5