Skip to content

기학습된 언어 모델을 활용한 수학 문장형 문제 풀이 모델을 위한 한국어 데이터셋

License

Notifications You must be signed in to change notification settings

JiwooKimAR/Korean-MWP-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 

Repository files navigation

Korean-MWP-dataset

기학습된 언어 모델을 활용한 수학 문장형 문제 풀이 모델을 위한 한국어 데이터셋

목표

본 연구는 한글 수학 문장형 문제(MWP, Math Word Problem)를 푸는 심층신경망 기반 모델을 위한 한국어 데이터셋입니다.
수학 문장형 문제는 자연어로 구성된 서술형 수학 문제에 대해 풀이과정과 해답을 제시하는 문제입니다.

데이터 구성

본 한국어 데이터셋은 json 형식의 dictionary들로 이루어져 있습니다.
아래는 예시 데이터입니다.

"10": {
        "question": "자동차 A는 92km/h로 이동하고 있고 자동차 B는 1500m/min으로 이동하고 있습니다. A와 B 중 어느 차가 더 빠릅니까?",
        "equation_op": "[OP_LIST_SOL] A B [OP_LIST_EOL] [OP_LIST_SOL] 92 1500 1000 [OP_DIV] 60 [OP_MUL] [OP_LIST_EOL] 1 [OP_LIST_MAX] [OP_LIST_INDEX] [OP_LIST_POP] [OP_LIST_GET]",
        "qtype": "크기비교",
        "checked": false,
        "INC": {
            "[N0]": "92",
            "[N1]": "1500"
        },
        "IXC": {
            "[X0]": "A",
            "[X1]": "B"
        },
        "IEC": {},
        "ISC": {
            "[S0]": "자동차"
        },
        "IMQ": "[S0] 자동차 [X0] A는 [N0] 92km/h로 이동하고 있고 [S0] 자동차 [X1] B는 [N1] 1500m/min으로 이동하고 있습니다. [X0] A와 [X1] B 중 어느 차가 더 빠릅니까?",
        "NET": "[OP] [X0] [X1] [OP] [OP] [N0] [N1] [C1000] [OP] [C60] [OP] [OP] [C1] [OP] [OP] [OP] [OP]",
        "template": "[OP_LIST_SOL] [X0] [X1] [OP_LIST_EOL] [OP_LIST_SOL] [N0] [N1] [C1000] [OP_DIV] [C60] [OP_MUL] [OP_LIST_EOL] [C1] [OP_LIST_MAX] [OP_LIST_INDEX] [OP_LIST_POP] [OP_LIST_GET]"
    }

밑의 표는 데이터의 개수를 나타냅니다.

# of train data # of validation data # of test_A data # of test_B data total
23057 1214 40 1214 25525

About

기학습된 언어 모델을 활용한 수학 문장형 문제 풀이 모델을 위한 한국어 데이터셋

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published