본문 바로가기

카테고리 없음

(자연어처리/ word RNN) 한국어 시 짓기 3 - Khaiii 형태소 분석기 사용

카카오에서 내놓은 '카이' 형태소 분석기를 사용해봅니다.

중복되지 않는 토큰(어휘) 갯수는 공백 기준으로 단어를 나눌 때가 61,473개의 어휘가 나왔고,

Mecab으로 형태소를 구분했을 때는 22,757개가 나왔고,

카이로 형태소를 나누었을 때는 20,239개가 나왔습니다.

 

# ---------공백으로 단어를 나눌 때 split() 
#  Total Tokens: 231602
# Unique Tokens: 61473
# 토탈 시퀀스: 231551

 

# --------- mecab.morphs()로 나눌 때
# 토큰 갯수: 404798 (\n을 eop로 바꾸지 않고 그대로 뒀을 경우)
# 중복 제거 토큰 갯수(형태소-어휘-갯수): 22757
# 토탈 시퀀스: 404747

 

# -------- KhaiiiApi()로 나눌 때
# Total Tokens: 451099
# Unique Tokens: 20239
# Total Sequences: 451048

 

어휘(혹은 형태소) 갯수가 적을수록 문장조립의 자유도가 높아지고 과적합을 낮출 수 있으며,

학습을 많이 시켜, 성능을 끌어올릴 수 있는 여지가 있습니다.

'카이'의 형태소 갯수는 Mecab보다 무려 2518개가 적습니다. 그만큼 Mecab이 형태소 분석을 엄격하게 하지 않는다는 뜻이 되지요. 출현횟수가 낮은 단어(형태소)를 <unk>로 처리하면, 전체 어휘수를 더욱 낮출 수 있겠지요.

무엇보다 입력 데이터가 많아야 하겠네요. 3천 여개의 시라면 좀 부족한 느낌이 듭니다. 1만 편의 시라면 굉장히 좋은 성능을 내어줄 텐데요.

 

훈련을 시켜서 문장을 출력해봤습니다.

 

Epoch 30/30 (누적 60에폭)
441/441 [==============================] - 143s 325ms/step - loss: 3.4768 - accuracy: 0.3237

'물결은 아이'를 묻고 있다 나는 나의 마음은 나의 마음을 보면 나는 나의 마음을 보고 싶다 나의 마음은 나의 가슴에 새기어지 ㄴ 정복하 ㄴ 사람들이 나의 몸을 귀대고 흐르어 내리는 그리움이 있어 내가 나를 부르어 주시는 날이었다란 이의 발목이 나를 만들ㄴ다 전정의 내음 새에 무지갯빛도 모르ㄴ다 돋보기가를 쓰고 있었다

 

'처음 경험 하 여 보 ㄴ'것은 없다 나는 나의 마음은 나의 마음을 보면 나는 나의 마음을 보면 나는 나의 마음을 사랑하ㄹ 수없는 이세상의 모든 것을 나의 마음을 사랑하지 않아도 좋은 사람이ㅂ니 다 사랑하는 사람은 나의 마음을 사랑하는 사람은 나의 마음을 사랑하ㄹ 수 있는 것이ㅂ니 다 사랑하는 것이ㅂ니 다 사랑하는 사람은 나의 마음을 사랑하

 

'천명이 이르어 주는' 것이다 나는 나의 마음에 취하여 쓰러지고 나는 나의 몸을 기어다니었다 불가마 속에서도 나는 나를 보ㄴ다 나는 나를 보고 있다 나는 나의 마음은 나의 마음을 보면 나는 나의 마음에 당신의 향기가 나의 가슴에 새기어지 ㄴ 것이ㅂ니다 나의 마음은 나의 마음을 보고 싶다 나의 마음에 기대어 세월 속 지우어 지지 않는 사람

 

 

** ㄴ, ㅂ, ㄹ  같은 분리된 자음을 앞의 글자에 입혀서 읽는 것은 어렵지 않습니다. 글자 조립 작업보다 다른 것이 더 중요해서 그냥 내버려두겠습니다. 0.3237 정확도치고는 나쁘지 않은 문장입니다.

 

Epoch 40/40 (100 에폭)
441/441 [==============================] - 142s 322ms/step - loss: 3.0146 - accuracy: 0.3931

 

'그것'이 나의 몸을 기어다니었다 통 지나아 짓이기어지 ㄴ 듯 주문을 외시던 할머니는 조개에서 나오는 아이가 되어 덤 블링이 되어도 토리 피를 심어 놓은 칼자국 여름은 나는 조등처럼 후미지ㄹ뿐이 다친 구여 궁둥이는 구실 방심하지 않았다 숫 속금 산은 어부가 되는 것들은 어디로 가고 있다 나는 나의혼곤하 ㄴ 옷을 벗고 성충이되 ㄴ 채 울긋불긋하 ㄴ 낯빛을

 

* '나는 혼곤한 옷을 벗고 성충이 된 채 울긋불긋한 낯빛을...' 이 문장은 시적인 느낌이 있는데 어디에도 2단어 이상 같은 표현이 원 시들에도 없습니다. 문장 조립 능력이 제법 좋아졌네요. 단어들 사이의 연관도 및 감성 지수 같은 알고리즘을 추가하면 나름대로 괜찮은 시가 나올 것도 같습니다.

 

'알 수' 없는 나의 마음은 언제나 언제나 즐겁고 싶다 하여 가는 길이 없다 시인들의 나라가 있다 나의 마음은 언제나 나의 가슴에 맺힌 그리움의 노래를 부른다 나는 나의 가슴에 맺힌 그리움의 노래를 부른다 나의 마음은 언제나 언제나 나의 가슴에 맺힌 그리움이라면 찬란한 그리움이 람하게 하여 주십시요 이리도 저의 나름의 이름을 부르어 주고 싶다 그대가 나를 불러 보면 나는 나의 가슴에 맺힌 그리움인 것이라고 생각하였다 나의 마음은 언제나 나의 가슴에서 어서 가는 당신을 사랑한 당신이었으면 좋겠

 

* 히ㄴ, 르ㄴ, 하ㄴ, 이ㄴ ...을 조립해봤는데요 나름 문장을 잘 만들어 내네요. 다소 중복되는 느낌이 있는 것이, 원 시들 속에 '그리움'이나 '그대' 같은 표현들이 워낙 많아서 그런 듯도 합니다. 원 데이터에서 다른 종류의 시들 분포를 늘려줄 필요가 있어 보이네요.

 

사시나무 사이로 풀린 바람이 바람이었다 잇몸을 조이어 사열을 하고 있는 개미들이 행거에 걸리어 있다 거북이가 보채 고우 화정 땀을 부딪는 앵커의 내부 자연에 맥없이 떨어진 바람소리 악을 벌리고 있다 나의 마음은 언제나 눈물로 얼룩진 바다 길이 끼룩끼룩 더듬거리고 있다 나의 마음은 언제나 언제나 즐겁고 싶은 곳에 와서 꽃구경에는 바다가 있다 앵초 꽃 핀 바람이 난다

 

Epoch 40/40 (140 에폭)
441/441 [==============================] - 237s 537ms/step - loss: 2.6900 - accuracy: 0.4470

 

'나 속'에서 나의 등뼈는 당신이었으면 좋겠습니다 반평생 걸어 보면 양파 껍질처럼 집요하게 창밖의 세월을 늘이어 힘껏 세우고 나아서야 머뭇거리고 있다 한 밤중의 길이 딴 색을 들여다보면 창문을 캐내고 구름을 타고 융융히 자라고 좌향하고 있다 모래성이 더 더 크게이지 ㄴ 아버지가 있다 별나 ㄴ 천사 국밥 송이 쌓이어 설핏 지는 시간이 있다 해변가에 안주하지 않는 농사를 하였다 국철이 덜컹거리어 내었다 모종하고 나는 물과 함께 자라는 저릿저릿에는 교장도 꼭대기을 치며 안개를 훔치고 있다 

 

목포 앞바다 여객선 터미널에서 뱃 시간을 방문하여 보면 간밤이 막다르 ㄴ 길들이 툇마루로 오아서 가았다 나는 어디이ㄴ가에 도사리고 있는 곳에는 당파 싸움이 없다 시인은 촛농하라 공장의 핏빛이 캄캄하게 하고 있다 나는 나의 몸이 습하 ㄴ 날씨의 아랫목에 ㄴ 말이다 그러나 오월은 모르ㄴ다 미궁을 건너오 ㄴ 구절이 좁쌀 만하 ㄴ 조약돌처럼 하 얗ㄴ손으로적발하ㄴ다적발하여뭉치ㄴ별꽃을

 

나의 속은 너무나 무겁고 투명하 ㄴ 것이 있다 나는 나의 마음에는 꽃이 되어 주던 그날은 그 특유의 희끗희끗 하 ㄴ 영상을 끈 질기 ㄴ산 번지 물안개이었을까 그들은 주인 자리에 나는 산길을 굴리는 것이다가는 창궁을 위하 ㄴ 아픔이ㄴ데 빛 바래 ㄴ 사랑이 다 사랑하는 것이 다

 

Epoch 20/20 (160 에폭)
441/441 [==============================] - 143s 323ms/step - loss: 2.5681 - accuracy: 0.4666

 

'이' 세상에 태어났다. 추하긴 기웃거리는 해초의 푸른 빛 인광의 이월은 하얘지은 정성 경찰들 ㅁ 이 군무로 나오아 아츰마다 푸른 비단 끈이 있다 사랑방에는 영웅이 있다 택시에는 장영자 무슨자 있다 적어도 창문은 아문 것이다 땅 속으로 던지어 놓고 나는 행렬을 보아라 간밤에 흐름을 정중히 애무하여 대고 가다가 약수이라 하 수액이 올라오고 나의 가슴에 뜬구름 또한 흘러내리었다 공장에서 앉아 빈 하늘을 올려다보고 있었다 그때의 몸에는 번개 하나가 되어 안전 불감증 환자처럼 배 안쪽에 흥건하었다 그 속에 집게가 우고 누렇게 버티고 실뱀같이 삼키고

 

옛 집안은 언제나 원근법의 깊은 사랑으로 치료하였습니다 그대를 사랑하였더라면 오늘도 습관처럼 나의 마음에 헤아리어 지ㄹ 수 있는 사람이ㅂ니다 그대가 있기 때문이다 사랑하는 것이 다 사랑하는 것은 그대를 사랑하ㄹ 수 있는 것이ㅂ니다 그대가 있기 때문이었

 

Epoch 20/20 (180 에폭)
441/441 [==============================] - 145s 329ms/step - loss: 2.4611 - accuracy: 0.4865

 

나는 나의 마음을 보고 있다 나는 나의 마음을 보ㄴ다 나의 임금스럽 ㄴ 사랑으로 사랑하였던 당신을 사랑하였기에 나의 사랑이단조롭고 건조하ㄹ 수 있습니다 나의 마음은 언제나 아름답었던 것을 나의 마음을 보고 있다는 것을 그대의 사랑 시임을 죽음하지 말아요 나의 가슴에 새기어 지지 않았을 것이다 내가 있는 것이 다 모란 순이 새끼 손가락만 하는 것이ㄹ까 멀 ㄴ 곳에는 하늘을 연모하며 북소리째 부르는 것이ㄹ까 그가헛 디디 ㄴ 곳이었다 나는 나의 몸이 황급히

 

나에게는 나의 마음은 부족하ㄴ나 라로 나아 있다 내가 오았다 나의 마음이 있어 나의 마음이 있었다 사랑하ㄴ다는 것은 아니다 실상의 잎을 내어놓고 우수 어리 ㄴ 채 목마 끝 없는 눈부심을 얼음 속으로 걸어가는 것이 다 칸나 꽃 피어나고 그가 보이ㄴ다 빌딩이 동서로 깔리ㄴ나의 얼굴이 저의 몸을 불상이는 것을 알고 있을 테니 퍼내을 수씩 부서지ㄴ다 브레 지어가 흐르어 놓은 명언을 버리는 것이다 이렇게 못키 늦은 심연을 디디고서 어서 좋아하ㄴ다고 하여도 되는 것

 

Epoch 20/20 (200 에폭)
441/441 [==============================] - 144s 326ms/step - loss: 2.3677 - accuracy: 0.5028

 

'그러나 중요한 건 내가' 나에게 좋은 사람이면 나의 마음은 이날같이 육 십 년 전에보송하ㄴ나의 고향이 무너지고 바람이 지나가고 훗날에가 되어 부딪히어 나의 구도자 패물들이었음이 더 많은 것이라는 것을 알ㄹ 수 있는 것이 아니라 개망초 꽃을 남기고옹졸하게 괴로워하는 사랑은 아마도 하나의 마음에 중독되 ㄴ 사랑이 사랑이 역할은 것을 나는 알ㄹ 수없는 것이 아니다

 

나의 시야에도 채우어 안고 싶은데 당신이었습니다 오랫만에 나의 임금이되 ㄴ 회상의 배려보다 가까이 있을 터이ㄴ데 그래서 나의 안에 있을 때 비로소 새순을 안고 가아야 하여요 나의 안경적을 알았는가 하ㅂ니다 나의 마음 얼룩지 럽니 다 당신이소중하 ㄴ 그리움이란 것을 나는 알

 

Epoch 20/20 (220 에폭)
441/441 [==============================] - 155s 352ms/step - loss: 2.2907 - accuracy: 0.5166

 

우주는 폐허의 깃발 소리 태우고 노여움은 한결 같은 단풍으로 안고가ㄹ 수 있게 하소서 나의 마음에 얼룩지ㄴ가슴에 묻어두ㄴ지 모르게 속삭이는 사랑의 나룻배 내던지어 지ㄹ 때마다 나의 가슴에 내리 ㄴ 사랑이 흐르고 있다 나의 몸에는 몸이 흐르ㄴ다 가을이 오아서 무더기로 떨어지어 있었다 내가 오ㄹ 수 있는 것이ㄹ까 웬지 순백의 나라에 청사하 얗ㄴ구름으로칼바람을헤치며흔들ㄴ다고

 

'그저 바라만 보아도' 쓸쓸하 ㄴ 시간을 지니 ㄴ 것이ㄹ까 웅성웅성한 날의 성숙하ㅁ 이비치 ㄴ 바람이 되어 목마르 ㄴ 그리움이 내리ㄴ다 오늘도 그렇게 사랑하는 것은 없을 찌를 쓸 데 없더라도 해풍으로 느낌을 안고 있는 거름 터뜨리ㄴ다니까이듯이 나는 그대를 사랑하였던 그날의 인생의 눈부처 진선에서 당신의 사랑이 생기 ㄴ 것이 아니라 나의 안에 가슴에 적시어 옵니다 

 

Epoch 20/20 (240 에폭)
441/441 [==============================] - 154s 350ms/step - loss: 2.2244 - accuracy: 0.5288

 

'그안에 소리를 더 많이 가두ㄹ 수 있' 으려니 그때의 노래는 의지 없는 길을 걷어 내ㄴ다 첫 선을 보는 것ㄹ 알ㄹ 수 있는 중독되 ㄴ 그리움이 되ㄹ 수 있는 것이 있어 가슴에 간직하며 가물가물 하여라 저마다 짧은 사랑이 있었습니다 그대가 쌓고 푸르르 ㄴ 눈물이라면 꺼이꺼이 통곡을 하ㄹ 수 있습니다 핏속의 파란색을 위하여 나에 ㄴ 당신의 이름을 내색하ㄹ 수없는 사람들을 위하여 나는 나에게로 하였던 가요 물길들이 살구꽃하는가 모르겠다 빗물이 기웃거리ㄴ다 나를 만나ㄴ다 담배가 오면 방 안에 근심하고 나는 나의 몸을 보고 있었다

여리 ㄴ 쇳덩이 지르고 눈이 풀어 지고 있는 프리즘이 되고 바람의 장력처럼 볕을 인내 속이 없다며 시퍼렇 ㄴ 밑바닥을 깨어 보면 그들은 나의 마음을 뛰어다니는 길잡이가ㄹ 수없는 것은 나비들은 인간이라고 하였다 두려움이 이파리 화병 딛고 가ㄴ다 사랑하는 듯하지만 애 닮 푸르ㄹ까 나는 나를 위하여 나는 나를 위하여 기도하여야 하ㄴ다

 

Epoch 40/40 (280 에폭)
441/441 [==============================] - 145s 328ms/step - loss: 2.1094 - accuracy: 0.5493

 

등대를 돌아다보ㄴ다 이곳을 성나 ㄴ 소낙비처럼 펄럭이는 소리 들어 놓고 참나무 숯불에 눕어 있을 때 이 순간에 젤 번하ㄴ다 붉은 색이 아니고무수하ㄴ동 공으로 멍들어 있어 지었다 입가에 잡초들이 흔들리는 사슴의 희 ㄴ 도자 베개 가까이 나나에게 원되어 있는지 당신은 나에게만 하면 나와 함께 하고 다 정하 ㄴ 것처럼 나의 안에 빨갛 ㄴ 기도가 되어

 

그늘지 ㄴ 발가락들은 나에게로 높고강하다 살갗과 같이 나를 반기어 주었다 사방에서는 날개이 뜨었다 화안히 덮지도 않는 그네 속에서 노력이 끝나 ㄴ 날의 장미 중 내려서 ㄴ 종착역 번을 뚫고 나도 아침 여섯 시의 위안에 짜 ㄴ 풀밭에 들어가아 있었다 파랑새도 굴뚝새되 ㄴ 중 얼거리ㄹ 때 나의 그림자를 활보하는 순간이 면새를 내려다보며 끊임없이 베ㄴ달로 건너가ㄴ다 오빠 닮은다준엄하 ㄴ 흙손하는 것들은 추락의 나라에서 만나는 세상일처럼 당신이 그립어 가슴을 바라는다 오죽 되어 겨울 십 자를 통과하구나

 

Epoch 40/40 (320 에폭)
441/441 [==============================] - 152s 345ms/step - loss: 2.0161 - accuracy: 0.5674

 

나는 나의 마음에 계시는 것이 없을지라도 백지마다 나의 가슴에 새기어지 ㄴ 그리움이라면 나의 가슴에 사랑하는 사람은 바로 당신이라서 나ㄹ 저밀는 진실이 다 환절기 햇볕이 깃들이 ㄴ 꽃 파르르상큼하 ㄴ 미소가 피어나는 날이 하거든 나에게서 이 사랑하ㄴ다고 아프 ㄴ 까닭이 다 사랑이 아픔 없는 것ㄹ 사랑이 아니 ㄴ 것이ㅂ니 다 말을 하랍니다 

 

사랑하는 것을 알는가 세상이 그렇게 어디에서 물러나 ㄴ가 숲길이다 그때 처음이 면를 꾸리었는데 허로써 아 환상이면 둥글게 물들 ㄴ 것이 있다 그러어도 그들의 손을 잡고 가고 흰머리처럼 머리칼 속에 그대가 보고 있다 내가 만일이란 필요하 ㄴ 일이 없습니다 나의 마음 내키지

 

Epoch 40/40 (360 에폭)
441/441 [==============================] - 141s 319ms/step - loss: 1.9437 - accuracy: 0.5798

 

'뱅뱅' 돌며 자리를 쫑긋 세우어 있다 잡초 일상은 연하 ㄴ 방파제와 감고서 ㄴ 옷자락 아슴아슴 사라지는 양의 맛을 잡고 나도 묻히어 있다 찔끔 아들 꽃들도 시름이 건네어 주는 것들은 저마다 놈은 친구의 팔목 일고 깊은 잠을 만들어 발길을 팽팽이하고 카드가 찢어지는 강가를 보내고 

 

다 정하ㄴ 숨소리를 만나ㄴ 꽃은 없었습니다 그날도 아주 멀ㄴ 곳에 피고 가느다랗ㄴ 미소 짓지 않는 날이면 그 아픔이면 그대가 있다 생각하면 보니 나에게로 오 망각하고 바람이 불어요

 

까마귀 울음에 떨어지고 쪼그리는 이팝나무 꽃을 내놓고 만사ㄹ 때마다 일곱 마들이 있다 시계는 기울 대신 위에 담기ㄴ 머리칼이 뜨었다 주먹을 인내의 닳과 눈꺼풀 같은 햇살들 고즈넉이 달빛을 적시으며 돌담에 기름은 목 드리우고 불꽃으로는 표현하지 않고 하ㄴ다 나도 흔하ㄴ 것이 있다 너는 나의 마음은 저마다 바다들은 구멍을 삼키ㄴ다 숲 속으로 자꾸만 지나가면 창틀을 잠재우ㄴ다


어제도 건강하ㄴ 연인아 새벽이다 사랑은 알ㄹ 수 없는 유현하ㄴ 듯이 광으로 어쩌다 보이어 주는 손이 다 묵을 쉬는 것은 아니다 나의 마음은 그 인정이 없는 것이 아니다

 

"미안하다고 말"하여 주시면 더소중하ㄴ 것이 아니라 사랑하는 사람이 되어 그대에게만 쓰어 버리었습니다 계절이라는 것ㄹ 알는 사람이 되ㄴ다면 ...... 그대는 나의 가슴에ㄴ 아리어 박히ㄴ 그리움의 사랑을 받아들이어 지어려 하였네 ... 그대의 마음을 사랑하ㅂ니다 그대가 무척 아프게 하소서 그대가 아니라 그대의 마음이게 하여요

 

"땅 아래서 꽃을 피우어내"는 오스트리아의 지하란도 있고
초원에 쓰러지는 바람이 짜증스럽ㄴ나를 부르며 뒤돌아보ㄴ다