[201018] 형태소 분석 업데이트

ForSign_공모전

by <감귤> 2020. 11. 24. 19:38

저번에 내가 22개의 태그들을 모두 정리하지 않았더니 재홍이가 다음 단계에서 불편함을 겪은 것 같길래 기사 시험 끝난 기념으로 네이버 메인 기사랑 가요 가사 돌려 가면서 리스트를 정리했습니당.

리스트는 엑셀 파일로 올려두었고 아직 돌린 예제가 100% 정확도를 만들어 내는 건 아니기에 조금 오류가 있을 수도 있다. 또 알고리즘을 조금 더 뜯으면 좋겠는데 시험 공부 하고나서 시간이 어느 정도 남을지가 걱정ㅜㅜ

우선 태그 리스트 정리한 거랑 그에 맞게 고친 _hannanum.py의 remove_j 메소드 올려용

def remove_j(self, phrase):     # 새로 짠 것
        tagged = self.pos(phrase)
        result = []
        for s, t in tagged:
            if (t.startswith('PV') or t.startswith('PA') or t.startswith('JP') or t.startswith('XS')):  # 서술격 조사나 형용사, 동사가 오면
                result.append(s+"다")
                continue
            if not (t.startswith('PX') or t.startswith('II') or t.startswith('JC') or t.startswith('JX') or t.startswith('EP') or t.startswith('EF') or t.startswith('EC') or t.startswith('ET') or t.startswith('SF') or t.startswith('SP')):
                result.append(s)
        return result

_hannanum.py에서 저 함수로 아예 바꿔주시구요 엑셀파일은 궁금한 사람 참고하세요

그럼 다들 안뇽!

hannanum_list.xlsx

0.01MB

'ForSign_공모전' 카테고리의 다른 글

QTextBrowser (0)	2020.11.24
[20/10/22]nanos해결로 인한 시간무제한 & return 찾기 (0)	2020.11.24
[20/10/05]구글STT_API: A-Z(feat. python 3.8.3) (0)	2020.11.24