저번에 내가 22개의 태그들을 모두 정리하지 않았더니 재홍이가 다음 단계에서 불편함을 겪은 것 같길래 기사 시험 끝난 기념으로 네이버 메인 기사랑 가요 가사 돌려 가면서 리스트를 정리했습니당.
리스트는 엑셀 파일로 올려두었고 아직 돌린 예제가 100% 정확도를 만들어 내는 건 아니기에 조금 오류가 있을 수도 있다. 또 알고리즘을 조금 더 뜯으면 좋겠는데 시험 공부 하고나서 시간이 어느 정도 남을지가 걱정ㅜㅜ
우선 태그 리스트 정리한 거랑 그에 맞게 고친 _hannanum.py의 remove_j 메소드 올려용
def remove_j(self, phrase): # 새로 짠 것
tagged = self.pos(phrase)
result = []
for s, t in tagged:
if (t.startswith('PV') or t.startswith('PA') or t.startswith('JP') or t.startswith('XS')): # 서술격 조사나 형용사, 동사가 오면
result.append(s+"다")
continue
if not (t.startswith('PX') or t.startswith('II') or t.startswith('JC') or t.startswith('JX') or t.startswith('EP') or t.startswith('EF') or t.startswith('EC') or t.startswith('ET') or t.startswith('SF') or t.startswith('SP')):
result.append(s)
return result
_hannanum.py에서 저 함수로 아예 바꿔주시구요 엑셀파일은 궁금한 사람 참고하세요
그럼 다들 안뇽!
QTextBrowser (0) | 2020.11.24 |
---|---|
[20/10/22]nanos해결로 인한 시간무제한 & return 찾기 (0) | 2020.11.24 |
[20/10/05]구글STT_API: A-Z(feat. python 3.8.3) (0) | 2020.11.24 |