검색
  • IMGURU

텍스트 분석



텍스트 분석

이미지가 근복적으로 모호한 반면 단어는 언어라 불리는 반 구조화 된 데이터 집합에 속한다. 언어는 세계에 대한 지식이 상징적 집합으로 통합되는 데이터 압축의 한 형태이다. 그런 까닭에 단어는 이미지보다 딥러닝에 적합한 분야라 할수 있다.

하지만 텍스트 분석은 현재 머신러닝을 하기 위해 많은 어려움이 있다. 인위적이고 수동적인 방법으로 특징을 추출하는 것은  텍스트 분석을 할 때에 주요 단점이다.  이 경우 데이터 과학자들은 알고리즘에 대해 시간을 많이 할애 해야 한다. 하나의 단어에 대한 품사 태그는 데이터 과학자들이 선택한 하나의 특징일 수도 있고, 단어가 발생을 했지만 다른 단어일 수도 있고, 주어진 텍스트에 나타난 횟수가 세번째 일수도 있고 이런 과정에서 단어 당 특징의 비율이 정해지게 되고 많은 부분들이 쓸모가 없어지게 된다.

변수 추출

딥러닝에 큰 장점 중 하나는 변수를 자동으로 생성해 준다는 것이다. 변수 추출 관련하여 먼저 설명을 하겠다.신경망에 입력된 텍스트는 여러 분석 단계를 거치게 된다. 

첫번째 단계는 소프트웨어는 문장에 경계에 안에 있는 단어들을 찾게 된다.

두번째는 토큰화로, 소프트웨어는 각각의 단어들을 찾게 된다.

세번째 단계에서는 품사 태그가 해당 단어에 첨부되고 네번째 단계에서 문자 처리라고 알려진 프로세스에서 줄기나 개념에 따라 그룹화되게 된다.

be, been 같은 단어들은 같은 동사로 표현되기 때문에 그룹화가 이루어 지게 된다.

조회 4회

최근 게시물

전체 보기

기술적 특이점

특이점이란 개념은 수학, 물리학에서 존재하는 개념이다. 1. 특이점(singularity) - 수학: 분수의 분모가 제로에 근접함에 따라 무한대로 발산되는 지점 - 물리학: 광속도로 이동하는 빛조차도 탈출할 수 없는 블랙홀의 경계에 존재하는 사건의 지평선(event horizon) 2. 기술적 특이점 - 영국 옥스포드 사전에 정의된 특이점이란 “인공지능을