텍스트 마이닝

텍스트 마이닝

  • 데이터 마이닝의 세부 항목
  • 대부분의 데이터마이닝이 수치 데이터, 범주형 데이터를 집중적으로 보는 반면 텍스트 마이닝은 텍스트 데이터를 주로 다룸
  • 단어와 용어를 모르더라도 주요 개념, 데이터들의 관계와 경향을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스가 중심
  • 데이터들을 쌓아 내용을 공고히하거나, 정리, 요약, 분류, 추출 가능
  • 자연어 처리 기술(NLP), 정보 검색 기술, 데이터마이닝 기술 분야의 혼합체

img

적용 방법

  1. 텍스트(원천 데이터) 입력
  2. 텍스트 마이닝 알고리즘 적용
  3. 개념 및 범주 모델 작성
  4. 데이터 분석

필요한 것

  • 형태소 분석기
  • 구문 분석기
  • 대용량 데이터 처리 플랫폼 등

세부 분류

언어학적 기반 텍스트 마이닝

  • 특징

    • 자연어를 컴퓨터가 분석해 구조화함
    • 의미 및 컨텍스트를 기반으로 특정 개념을 관련 그룹으로 분류 가능
    • 관련 프레임웤을 이용하면 컴퓨터가 단어 양식, 문장 구조를 분석
  • 고려 대상

    • 동의어에 대한 처리 필요
      • 확장 필요성 존재
    • 텍스트의 모호성 때문에 관련 없는 결과가 다수 생성될 가능성 있음
    • 언어학적 자원(라이브러리, 동의어 등)을 세부 조정해 추출 프로세스 실행이 중요
    • 한국어 데이터의 경우 형태소 분석 문제가 추가로 발생

    추출 프로세스의 단계

    1. 원천 데이터를 컴퓨터가 읽을 수 있는 표준 형식으로 변환

    (프로그램에 따라 표준 형식으로 변환된 추가 DB 생성이 없을 수도 있다)

    1. 후보 항 식별

      • 후보항 : 텍스트에서 개념을 식별하는데 사용되는 단어나 단어 그룹
      • 단일어, 복합어, 품사 패턴 추출기를 사용하여 텍스트 내 유의미한 자료 식별

      • 식별 시 여러 개의 라이브러리를 함께 사용해 상호 보완적으로 쓰는 것이 일반적

    • 라이브러리에는

      • 사전
        • 기본 사전(명사, 동사, 형용사 등이 담긴 품사 코드)
        • 유형 사전
        • 동의어 사전 등
      • 관계 및 추출 지정, 조정 세팅

      등이 담긴다.

    1. 동의어의 동등 클래스 및 통합 식별 (유사한 후보 항 식별)

      • 한 구문의 기본 양식, 동일 구문에 대한 두 개의 변형이 있는 단일 양식을 동등 클래스로 설정
        • 라이브러리의 사용자 지정 양식과 최대 빈도 양식을 기반으로 식별 진행
    2. 유형 지정

      • 상위 레벨 개념 (상위 데이터와 하위 데이터 인지)
      • 사용자가 만든 추가 유형 등
    3. 색인화

    4. 패턴 및 이벤트 추출 매치 (일부 프로그램에서만 제공됨)

      • 색인된 것들과의 관계 추출 가능

규칙 기반 텍스트 마이닝

  • 언어학적 기반 텍스트 마이닝의 단점 보완
  • 비언어적 규칙으로 관련 결과, 비관련 결과를 구분