2 분 소요

r

1. 기계학습의 기원

  • 기계학습(Machine Learning)
    • 데이터를 지능행위로 변환하는 컴퓨터 알고리즘을 연구하는 분야
    • 사용 가능한 데이터, 통계 기법, 빠르게 발달하는 컴퓨팅 환경을 바탕으로 한다.
  • 기계학습의 사용과 남용 그리고 윤리성 고려
    • 기계 학습은 복잡한 데이터에 대한 이해를 중심으로 연구하는 분야이다.
    • 때문에 데이터만을 가지고 판단할 수 있는 패턴을 찾으며 대부분 완벽하게 성공한다. 하지만 성공한 것이 완벽하다는 것을 의미하지 않는다. 반드시 예외의 경우가 존재하며 완벽한 알고리즘은 없다. 일례로 미국의 소비자 패턴 분석으로 인해 10대 여성에게 출산 용품을 마케팅하게 되고 아버지는 자신의 딸이 임신한 사실과 10대에게 임신을 부추긴다는 사실로 화가 나는 경우도 있다.
    • 반드시 윤리적인 충돌이 있을 수 있으며 예외의 경우도 항상 존재한다는 사실을 명심하자

2. 기계 학습의 원리

  • 기계에게 미래의 유사한 경험을 향상 시키기 위해 과거 경험을 활용할 수 있다면 학습했다고 본다.

1) 학습자의 학습유형

  • 데이터 입력: 미래의 추론을 위한 사실적 근거를 제공하기 위해 관찰, 기억 공간을 활용한다.

  • 추상화: 넓은 표현성으로 데이터를 변환하는 것과 관련된다.
  • 일반화: 실행하기 위해 추상화된 데이터를 사용한다.

2) 추상화와 지식의 표현성

  • 추상화: 데이터의 의미를 부여하는 작업
  • 지식 표현성: 가공되지 않은 감각 정보를 의미 있는 통찰로 변환하게 도와주는 논리적 구조
    • 종류
      • 방정식
      • 트리, 그래프 등의 다이어그램
      • 논리 규칙(if/else)
      • 알려진 데이터에 대한 군집화
  • 훈련: 데이터 셋을 특정 모델로 적합화하는 과정
    • 학습 과정은 데이터 추상의 단계로 끝나지 않는다.
      → 미래 데이터에 관한 지식을 일반화하기 위한 추가적인 단계이기 때문
  • 모델이 데이터로 적합화할 때 실제 과정을 정확하게 묘사
    → 학습은 귀납적인 상향식 추론을 적용

  • 모델을 훈련할 때 데이터는 본래 정보를 요약하는 추상적 형태로 변환된다.

3) 일반화

  • 추상적인 지식을 실행에 사용할 수 있는 형태로 조절하는 과정
  • 일반적으로 훈련 과정 동안 추상화된 전체 모델에서 찾는 것으로 생각할 수 있다.
  • 가설 검증을 통해 실현 가능한 개념의 개수로 줄이고 가장 유용한 가설로 결정하는 것은 거의 불가능하지만 가장 중요한 개념을 추정할 수 있다.

  • 편향 : 기계 학습에 적용되는 휴리스특의 결과가 일정하게 부정확한 경우를 의미

4) 데이터에 기계학습 적용하기

① 데이터 수집

  • 분석하기에 적당한 전자적 형태로 데이터를 수집해야 된다.

② 데이터 준비와 탐구

  • 기계 학습 프로젝트의 질은 사용 데이터의 질에 좌우 된다.
  • 학습 과정에서는 사람의 해석이 많이 사용되며 자주 인용되는 통계는 80%정도를 데이터에 들어야 한다.

③ 데이터에 대한 모델 훈련

  • 분석을 위해 데이터가 준비되면 특정 기계학습 태스크는 선택할 적당한 알고리즘과 모델 형태로 데이터를 나타내준다.

④ 모델 성능 평가

  • 준비한 알고리즘이 데이터로부터 얼마나 잘 학습했는지 평가하는 과정이다.
  • 학습 문제에 대해 편향된 해결책을 내는 과정이기도하다.

⑤ 모델 성능 향상

  • 좀 더 나은 성능이 필요하면 모델의 성능을 향상하는, 발전된 전략을 사용할 필요가 있다.

4) 기계 학습 알고리즘 선택

  • 학습 데이터에 맞춰 알고리즘을 적용해야 된다.

  • 입력 데이터에 대한 고려

    • 모든 기계 학습 알고리즘은 훈련을 위한 입력 데이터가 필요하다.
    • 관찰 범위: 측정한 예제의 단위로 거래, 사람, 시간 등 측정된 형태이다.
    • 속성: 원하는 개념을 학습하는 데 유용할 수 있는 예제의 특성을 의미한다. 크게 명목형 변수와 수치형 변수로 나눠진다.

댓글남기기