텍스트 마이닝 & NLP 101

line
  • 과정번호MF10000007
  • 교육시간3일 / 21시간
  • LEVEL100
  • 수강료0원

교육모집정보

교육기간(시작일~종료일) 수업시간 환급여부 수강료 환급금액우선대상(대기업) 신청하기
line

교육개요

챗봇 개발과 운영은 제대로 하기에는 너무 어렵습니다. 알아야할 것, 신경써야할 것이 너무 많습니다. 하지만 챗봇을 일단 서비스하는 것은 어렵지 않습니다. 개발자들에게 있어서, 챗봇이란 것을 일단 서비스 할 때 무슨 일들이 일어나는지 알게 될겁니다.

마케터들에게 있어서, 챗봇이란 것이 어떤 문제를 어떻게 해결해줘야 하는지 구체적으로 상상하게 될겁니다.

회사에 리뷰는 잔뜩 쌓였는데, 리뷰에 대한 분석을 어려워 합니다. 지금은 사람이 한땀 한땀 하고 있지만, 회사가 더 성장하여 리뷰가 엄청 많아지면 어떻게 할지 막막합니다.

텍스트로부터 기초적인 데이터들을 추출하고, 어떤 형태의 정보를 얻어낼 수 있을지 알아야 합니다.

이 강의는, 인공지능으로 딥러닝으로 문제를 해결해온 데이터과학자의 관점에서 제작되었습니다. 0점을 80점으로 만드는 매우 중요한 시간을 위한 강의가 아닙니다. 80점을 넘어서기 위해 고군분투해야 할 때 그 때를 위한 기본기 강의입니다.

또한 기본적인 텍스트 마이닝의 주제와 텍스트 데이터를 처리하는 기초적인 기술들을 다루게 됩니다. 딥러닝과 NLP의 동향들을, '어떤 문제를 풀어냈는지' 문제-해결 관점에서 관찰해봅니다. 딱, 텍스트 데이터를 위한 A.I기술과 텍스트 마이닝에 대한 이야기만 다룹니다. 

line

교육대상

· 리뷰, 챗봇 등 텍스트 데이터가 오가는 곳에서 텍스트를 이용해 문제 상황을 개선해야하는 사람 

line

특이사항

[기대효과]

· 텍스트 데이터에서 추출할 수 있는 기본적인 정보에 대해서 이해한다.

· 텍스트 데이터로 풀어 낼 수 있는 기초적인 문제 유형에 대해 이해한다.

· 딥러닝을 이용한 자연어처리의 최근 동향을 문제-해결 관점에서 이해해본다. 

커리큘럼

  • 1

    Day

  • Module 1 : Review

     · ANN with keras

     · CNN with keras

     · RNN with keras

     · Autoencoder with keras

     · Transferlearning with keras

     ·​ Basic information from text


    Module 2 : Sentimental Classification

     · Labelling

     · Binary term occurrence

     · Term frequency

     · TF-IDF

     · Neural Noise Analysis

     ·​ word2vec

     ·​ RNN(RNN, LSTM, GRU)

      

  • 2

    Day

  • Module 3 : Text retrieval

     · similarity

     · binary term occurrence vs term frequency

     · TF-IDF, word2vec

     · Encoded vector from ANN

     · Encoded vector from RNN

     


    Module 4 : Text Clustering I

     · kmeans, hierarchical clustering, dbscan

     

     

    Module 5 : Text Clustering II

     · LDA 

  • 3

    Day

  • Module 6 : Seq2Seq

     · review : autoencoder, RNN

     · from seq2seq to [Attention]

     · from attention to [Transformer]



    Module 7 : Q&A, Summary