티스토리 뷰

최종 수정: 2014-10-31


안녕하세요. Hackability 입니다. 


이번부터 연재할 내용은 Bing Liu님께서 쓰신 Web Data Mining 을 기반으로 Data Mining에 관한 전반적인 그리고 웹 마이닝에 대한 부분적인 내용에 대해 정리 하려고 합니다. 4년전에 공부한 내용을 다시 정리하는 것이라 잘못된 내용이 있을 수 있으니 그 부분이 있으면 언제든지 지적 부탁드리며, 추가적으로 그동안 느꼇던 부분에 대해 제 주관적인 생각이 많이 들어 갈 수 있습니다.


목차는 책과 동일하게 진행하며, 사용되는 용어들은 어색하게 번역하는 것보다 원문 그대로 사용하는 것이 자연스러울 것 같아서 그대로 표현하도록 하겠습니다. 되도록 짧고 간략하게 진행하도록 하겠습니다.


먼저, 이번 포스트에서는 간단히 마이닝에 대해 이것 저것 얘기를 하고 마치겠습니다.


우리가 살고 있는 세계는 정말 급격하게 변하고 있습니다. 산업화를 거쳐 정보화 사회에 살고 있는 우리는 전세계 사람들이 웹이라는 매개체를 통해 수많은 정보를 실시간으로 접할 수 있습니다. 웹이 없었더라면 우리는 어떤 문제를 해결하기 위해 주변 사람들에게 물어보거나 그 분야의 전문가를 찾아가 답을 구했을 것입니다. 지금은 몇 번의 검색만으로도 우리가 원하는 답변을 찾을 수도 있고 더 나아가 공통된 지식에 대해 굉장히 쉽게 같이 연구하고 공유할 수 있게 되었습니다. 지금 제가 하고 있는 것 처럼  말이죠. :) 또한, 이렇게 많은 사람들이 쉽고 빠르게 이용할 수 있는 점을 이용하여 여러 가지 사업을 통해 돈을 벌기도 합니다.


정보화 사회에서 우리는 많은 정보를 얻을 수 있었지만 한 가지 문제가 생겼습니다. 정보가 너무 많아 정작 우리가 필요한 정보를 찾지 못하는 현상이 생기는 것이였습니다. 분명 웹 어딘가에는 우리가 필요한 정보가 있습니다. 하지만 우리가 그곳에 닿기 위한 방법은 명확하지가 않습니다. 잘 생각해보면 웹에서 무언가를 명확하게 찾는 다는것이 쉬운 문제가 아님을 알 수 있습니다. 우리가 '배' 라는 것을 검색 했을 때, 먹는 '배' 인지, 신체의 '배' 인지, 바다의 '배' 인지 구별하기 힘든것처럼 말이죠. 하지만 '배' 와 '사과'를 검색하면 명확하게 먹는 '배'에 대한 내용을 유추 할 수 있습니다. 사람이라면 직관을 이용할 수 있지만, 컴퓨터는 어떻게 이 두 단어를 보고 명확한 결과를 도출해 낼 수 있을까요?


이러한 질문, 토론, 연구에 의해 정보화 사회에서 지식화 사회로 변화되고 있으며 이 중심에 데이터 분석은 필수적인 요소가 되었습니다. 컴퓨터 분야의 분석은 얼마나 빠르게, 얼마나 정확하게 분석을 할 수 있는지가 중요합니다. 본 데이터 마이닝 포스팅을 통해 어떻게 빠르고 정확하게 우리의 '배'를 찾을 수 있는지 살펴보도록 하겠습니다.


앞으로 진행 될 목차는 다음과 같습니다. (책과 동일)


[데이터 마이닝 기초]

01. Association Rules and Sequential Patterns

02. Supervised Learning

03. Unsupervised Learning

04. Partially Supervised Learning


[웹 데이터 마이닝]

05. Information Retrieval and Web Search

06. Link Analysis

07. Web Crawling

08. Structured Data Extraction

09. Information Integration

10. Opinion Mining

11. Web Mining Usage

댓글
댓글쓰기 폼