본문 바로가기

전체 글105

R 프로그래밍[4] - 지도 시각화, 단계 구분도 이번 포스팅에서는 RStudio를 이용하여 지역별 통계 분포를 지도 시각화로 표현하는 방법을 알아보겠습니다. 지역별 통계치를 지도 상에 색상으로 구분하여 표현한 지도를 '단계 구분도(Choropleth Map)'라고 합니다. 단계 구분도를 통해 통계상 유의미한 특성을 지역별로 구별할 수 있는 지도로 표현할 수 있습니다. 단계 구분도는 ggiraphExtra 패키지를 이용하여 만들 수 있습니다. 여기에서는 R에 내장된 USArrests 데이터를 이용해 지도 시각화를 살펴보도록 하겠습니다. RStudio에서 아래와 같이 패키지를 설치하고 라이브러리를 로드해 줍니다. ggiraphExtra 패키지를 사용하기 위해 필요한 "mapproj"패키지를 먼저 설치해 줍니다. 우리가 사용할 USArests 데이터는 19.. 2020. 6. 1.
R 프로그래밍[3] - wordcloud2 패키지 사용하기 지난 'R 프로그래밍[2] - 텍스트 마이닝' 편에서는 KoNLP패키지와 wordcloud패키지 등 몇 가지 패키지들을 이용해서 청와대 국민청원 게시판의 최근 청원글에 올라온 국민들의 애로사항을 텍스트 마이닝 기법으로 시각화해 보았습니다. 이번 포스팅에서는 'wordcloud2' 패키지를 이용하여 다양한 형태로 텍스트 마이닝을 시도해 보겠습니다. RStudio 기본 패키지 설치 및 라이브러리 로딩은 지난 'R 프로그래밍[2] - 텍스트 마이닝' 편에서 설치한 환경에 이어서진행하기 때문에 'wordcloud2' 패키지 설치 및 사용을 위해서는 이전 포스팅을 참조하여 환경을 구성해 주어야 합니다. 먼저 아래와 같이 'wordcloud2' 패키지를 설치해 주겠습니다. devtools::install_githu.. 2020. 5. 31.
알고리즘이란? 이번 포스팅에서는 알고리즘(algorithm)에 대해 알아보겠습니다. 일상생활에서도 간혹 알고리즘이란 용어를 사용할 때가 있습니다. 보통 문제 해결을 위한 방법론 또는 문제를 풀 수 있는 레시피 정도로 사용되곤 합니다. 레시피가 식재료를 사용해서 음식을 조리하는 일련의 절차, 과정을 나타내는 것처럼, 알고리즘은 주어진 문제를 해결하기 위한 일련의 처리 과정을 나타내는 것입니다. 예를 들어서 스마트폰에 '한붓그리기' 게임을 해보신 적이 있을 것입니다. 뭐 그냥 게임이니까 각 점을 순차적으로 이어나가다가 막히면 다시 도전하곤 했지요. 하지만 이 게임에는 수학자 오일러(Euler) 경로를 찾는 문제로 각 정점의 차수(각 점에 연결된 선의 개수)가 홀수인 점이 없거나 두 개인 모형에서 홀수 점에서 시작해야 한붓.. 2020. 5. 30.
데이터베이스 구성 요소와 스키마 개념 정리(외부스키마, 개념스키마, 내부스키마) 이번 포스팅에서는 데이터 베이스의 구성요소와 스키마에 대해 알아보겠습니다. 데이터베이스를 각 요소로 분해해서 각 요소의 이름과 특징들을 먼저 살펴보도록 하겠습니다. 아래의 그림은 일반적인 데이터베이스 테이블인데 테이블을 요소로 구분하여 쉽게 이해할 수 있도록 구조화하였습니다. 속성(Attribute)은 데이터베이스를 구축하는 가장 작은 논리적 단위로 파일 시스템의 필드 개념에 해당합니다. 자체만으로는 정보를 표현할 수 없고 정보를 표현하는 단위인 개체나 관계의 특성을 설명하는 도구의 의미로 사용됩니다. 개체(Entity)는 정보를 나타내는 논리적 단위로서 파일 시스템의 레코드에 해당하며 튜플이라고 부르기도 합니다. 개체는 하나 이상의 속성을 조합하여 구성되며 개체 단독으로도 존재할 수 있고 모든 개체는 .. 2020. 5. 29.