본문 바로가기
my_lesson/_Linux

Linux 웹데이터 추출하기 LibreOffice GoogleSheet Excel

by boolean 2018. 10. 3.
728x90

Linux 웹데이터 추출하기 Libreoffice_Calc  Googlesheet Excel

libreOffice Calc 로 웹데이터 추출하기

크롬에서 F12를 누르고 추출하고자 하는 엘리먼트를 추적해서 자세한 주소를 알아낸다

녹색 사각형위에 마우스 우클릭하여서 copy link address를 한후

URL fo External Data Source 부분에 입력하고 Enter 하면 위와같은 팝업창이 열리는데 기본 (Automatic)을 선택한 체로 OK하면 된다. 그렇게 하고 나면

위와 같은 내용이 Abailable Tables/Ranges에 나타나는데 보통 HTML1을 선택하면 된다. 나타나는 것들을 다 선택해보아도 원하는 결과가 안나타날 경우 세부 주소가 잘못 선택된것이니 해당 Element선택부터 다시 하길 바란다.

GoogleSheet 로 웹데이터 추출하기



위 그림과 같이 경로를 따라가서 함수를 실행시키고 아래 함수식을 입력하면 된다.

링크 주소 추출방법은 LivreOffice 와 같다

=IMPORTHTML("https://finance.naver.com/marketindex/exchangeList.nhn", "table",1)

첫번째 인자는 링크 주소를 입력한다.

두번째 인자는 추출하고 싶은 엘리먼트가 table이면 table을 list이면 list를 입력한다.

세번째 인자는 엘리먼트의 순서이다 추출하고 싶은 요소가 몇번째인이 입력하면 된다 보통 1을 입력한다.


Excel 로 웹데이터 추출하기

Excel은 좀 간단한 편이 있다. 그러나 다양한조건 구현이 힘들다.


먼저 주소를 상세하게 확인 하지 안아도 해당 엘리먼트가 보이는 웹 주소만 입력해도 노란 화살표가 나타난다면  추출 가능하다 만일 노란 화살표가 안보인다면 F12를 해서 해당 Element의 세부주소를 확인하면 된다.


추출한 웹데이터 분석 가능하게 저장하기

LibreOffice  GoogleSheet Excel 세가지 다 다른이름으로 저장(Save as ...)에서 csv(comma-saperated value)로 저장하면 된다.


댓글