[SEO 검색엔진최적화] robots.txt 설정
검색엔진의 수집 로봇(검색엔진 크롤러)를 위한 robots.txt 파일은 웹 표준의 하나로, 모든 웹 사이트 루트 폴더에 위치해야 한다. 이 파일은 검색엔진 로봇에 웹사이트의 사이트맵 위치, 접근 가능 파일과 가능하지 않은 파일 등의 정보를 알려준다.
이를 통해 관리자가 직접 수집이 되길 원하는 사이트와 그렇지 않은 사이트를 구분지을 수 있고 검색 엔진이 웹 사이트를 더 빠르고 효율적으로 수집할 수 있도록 도와준다.
robots.txt 작성법
- html이 아닌 일반 txt 파일로 작성한다.
- 사이트의 루트 디렉토리에 위치해야 한다.
- 도메인 주소에 /robots.txt를 입력하면 확인할 수 있다.
- 검색엔진 로봇명: 구글 Googlebot, 네이버 Yeti, 빙 Bingbot, 야후 Slurp
1) 모든 웹사이트 콘텐츠에 대한 모든 웹 크롤러의 접근 차단
User-agent: *
Disallow: /
2) 웹사이트의 모든 콘텐츠에 빙 검색 로봇의 크롤링을 허용하되 /hello/ 디렉토리 안 페이지에 대한 접근만 차단
User-agent: Bingbot
Disallow: /hello/
3) 웹사이트 내 모든 페이지에 모든 크롤러의 접근 허용
User-agent: *
Allow: /
4) 특정 서브 폴더에 특정 크롤러의 접근 불허
User-agent: 'user-agent name'
Disallow: / example-subfolder/
5) 복수의 웹 사이트 서브 폴더에 모든 크롤러의 접근 불허
User-agent: *
Disallow: / example-subfolder1/
Disallow: / example-subfolder2/
Disallow: / example-subfolder3/
6) 특정 페이지에 특정 크롤러의 접근 불허
User-agent: 'user-agent name'
Disallow: /example-subfolder1/example-blocked-page
7)사이트맵 위치 포함
User-agent:*
Disallow:/wp-admin/
Allow:/wp-admin/admin-ajax.php
Sitemap: http://www.naver.com/sitemap_index.xml
참고
https://www.ascentkorea.com/what-is-robots-txt-sitemap-xml/
Robots.txt와 Sitemap.xml 제대로 설정하기 - 어센트 코리아
웹사이트 방문자가 URL에 접속해서 읽은 정보들을 자신의 기존 지식 체계 안에서 저장하는 것 처럼 검색 크롤러도 웹페이지의 콘텐츠를 카피해서 검색엔진으로 이동시키고 이를 주제별로 색인
www.ascentkorea.com