IT

[SEO 검색엔진최적화] robots.txt 설정

breeghty 2023. 3. 6. 11:21

검색엔진의 수집 로봇(검색엔진 크롤러)를 위한 robots.txt 파일은 웹 표준의 하나로, 모든 웹 사이트 루트 폴더에 위치해야 한다. 이 파일은 검색엔진 로봇에 웹사이트의 사이트맵 위치, 접근 가능 파일과 가능하지 않은 파일 등의 정보를 알려준다.

이를 통해 관리자가 직접 수집이 되길 원하는 사이트와 그렇지 않은 사이트를 구분지을 수 있고 검색 엔진이 웹 사이트를 더 빠르고 효율적으로 수집할 수 있도록 도와준다.

 

robots.txt 작성법

  • html이 아닌 일반 txt 파일로 작성한다.
  • 사이트의 루트 디렉토리에 위치해야 한다.
  • 도메인 주소에 /robots.txt를 입력하면 확인할 수 있다.
  • 검색엔진 로봇명: 구글 Googlebot, 네이버 Yeti, 빙 Bingbot, 야후  Slurp 

 

1) 모든 웹사이트 콘텐츠에 대한 모든 웹 크롤러의 접근 차단

User-agent: *

Disallow: /

 

 

2) 웹사이트의 모든 콘텐츠에 빙 검색 로봇의 크롤링을 허용하되 /hello/ 디렉토리 안 페이지에 대한 접근만 차단

User-agent: Bingbot

Disallow: /hello/

 

3) 웹사이트 내 모든 페이지에 모든 크롤러의 접근 허용

User-agent: *

Allow: /

 

4) 특정 서브 폴더에 특정 크롤러의 접근 불허

User-agent: 'user-agent name'

Disallow: / example-subfolder/

 

5) 복수의 웹 사이트 서브 폴더에 모든 크롤러의 접근 불허

User-agent: *

Disallow: / example-subfolder1/

Disallow: / example-subfolder2/

Disallow: / example-subfolder3/

 

6) 특정 페이지에 특정 크롤러의 접근 불허

User-agent: 'user-agent name'

Disallow: /example-subfolder1/example-blocked-page

 

7)사이트맵 위치 포함

User-agent:*

Disallow:/wp-admin/

Allow:/wp-admin/admin-ajax.php

Sitemap: http://www.naver.com/sitemap_index.xml

 


참고

https://www.ascentkorea.com/what-is-robots-txt-sitemap-xml/

 

Robots.txt와 Sitemap.xml 제대로 설정하기 - 어센트 코리아

웹사이트 방문자가 URL에 접속해서 읽은 정보들을 자신의 기존 지식 체계 안에서 저장하는 것 처럼 검색 크롤러도 웹페이지의 콘텐츠를 카피해서 검색엔진으로 이동시키고 이를 주제별로 색인

www.ascentkorea.com