로봇 배제 표준

로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.

이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.^[1]

예

만약 모든 로봇에게 문서 접근을 허락하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Allow: /

모든 로봇을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /

모든 로봇에 세 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

모든 로봇에 특정 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: *
Disallow: /directory/file.html

BadBot 로봇에 모든 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: BadBot
Disallow: /

BadBot 과 Googlebot 로봇에 특정 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.

User-agent: BadBot
User-agent: Googlebot
Disallow: /private/

다양하게 조합하여 사용할 수 있다.

User-agent: googlebot        # googlebot 로봇만 적용
Disallow: /private/          # 이 디렉토리를 접근 차단한다.

User-agent: googlebot-news   # googlebot-news 로봇만 적용
Disallow: /                  # 모든 디렉토리를 접근 차단한다.

User-agent: *                # 모든 로봇 적용
Disallow: /something/        # 이 디렉토리를 접근 차단한다.

대안

HTML의 meta 태그를 이용할 수도 있다. <syntaxhighlight lang="html4strict"> <meta name="Robots" content="Noindex,Nofollow" />

하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다.

같이 보기

각주

↑ [1]

외부 링크

(한국어) w3seo robots.txt - Example,maker
(한국어) www.robotstxt.org - The Web Robots Pages

[1] [1]

[1]

v t e 검색 엔진 최적화
배제 표준	로봇 배제 표준 메타 엘리먼트 nofollow
마케팅 주제	온라인 광고 이메일 마케팅 디스플레이 광고 웹 분석
검색 마케팅	검색 엔진 마케팅 소셜 미디어 최적화 온라인 아이덴티티 관리 Paid inclusion 클릭당 지불 구글 폭탄
검색 엔진 스팸	스팩덱싱 웹 스크래핑 스크래퍼 사이트 링크 팜 링크 빌딩
링크	백링크 링크 빌딩 링크 익스체인지 오개닉 링크
인물	대니 설리반 맷 커츠 버네사 폭스 배리 슈워츠
기타	지리적 타깃화 인간 검색 엔진 스톱 워즈 포이즌 워즈 콘텐트 팜