SEO 규칙
엔진 사양
SEO 요소
웹사이트 콘텐츠
Robots.txt는 웹사이트의 루트 디렉토리에 배치되는 텍스트 파일로, 검색 엔진이 어떤 페이지를 크롤링할 수 있고 어떤 페이지는 크롤링할 수 없는지를 알려줍니다. 구글 봇의 크롤링 동작을 효과적으로 제어하고, 크롤링 및 색인화 과정을 최적화하며, 웹사이트 개인정보 보호와 보안을 보호하고, 웹사이트 전체 SEO 성능을 향상시킬 수 있습니다. robots.txt 파일을 적절하게 구성하는 것은 웹사이트의 구글 검색 결과에서 순위와 성능을 향상시키는 데 매우 중요합니다.
SEO에서의 중요성:
크롤링 제어: robots.txt 파일을 통해 웹사이트 관리자는 검색 엔진 스파이더가 웹사이트의 어느 부분을 크롤링할 수 있는지 제어할 수 있습니다. 이를 통해 불필요한 페이지 크롤링을 피하고 크롤링 예산을 절약할 수 있습니다.
민감한 정보 보호: 검색 엔진이 민감한 정보나 공개를 원하지 않는 페이지(예: 관리자 패널, 사용자 개인정보 등)를 크롤링하고 색인화하는 것을 방지할 수 있습니다.
웹사이트 성능 향상: 동적으로 생성된 페이지나 중복 콘텐츠를 크롤링하지 않도록 하여 서버 부하를 줄이고, 웹사이트 성능과 사용자 경험을 향상시킬 수 있습니다.
크롤링 빈도 최적화: robots.txt 파일을 통해 검색 엔진이 중요한 페이지를 더 자주 크롤링하도록 유도하여, 이러한 페이지의 색인화와 순위를 향상시킬 수 있습니다.
웹사이트 구조 표준화: 검색 엔진이 웹사이트 구조를 이해하도록 도와주고, 웹사이트의 색인화 효율성과 정확성을 향상시킵니다.
Robots.txt 파일의 기본 형식
User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: http://www.example.com/sitemap.xml
User-agent: 검색 엔진 스파이더를 지정하며, *는 모든 검색 엔진을 의미합니다.
Disallow: 크롤링이 허용되지 않는 경로를 지정합니다.
Allow: 크롤링이 허용되는 경로를 지정합니다(일반적으로 특정 상황에서 disallow 규칙을 덮어쓰기 위해 사용됨).
Sitemap: 사이트맵의 URL을 지정하여 검색 엔진이 웹사이트 콘텐츠를 더 잘 색인화할 수 있도록 도와줍니다.
상세 사양:
1. robots.txt 파일은 웹사이트의 루트 디렉토리에 위치해야 합니다;
2. 파일은 하나 이상의 규칙으로 구성됩니다. 각 규칙은 모든 또는 특정 크롤러를 금지하거나 허용할 수 있습니다;
3. 명시적으로 금지하지 않은 경우, 기본적으로 모든 파일은 크롤링이 가능합니다
예시:
User-agent: *
Disallow: /*/coming-soon
Disallow: /admin
Disallow: /account
Disallow: /cart
참조 웹사이트:
구글 공식 설명:
1. robots.txt 파일의 용도는 무엇입니까?
robots.txt 파일은 주로 웹사이트로 향하는 크롤러 트래픽을 관리하는 데 사용되며, 일반적으로 Google이 특정 파일에 접근하는 것을 차단하는 데 사용됩니다(파일 유형에 따라 다름):
(1) 웹 페이지: 웹 페이지(HTML, PDF, 또는 Google이 읽을 수 있는 기타 미디어가 아닌 형식 포함)의 경우 다음 상황에서 robots.txt 파일을 사용하여 크롤링 트래픽을 관리할 수 있습니다: Google 봇의 요청이 서버에 과부하를 줄 수 있다고 생각되는 경우; 또는 Google이 웹사이트의 중요하지 않거나 유사한 웹 페이지를 크롤링하지 않기를 원하는 경우.
Google이 웹 페이지를 크롤링하지 못하도록 robots.txt 파일을 사용하는 경우 해당 URL은 여전히 검색 결과에 나타날 수 있지만, 검색 결과에는 해당 페이지에 대한 설명이 포함되지 않습니다. 또한, 차단된 웹 페이지에 포함된 이미지 파일, 비디오 파일, PDF 파일 및 기타 비HTML 파일은 이러한 파일을 참조하는 다른 허용된 페이지가 없는 한 크롤링 대상에서 제외됩니다. 이와 같은 웹 페이지에 해당하는 검색 결과를 발견하고 수정하려면, 해당 페이지를 차단하는 robots.txt 항목을 제거하십시오. Google 검색 결과에서 해당 페이지를 완전히 숨기고 싶은 경우, 다른 방법을 사용하십시오.
경고: 자신의 웹 페이지(PDF 및 Google이 지원하는 기타 텍스트 기반 형식 포함)가 Google 검색 결과에 나타나지 않기를 원하는 경우, 페이지를 숨기는 방법으로 robots.txt 파일을 사용하지 마십시오. 다른 웹 페이지가 설명 텍스트를 사용하여 귀하의 웹 페이지를 가리키는 경우, Google은 귀하의 웹 페이지를 방문하지 않고도 해당 URL을 인덱싱할 수 있습니다. 검색 결과에서 자신의 웹 페이지를 차단하려면, 비밀번호 보호 또는 noindex와 같은 다른 방법을 사용하십시오.
(2) 미디어 파일: robots.txt 파일을 사용하여 크롤링 트래픽을 관리하고 이미지, 비디오, 오디오 파일이 Google 검색 결과에 나타나지 않도록 차단할 수 있습니다. 이는 다른 웹 페이지나 사용자가 귀하의 이미지/비디오/오디오 파일에 링크하는 것을 막지는 않습니다.
(3) 로딩 시 중요하지 않은 이미지, 스크립트 또는 스타일 시트와 같은 리소스를 건너뛰는 것이 페이지에 큰 영향을 미치지 않는다고 판단되는 경우, robots.txt 파일을 사용하여 이러한 리소스를 차단할 수 있습니다. 그러나 이러한 리소스가 누락되면 Google 봇이 웹 페이지를 해석하기 어려워지는 경우, 이러한 리소스를 차단하지 마십시오. 그렇지 않으면 Google이 이러한 리소스에 의존하는 웹 페이지를 효과적으로 분석할 수 없게 됩니다.
2. robots.txt 파일의 제한 사항
robots.txt 파일을 만들거나 수정하기 전에, 이러한 URL 차단 방법의 제한 사항을 이해해야 합니다. 목표와 구체적인 상황에 따라, 웹에서 검색 엔진이 귀하의 URL을 찾지 못하도록 보장하기 위해 다른 메커니즘을 고려해야 할 수도 있습니다.
(1) 모든 검색 엔진이 robots.txt 규칙을 지원하는 것은 아닙니다.
robots.txt 파일의 명령어는 크롤러 동작을 강제로 규제할 수 없습니다; 이러한 명령어를 따를지는 크롤러가 결정합니다. Googlebot 및 기타 정당한 웹 크롤러는 robots.txt 파일의 명령어를 따르지만, 다른 크롤러는 따르지 않을 수 있습니다. 따라서 특정 정보가 웹 크롤러에 의해 크롤링되지 않도록 하려면, 서버의 개인정보 파일에 비밀번호를 설정하는 등의 다른 차단 방법을 사용하는 것이 좋습니다.
(2) 서로 다른 크롤러는 구문을 다르게 해석할 수 있습니다.
정당한 웹 크롤러는 robots.txt 파일의 규칙을 따르지만, 각 크롤러는 이러한 규칙을 다르게 해석할 수 있습니다. 서로 다른 웹 크롤러에 적용되는 올바른 구문을 잘 알아야 하며, 일부 크롤러는 특정 명령어를 이해하지 못할 수 있습니다.
(3) 다른 웹사이트에 robots.txt 파일로 차단된 페이지를 가리키는 링크가 있는 경우, 해당 페이지는 여전히 인덱싱될 수 있습니다.
Google은 robots.txt 파일로 차단된 콘텐츠를 크롤링하거나 인덱싱하지 않지만, 웹의 다른 위치에 금지된 URL을 가리키는 링크가 있는 경우, Google은 여전히 해당 URL을 찾아 인덱싱할 수 있습니다. 따라서 관련 URL 및 기타 공개적으로 표시되는 정보(관련 페이지 링크의 앵커 텍스트 등)는 여전히 Google 검색 결과에 나타날 수 있습니다. Google 검색 결과에 귀하의 URL이 나타나지 않도록 올바르게 차단하려면, 서버의 파일에 비밀번호를 설정하거나, noindex 메타 태그 또는 응답 헤더를 사용하거나, 웹페이지를 완전히 제거해야 합니다.
3. 유용한 robots.txt 규칙



