구글 서치 콘솔(구 웹마스터도구)에서 페이지 색인 생성 문제 감지 오류

워드프레스나 티스토리 사이트를 구글 서치 콘솔(구 “웹마스터도구”)에 등록하면 수시로 구글에서 “새로운 페이지 색인 생성 문제가 감지”되었다는 이메일을 받게 될 것입니다. 색생 성생 문제 감지 오류가 발생하는 경우 해당 문제를 확인하여 실제로 문제가 있다면 문제를 수정하도록 합니다.

그러나 많은 경우 색인 생성이 되지 않아야 할 URL과 관련될 수 있으므로 무시해도 됩니다. 다음 글을 참고하여 해당 색인 생성 문제가 해결되어야 하는 문제인지 확인하시기 바랍니다.

구글 서치 콘솔(구 웹마스터도구)에서 페이지 색인 생성 문제 감지 오류

최근 들어 Soft 404 문제로 인해 페이지 색인 생성 문제가 감지되었다는 메일을 받은 적이 있습니다.

구글 서치 콘솔: 페이지 색인 생성 문제가 감지됨 오류

이런 메일을 받으면 이메일에서 “페이지 색인 생성 문제 해결하기” 버튼을 클릭하여 상세 정보를 확인할 수 있습니다.

구글 서치 콘솔 Soft 404 에러

위와 비슷한 화면이 표시되면 URL 섹션에서 문제가 되는 URL을 확인할 수 있습니다.

먼저는 해당 URL이 실제로 색인이 되어야 하는지 여부를 판단하도록 합니다. 위의 그림에서는 http://example.kr/blog/674/에서 Soft 404 에러가 발생하는 것으로 나오는데요. 사실 이 URL은 없는 URL이고 색인이 되어서는 안 됩니다. (실제로 없는 URL이기 때문에 404 에러가 발생하는 것으로 정상적인 상태입니다.)

URL 위에 마우스를 올린 다음, 두 번째 아이콘(새 창에서 열기)을 클릭하면 해당 URL이 새 창에서 열립니다. 만약 이 URL이 색인이 되어야 한다면 세 번째 아이콘(돋보기 모양)을 클릭하여 URL 검사를 할 수 있습니다.

구글 설치 콘솔 URL 검사

“URL이 Google에 등록되어 있지 않음” 상태인 것으로 나오는 경우 색인 생성 요청을 눌러 색인 생성 요청을 할 수 있습니다.

참고로 해당 URL이 정상적인 URL로 보이더라도 다음과 같은 경우에는 색인이 안 되는 것이 정상입니다.

  • SSL 인증서가 설치되어 있는 상태에서 http://example.com/1234/와 같이 http로 된 주소. 이런 주소는 https 주소로 리디렉션되어야 합니다. (자동으로 리디렉션이 되지 않는 경우에는 리디렉션되도록 설정하도록 합니다.)
  • 정상적인 주소로 보이더라도 https://example.com/1234와 같이 끝에 슬래시(/)가 없는 경우에도 보통 무시하면 됩니다. 이런 주소는 https://example.com/1234/와 같이 슬래시가 있는 URL로 리디렉션되므로 색인이 되지 않습니다.

참고로 Rank Math 등 SEO 플러그인이나 404 모니터링 플러그인을 사용하여 404 에러를 모니터링하여 리디렉션을 설정하는 것이 가능합니다. 이를 통해 SEO를 개선할 수 있습니다.

또한, 404 페이지 없음 오류가 발생하는 URL을 구글 서치 콘솔에서 삭제 요청을 할 수 있습니다.

구글 서치 콘솔: 색인이 생성되지 않는 페이지

구글 설치 콘솔의 색인생성 » 페이지에서 색인이 생성되지 않은 페이지들을 확인할 수 있습니다.

색인이 생성되지 않는 페이지

이 사이트의 경우 10만 개가 넘는 페이지가 색인이 생성되지 않은 페이지로 표시되고 있습니다.

아래로 스크롤하면 “페이지 색인이 생성되지 않는 이유” 섹션에서 페이지 색인이 생성되지 않은 이유와 해당 페이지 개수를 확인할 수 있습니다.

페이지 색인이 생성되지 않는 이유

제 워드프레스 블로그에서는 다양한 이유로 많은 페이지가 색인이 생성되지 않은 것으로 나와 있습니다.

하나씩 살펴보면 대부분의 URL들이 색인이 생성되지 않는 이유가 있습니다.

리디렉션이 포함된 페이지

리디렉션이 포함된 페이지를 클릭해보면 문제가 되는 URL들이 나열됩니다.

리디렉션이 포함된 페이지

저는 몇 가지 이유 때문에 리디렉션이 포함된 페이지 개수가 많은 편입니다.

  • 다국어 사이트로 구성했다가 중도에 제거
  • SSL 인증서 적용
  • 일부 글의 카테고리 변경
  • AMP를 적용했다가 제거

구체적인 예시를 들어 보면,

  1. ①번 URL은 처음 이 블로그가 다국어로 구성되면서 한국어 콘텐츠의 URL이 /ko/카테고리_이름/글제목/ 형식이었습니다. 이후에 다국어 구성을 제거하면서 URL에서 /ko/를 제거하고 리디렉션을 설정했습니다.
  2. 고유주소를 “일반”으로 설정하면 포스트 URL이 http://www.thewordcrakcker.com/?p=1234 형식으로 표시됩니다. 고유주소를 다른 옵션으로 설정할 경우 기본 URL로 접속 시 실제 URL로 리디렉션됩니다.
  3. ③번 URL의 경우 끝에 트레일링 슬래시(Trailing Slash)가 누락되었습니다. 이런 URL은 트레일링 슬래시가 있는 URL로 리디렉션됩니다.
  4. AMP 제거 후에 리디렉션을 설정했습니다.
  5. 일부 글은 카테고리가 변경되었습니다. 예를 들어, https://www.thewordcracker.com/basic/hide-wordpress-login-page/에 접속하면 https://www.thewordcracker.com/intermediate/hide-wordpress-login-page/로 리디렉션됩니다.

참고로 URL 끝에 붙는 슬래시를 “트레일링 슬래시”라고 합니다.

  • URL 끝에 슬래시(‘/’)가 붙은 것은 해당 URL 리소스가 디렉터리임을 의미합니다.
  • URL 끝에 슬래시(‘/’)가 없는 경우 해당 리소스가 파일(file)임을 의미합니다.

URL 끝에 슬래시가 없으면 먼저 파일을 찾고, 파일이 없다면 디렉터리를 찾는다고 합니다. 포스트 URL에 트레일링 슬래시가 없으면 슬래시가 붙으면서 정상적인 URL로 접속이 됩니다. 이 경우 리디렉션이 발생하면서 (슬래시가 있는 URL에 접속하는 것에 비해) 약간의 딜레이가 있습니다.

적절한 표준 태그가 포함된 대체 페이지

이 블로그에서는 “적절한 표준 태그가 포함된 대체 페이지”를 이유로 색인이 되지 않는 페이지가 24,000개가 넘습니다.

적절한 표준 태그가 포함된 대체 페이지

세부적인 URL들을 살펴보면 모두 색인이 되어서는 안 되는 항목들이므로 무시해도 될 것 같습니다.

/?s=는 워드프레스에서 검색 실행 시 붙는 파라미터입니다. 예: https://www.thewordcracker.com/?s=워드프레스

사용자가 선택한 표준이 없는 중복 페이지

이 사이트에는 “사용자가 선택한 표준이 없는 중복 페이지”에 해당하는 페이지가 1만 개 이상입니다.

사용자가 선택한 표준이 없는 중복 페이지

사실 이 글을 작성한 이유가 이 부분에 대하여 다루고 싶었기 때문입니다. 이 분류에 해당하는 URL들은 대부분 끝에 /feed/가 붙습니다.

이 워드프레스 사이트에서 GeneratePress 테마로 변경한 후에 이런 문제가 있는 것 같아서 처음에는 테마와 관련된 문제인 것이 아닌가 의심이 되었습니다. 하지만 조금 더 살펴보니 이 문제는 특정 테마와 관련된 문제가 아니고 워드프레스 자체의 기능이라고 합니다.

/feed is the RSS feed of your site, and this is automatically generated by WordPress. This can be also generated/modified through SEO plugins.

/feed는 사이트의 RSS 피드이고, 워드프레스에서 자동으로 생성되며 SEO 플러그인을 통해 생성/수정이 가능하다고 합니다.

Yoast SEO 플러그인에서는 모든 피드 URL에 “noindex” 태그를 자동으로 추가한다고 하네요.

The Yoast plugin automatically adds a “noindex” tag to all feed URLs, since they don’t provide useful content to your site and should not be in the search index. These type of URLs are not added to the sitemap by the plugin either. However, it’s normal that they are excluded from the index and should not be a cause for concern.
RSS feeds are automatically generated by WordPress. WordPress creates feeds for almost all items on a site, including posts, comments, etc…

RSS 피드는 워드프레스에 의해 자동으로 생성되며 워드프레스에서는 포스트, 댓글 등 사이트의 거의 모든 항목에 대하여 피드를 생성한다고 합니다.

그러므로 URL 끝에 “/feed”가 붙는 문제로 인한 “사용자가 선택한 표준이 없는 중복 페이지” 문제는 무시해도 될 것 같습니다.

‘NOINDEX’ 태그에 의해 제외되었습니다.

워드프레스에서는 SEO 플러그인을 사용하여 특정 항목들에 noindex 메타 태그를 추가할 수 있습니다.

‘NOINDEX’ 태그에 의해 제외되었습니다.

검색 결과 페이지(/?s=검색어)는 동적으로 생성되는 페이지이기 때문에 noindex가 지정되어야 합니다.

참고로 robots.txt 파일을 통해 관리자 페이지 등 특정 디렉터리 내의 URL들이 크롤링되지 않도록 지정하는 것이 가능합니다(아래 “robots.txt에 의해 차단됨” 섹션 참조). 예시:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html

위와 같이 설정될 경우 /wp-admin/으로 된 URL은 모두 색인 생성에서 제외됩니다.

❤참고로 티스토리의 경우 robots.txt 파일에 접근할 수 없으므로 무시하시면 됩니다.

또한, Yoast SEO나 Rank Math SEO 등 SEO 플러그인에서 세부적으로 noindex 메타 태그를 지정할 수 있습니다.

색인이 되어야 할 항목이 robots.txt 파일이나 SEO 플러그인에 의해 noindex가 지정되었다면 확인하여 noindex를 해제해야 합니다.

상기 그림에서 /embed/가 끝에 붙는 URL은 포스트를 페이스북, 트위터, 네이버 블로그, 네이버 카페, 카톡 등에 공유할 때 임베드되는 페이지인 것 같습니다. 이 블로그의 임베드 URL에는 noindex 메타태그가 추가되어 있습니다.

임베드 페이지에 대한 색인 여부는 정확히 어디에서 제어되는지 모르겠습니다. Duplicate URL with “/embed/” at the end? 글을 보면 SEO 플러그인에 의해 제어될 것 같다고 하네요.

카테고리, 태그 등 아카이브 페이지가 색인되지 않도록 설정하는 방법

Rank Math나 Yoast SEO와 같은 SEO 플러그인을 사용하면 카테고리 페이지나 태그 페이지 등 특정 아카이브 페이지가 색인되거나 색인되지 않도록 설정할 수 있습니다.

카테고리, 태그 등 아카이브 페이지가 색인되지 않도록 설정하는 방법
Rank Math에서 카테고리 아카이브 로봇 메타 설정.

카테고리 페이지의 경우 Rank Math 검색엔진 최적화 » 제목 및 메타 » Post » 카테고리에서 카테고리 아카이브 로봇 메타 옵션을 활성화한 다음, index, noindex, nofollow 등의 로봇 메타를 지정할 수 있습니다. 태그 페이지도 동일하게 가능합니다.

보통은 색인(index)을 선택하여 색인되도록 하는 것이 좋습니다. 원하는 경우 “인덱스 없음”(noindex)와 “No follow”를 체크하여 색인이 되지 않도록 할 수 있습니다.

카테고리와 태그에 대해서는 다음 글을 참고해보세요.

Soft 404

삭제된 페이지나 포스트에 접근하려고 시도하면 404 에러가 발생합니다.

Soft 404 구글 서치 콘솔 오류

이 블로그에서 bbPress 플러그인을 사용하여 포럼 게시판을 만들었다가 삭제한 적이 있습니다. 이 때문에 아직도 일부 포럼 항목들이 구글 검색 결과에 노출되는 것 같습니다.

구글 서치 콘솔에서 해당 URL들을 제거하도록 요청할 수 있습니다.

robots.txt에 의해 차단됨

robots.txt에 의해 차단됨

robots.txt 파일을 사용하여 해당 사이트에서 크롤러가 접근(액세스)할 수 있는 파일들을 제어할 수 있습니다.

워드프레스에서는 기본적으로 다음과 같이 robots.txt 파일이 동적으로 자동 생성되어 적용됩니다.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/wp-sitemap.xml

SEO 플러그인을 사용하여 robots.txt 파일을 생성하여 편집하거나 직접 FTP를 통해 robots.txt 파일을 업로드할 수 있습니다.

“robots.txt에 의해 차단됨” 섹션에서 색인되어야 하는 URL이 robots.txt에 의해 차단된 경우 robots.txt의 규칙을 수정하도록 합니다.

※ 티스토리의 경우 robots.txt 파일에 접근/편집할 수 없고 다음과 같은 robots.txt 파일이 모든 티스토리 블로그에 적용됩니다.

User-agent: *
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /owner
Disallow: /admin
Disallow: /search
Disallow: /m/search

User-agent: bingbot
Crawl-delay: 20

티스토리 블로그를 운영하는 경우 위의 robots.txt 규칙에서 크롤링을 제한하는 URL들이 “robots.txt에 의해 차단됨” 섹션에 표시될 것입니다. 티스토리에서는 robots.txt 파일을 수정할 수 있는 방법이 없으므로 이 오류는 무시하시기 바랍니다.

워드크래커는 워드프레스 정보꾸러미 블로그와 워드프레스를 사용하는 사람들(네이버 카페)을 운영하고 있습니다.

0 0 votes
Article Rating
Subscribe
Notify of
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments