Index Coverage (Page Indexing) گزارشی در سرچ کنسول است که وضعیت crawl و ایندکس شدن آدرسهایی که گوگل در سایت پیدا کرده است را نشان میدهد.
این گزارش کمک میکند تا وضعیت ایندکس سایت را ببینیم و مشکلات فنی که باعث شده است تا صفحات مختلف به درستی crawl یا index نشوند را نشان میدهد.
بررسی دائمی این بخش برای متخصصین سئو الزامیست. چرا که در هر لحظه باید بدانند که کدام صفحاتشان به چه دلیلی ایندکس نشده است.
چگونه از گزارش Index Coverage (Page indexing) استفاده کنیم؟
همانطور که میدانید برای اینکه یک صفحه در نتایج گوگل به مخاطبین نمایش داده شود ۳ مرحله را طی میکند:
- Discover: ابتدا باید توسط رباتهای خزنده دیده شود.
- Crawl: بعد از مرحله قبل توسط این رباتها خزش میشود.
- Index: در مرحله نهایی اطلاعات در دیتابیسهای گوگل ذخیره میشود و به اصطلاح این صفحات ایندکس میشوند.
در صورتی که در هر یک از مراحل بالا مشکلی وجود داشته باشد، میتوانید از طریق گزارش Page Indexing یا Index Coverage گوگل سرچ کنسول متوجه آن بشوید.
برای مشاهده این گزارش پس از ورود به سرچ کنسول، از سمت چپ گزینه «Pages» را در بخش Index کلیک کنید.
در سمت راست میتوانید گزارش را مشاهده کنید. با کلیک روی هر کدام از موارد در نمودار، میتوانید اطلاعات هر کدام را مشاهده کنید:
معرفی گزینههای «All known pages»، «All submitted pages» و «Unsubmitted pages only»
در بخش بالا و سمت چپ یک drop down وجود دارد که به شما گزینههایی جهت انتخاب میدهد:
- گزینه «All known pages»: این گزینه به صورت پیش فرض انتخاب شده است. آدرس صفحاتی از سایت را نشان میدهد که گوگل به هر منظوری پیدا کرده است.
- گزینه «All submitted pages»: این مورد تمام آدرسهایی را نشان میدهد که در نقشه سایت (Sitemap) وجود دارد.
- گزینه «Unsubmitted pages only»: تمام آدرسهایی را نشان میدهد که در سایت مپ وجود ندارند و گوگل آنها را از طریق لینکهای مختلف یافته است.
توجه داشته باشید که بین وضعیت «All submitted pages» و «All known pages» باید تفاوت فاحشی وجود داشته باشد. گزینه «All known pages» به طور معمول شامل آدرسهای بیشتری است و اکثر آنها ایندکس نشدهاند و به عنوان Not indexed ثبت میشوند. این اتفاق به این دلیل است که أدرسهای سایت مپ باید فقط شامل آدرسهایی باشد که قابل index شدن هستند؛ و همانطور که میدانید وبسایتهای صفحاتی نیز دارند که نیاز به ایندکس شدن آنها نیست .
مثلا در بسیاری از وبسایتهای فروشگاه صفحات فیلترهای مختلف ایندکس نمیشوند؛ زیرا که تعدادشان بسیار بسیار زیاد است و ممکن است مشکلاتی را در مدیریت crawl budget ایجاد کنند. این صفحات ممکن است توسط رباتهای گوگل به هر روشی پیدا شوند، ولی نیازی نیست در نقشه سایت وجود داشته باشند. البته توجه کنید که ممکن است در برخی از وبسایتها نیاز باشد این صفحات ایندکس شوند.
تمام این موارد را به این دلیل گفتم که اگر وارد گزارش index coverage شدید بتوانید اطلاعاتی که مورد نظرتان است را پیدا کنید.
وضعیت URLها در گزارش Page Indexing
با توجه به توضیحات داده شده به سراغ هر کدام از بخشها میرویم و با هم انواع وضعیتها را بررسی میکنیم:
صفحات ایندکس شده (Indexed pages)
برای مشاهده صفحاتی از سایت که ایندکس شدهاند، زیر نمودار روی گزینه «View data about indexed pages» کلیک کنید.
در اینجا میتوانید تایملاینی از تعداد صفحات ایندکس شده سایت را مشاهده کنید. میتوانید ببینید در بازههای مختلف وضعیت صفحات ایندکس شده چگونه بوده است.
در زیر نمودار میتوانید لیست صفحات ایندکس شده را ببینید، اما به خاطر داشته باشید که ممکن است تمام این لینکها از این بخش قابل مشاهده نباشد زیرا:
- گزارش تنها ۱۰۰۰ URL را نمایش میدهد.
- یک URL جدید ممکن است بعد از آخرین خزش به لیست اضافه شود.
همچنین میتوانید با Inspect روی هر URL اطلاعات بیشتری به دست آورید. این کار با کلیک روی هر کدام از URLها اتفاق میافتد. پس از کلیک روی هر کدام، یک پنل در سمت راست ظاهر میشود.
صفحات ایندکس نشده (Not indexed pages)
برای دیدن جزئیات بیشتر درباره صفحات ایندکس نشده، زیر نمودار در گزارش Pages به بخش «why aren’t pages indexed?» مراجعه کنید:
در این بخش اطلاعات زیر قابل مشاهده است:
- دلیل ایندکس نشدن (Reason)
- منبع این دلیل (اینکه گوگل یا وبسایت باعث این مشکل شده است«Source»)
- تعداد صفحاتی که این مشکل برایشان پیش آمده است
همچنین میتوانید وضعیت validation را ببینید. در واقع پس از اینکه مشکل را رفع کردید، میتوانید از گوگل بخواهید تا به آدرس یا آدرسها مجدد مراجعه کند و تایید کند که مشکل رفع گردیده است.
برای این کار کافیست روی هر کدام کلیک کنید و در صفحه باز شده روی گزینه VALIDATE FIX بزنید.
وضعیت validation میتواند به حالت «fixed» تغییر کند. در غیر این صورت ممکن است با حالت «failed» یا «not started» روبرو شوید. برای رفع هر کدام از این موارد باید تصمیمگیری کنید.
همچنین در این بخش نموداری از روند وضعیت این گزینهها نمایش داده میشود. به وضوح میتوان دید که آیا روند صعودی، نزولی یا در حالتی تثبیت شده است.
بعد از کلیک روی هر کدام از گزینهها لیستی از آدرس صفحاتی که با این مشکل روبرو هستند نشان داده میشود. علاوه بر این میتوان مشاهده کرد که آخرین crawl هر URL چه زمانی رخ داده است؛ این اطلاعات ممکن است به دلیل تاخیرهای گوگل بهروز نباشد.
همانند مرحله قبل، یک چارت برای نمایش روند تغییرات این مشکل وجود دارد.
بخش «Improve page appearance»
با وجود اینکه برخی از صفحات ایندکس شدهاند، ممکن است مشکلاتی این صفحات و به طور کلی سلامت وبسایت را تهدید کند.
گوگل این آدرسها (URL) را در بخش جداگانهای در گزارش Page Indexing قرار میدهد. این بخش در پایین بخش Not indexed قرار دارد.
به عنوان مثال در تصویر زیر میتوانید مشاهده کنید که برخی از صفحات توسط robots.txt بلاک شدهاند اما با این وجود ایندکس شدند (Indexed though blocked by robots.txt):
در اینجا برخی از مواردی که هنگام مشاهده گزارشات این بخش مهم است به آن توجه کنید را میگویم:
- همیشه دقت کنید که در حال مشاهده کدام گزینه هستید: «all submitted pages» یا «all known pages». تفاوت این دو مورد با توجه به اینکه این آدرسها در سایت مپ است یا گوگل آنها را پیدا کرده است میتواند زیاد باشد.
- اطلاعات گزارش ممکن است با تاخیر بهروزرسانی شود. بنابراین زمانی که محتوای جدیدی منتشر میکنید چند روز فرصت دهید تا گوگل آن صفحه را crawl و ایندکس کند.
- گوگل ایمیلهایی جهت اطلاعرسانی مشکلات حاد ارسال میکند.
- هر چقدر که وبسایت بزرگتر میشود باید انتظار داشت که تعداد صفحات ایندکس زیادتر شود.
هر چند وقت باید به گزارش Page Indexing مراجعه کرد؟
برای اینکه متوجه شوید آیا صفحات وبسایت به درستی crawl و index میشوند باید به صورت مداوم به این گزارش مراجعه کرد. در حالت کلی حداقل یکبار در ماه به این گزارش سر بزنید.
اما اگر تغییراتی در وبسایت ایجاد میکنید باید به شکل مداوم به آن سر بزنید. مثلا اگر ساختار آدرسها را تغییر دادید حتما گزارش index coverage را بررسی کنید تا اثرات منفی روی وبسایت را کنترل کنید. بعد از این دوره حداقل یکبار در هفته به این گزارش مراجعه کنید و توجه ویژهای به وضعیت صفحات ایندکس نشده داشته باشید.
معرفی URL Inspection tool
پیش از اینکه وارد جزئیات هر یک از موارد گزارش Page indexing (Index Coverage) شویم، قصد دارم ابزار URL Inspection را معرفی کنم که اطلاعات خوبی درباره وضعیت crawl یا index صفحات ارائه میدهد.
ابزار URL Inspection جزئیات زیر را درباره هر آدرس ارائه میدهد:
- اینکه یک صفحه ایندکس شده است (The page is indexed)
- صفحه ایندکس شده ولی دارای مشکل است (مثلا مشکلاتی در structured data دارد) => The page is indexed but has issues
- صفحه ایندکس نشده است (The page isn’t indexed)
این ابزار در سرچ کنسول در یک نوار جستجو در بالای صفحه موجود است. کافیست یک آدرس از صفحات وبسایت را در این بخش قرار دهید و enter بزنید. سپس اطلاعات زیر نمایش داده میشود:
از URL Inspection tool برای موارد زیر استفاده میشود:
- وضعیت index آدرس وارد شده را نمایش میدهد؛ در صورتی که دچار مشکل باشد آن مشکل را بیان میکند.
- اینکه آدرس وارد شده آیا قابلیت ایندکس شدن را دارد نمایش میدهد.
- نسخه رندر شده (rendered version) آدرس را نمایش میدهد.
- اگر محتوای صفحه تغییر کرده باشد میتوان مجدد درخواست ایندکس داد.
- منابعی که در صفحه استفاده شده را نشان میدهد. مثلا جاوااسکریپت
- اگر در صفحه از structured data استفاده شده باشد میتوان وضعیت آن را در این بخش دید.
- همچنین وضعیت ریسپانسیو بودن و نسخه موبایل قابل مشاهده است.
بسیار پیش میآید که صفحات به دلیل مشکلات موبایل ایندکس نمیشوند.
اگر با هر مشکلی در گزارش Index Coverage (Page Indexing) روبرو شدید، آدرس آن صفحه را در ابزار URL inspection قرار دهید تا بتوانید اطلاعات بیشتری درباره آن صفحه به دست آورید.
انواع وضعیتها و مشکلات در گزارش Index Coverage (Page indexing)
تمام این مقدمات چیده شد تا به مهمترین بخش برسیم. در اینجا انواع statusها را در بخش not indexed در گزارش index coverage (page indexing) میبینیم و درباره هر کدام بخشهای زیر را بررسی میکنیم:
- انواع مشکلات را مورد بحث قرار میدهیم.
- دلیل این مشکلات را میبینیم.
- راه حل رفع مشکلات را بیان میکنیم.
وضعیت ایندکس نشده Not Indexed
ممکن است تعداد زیادی آدرس در بخش Not indexed ببینید که به دلایل درستی ایندکس نشدهاند. اما ممکن است ایندکس بودن تعدادی از این آدرسها الزامی باشد و به علت مشکل خاصی در این بخش قرار گرفته باشند. پس مهم است که آنها را به طور مداوم بررسی کنیم.
مورد اول: Excluded by ‘noindex’ tag
در این مورد گوگل صفحه را پیدا کرده است اما به دلیل وجود تگ noindex در header سایت یا HTTP response نتوانسته است آن را ایندکس کند. مهم است به طور مداوم به این بخش مراجعه کنید و مطمئن شوید که آدرسهای درست noindex شدهاند.
مورد دوم: Blocked by page removal tool
این آدرسها به دلیل استفاده از ابزار Google Removal توسط گوگل بلاک شدهاند. البته این مورد موقتی است و معمولا پس از ۹۰ روز گوگل مجدد آنها را در نتایج نمایش میدهد.
اگر قصد دارید که آدرسها را به طور دائمی از نتایج حذف کنید باید آنها را remove یا ریدایرکت کنید و یا همانند مورد قبل از تگ noindex استفاده کنید.
مورد سوم: Server error (5xx)
همانطور که از نامش مشخص است و حتما پیش از این نیز با خطاهای 500 آشنا هستید، این خطاها مرتبط به سرور است و از آن جمله میتوان به 502 Bad Gateway یا 503 Service Unavailable اشاره کرد.
باید حتما این بخش را به طور مداوم بررسی کنید تا اگر به دلیل خطای سروری صفحات شما توسط گوگل نادیده میشوند از آنها مطلع شوید.
برای رفع این مشکلات شاید نیاز باشد با جایی که از آن سرور یا هاست را تهیه کردهاید تماس بگیرید. اگر تغییرات جدید یا بهروزرسانی از نظر فنی روی سایت داشتهاید حتما این بخش را بررسی کنید.
مورد چهارم: Redirect error
خطای Redirect error نشان میدهد که ریدایرکتی که ثبت کردهاید به درستی کار نمیکند؛ یعنی مخاطبین و رباتها را از صفحه قدیمی به صفحه جدید هدایت نمیکند. این مشکل معمولا زمانی اتفاق میافتد که تنظیمات نامناسبی برای ریدایرکت صورت پذیرد؛ مثلا استفاده از زنجیره ریدایرکتها (Redirect chains).
مورد پنجم: Blocked by robots.txt
همانطور که میدانید robots.txt فایلی است شامل دستورات برای نحوه crawl شدن سایت که رباتها از آن پیروی میکنند.
اگر آدرسی باید ایندکس شود، گوگل ابتدا باید بتواند آن را crawl کند. بنابراین باید به بخش URLs blocked by robots.txt مراجعه کنید و مطمئن شوید که دسترسی به آنها را از طریق فایل robots.txt نبستهاید.
وضعیت 401 Unauthorized نشان میدهد که درخواستها و requestها نمیتوانند کامل انجام شوند؛ زیرا که برای مشاهده اطلاعات صفحه نیاز به user ID و رمز عبور است. رباتهای گوگل نمیتوانند محتوای صفحاتی که نیاز به لاگین شدن دارند را ببینند. مثلا ممکن است در حال آماده سازی سایت جدید باشید و اطلاعات سایت جدید روی دامنهتان قرار داشته باشد. اما برای مشاهده آن کاربر حتما باید لاگین کند. در این حالت رباتها نمیتوانند محتوا را ببینند. در این حالت یا باید لاگین را بردارید یا به رباتهای گوگل اجازه دهید که به صفحه دسترسی داشته باشند.
اگر این صفحات قرار نیست ایندکس شوند، بنابراین مشکلی وجود ندارد. با این وجود سعی کنید که این آدرسها را از دسترس رباتها خارج کنید. مثلا هر نوع لینک داخلی یا خارجی به آنها را پاک کنید.
مورد هفتم: Crawled – currently not indexed
گوگل آدرسها را crawl میکند اما برای تصمیمگیری ایندکس کردن آنها صبر میکند.
در این باره بیشتر توضیح خواهم داد.
مورد هشتم: Discovered – currently not indexed
این مورد به آن معناست که گوگل یک آدرس را پیدا کرده است اما هنوز آن را crawl نکرده است. برای مثال این آدرسها را از طریق سایت مپ یافته است.
توجه داشته باشید که در برخی از موارد گوگل بالاخره این صفحات را crawl میکند. این مشکل میتواند مربوط به بودجه خزش (crawl budget) سایت باشد. یعنی گوگل منبع زیادی را برای crawl کردن صفحات سایت اختصاص نمیدهد.
مورد نهم: Alternate page with proper canonical tag
این گزینه زمانی رخ میدهد که یک آدرس canonical توسط ربات گوگل ثبت شده است و این آدرس نسخهای کپی از آن است. تگ canonical نسخه اصلی یک صفحه را نشان میدهد. مثلا در وبسایتهای فروشگاهی در یک کتگوری ممکن است فیلترهای مختلفی (رنگ، سایز و …) وجود داشته باشد؛ با استفاده از تگ کنونیکال به رباتها میگوییم که نسخه اصلی، همان آدرس صفحه بدون فیلترهای دیگر است.
در بسیاری از موارد نیاز به اصلاح این گزینه نیست.
مورد دهم: Duplicate without user-selected canonical
این گزینه به آن معناست که صفحات کپی برای این آدرسها وجود دارد و تگ canonical برای نسخه اصلی انتخاب نشده است. یعنی گوگل آدرسها را به عنوان نسخه canonical در نظر نمیگیرد.
میتوان از ابزار URL Inspection استفاده کرد تا متوجه شد که کدام URL توسط گوگل به عنوان canonical انتخاب شده است.
مورد یازدهم: Duplicate, Google chose different canonical than user
در این مورد ما تگ canonical و صفحه اصلی را مشخص کردهایم، اما گوگل صفحه متفاوتی را به عنوان canonical انتخاب کرده است.
صفحهای که به عنوان canonical انتخاب کردهایم احتمالا به اندازه کافی قوی نیست و لینکسازی داخلی مناسبی برای آن انجام نشده است. در این حالت گوگل نسخه دیگری را به عنوانcanonical انتخاب میکند.
مورد دوازدهم: Not found (404)
حتما خطای 404 برایتان آشناست. صفحات 404 به این دلیل به وجود میآیند که آن صفحات یا موجود نیستند (پاک شدهاند) یا به آدرس جدیدی منتقل شدهاند که ریدایرکت برای آن ثبت نشده است.
این نوع خطا در هر وبسایتی وجود دارد و به شکل کلی اگر تعداد آن کم باشد مشکلی ایجاد نمیکند. اما به هر حال اگر کاربر به صفحه ۴۰۴ برسد تجربه مناسبی از کار با سایت نیست.
مورد سیزدهم: Page with redirect
صفحاتی که دارای وضعیت «Pages with redirect» هستند در واقع به نسخه جدید ریدایرکت شدهاند. بنابراین نیازی نیست نگران این آدرسها باشید.
برای ریدایرکت دائمی یک صفحه، باید از ریدایرکت 301 به شبیهترین و نزدیکترین صفحه استفاده شود. ریدایرکت کردن صفحات 404 به صفحه اصلی (homepage) میتواند منجر به خطای soft 404 شود.
مورد چهاردهم: Soft 404
مشکل soft 404 نشان میدهد که صفحه در دسترس است و وضعیت 200 را بر میگرداند، اما محتوای آن به شکل خطا دیده میشود؛ مثلا صفحه خالی است یا محتوای کمی در آن قرار دارد. البته ممکن است این صفحات همان 404هایی باشند که محتوای خوبی دارند اما به صفحات دیگر ریدایرکت شدهاند؛ اما این صفحات همچنان status 200 را بر میگردانند.
برای حل مشکل soft 404 میتوانید:
- محتوای جدید به صفحه اضافه کنید یا محتوای قبلی را تقویت کنید.
- آنها را به نزدیکترین صفحه مرتبط ریدایرکت 301 کنید.
- تنظیمات سرور را بهینه کنید تا وضعیت 404 یا 410 را برگرداند.
مورد پانزدهم: Blocked due to access forbidden (403)
وضعیت 403 Forbidden به آن معناست که سرور درخواست را متوجه شده است اما اجازه دسترسی نمیدهد. در این حالت یا باید به کاربران ناشناس از جمله رباتهای گوگل دسترسی بدهید تا به آدرس دست پیدا کنند و یا این صفحات را از سایت مپ حذف کنید. اگر قرار نیست گوگل به این آدرسها دسترسی داشته باشد بهتر است از تگ noindex استفاده کنید.
مورد هفدهم: Blocked due to other 4xx issue
این حالت میگوید که آدرسهای وبسایت ممکن است به دلیل خطاهای دیگر 4xx که در موارد قبلی نبود ایندکس نشوند. وضعیت 4xx خطاهایی هستند که مشکلات کاربر منجر به آن میشوند. بنابراین بهتر است این صفحات به دقت بررسی شود تا خطا مشخص گردد.
همانند قبل میتوان از URL Inspection tool استفاده کرد تا مشکل را یافت. با توجه به وضعیت کدی که صفحه نشان میدهد خطا را رفع کنید. اگر نتوانستید این خطاها را رفع کنید، آنها را از سایت مپ حذف کنید.
تا اینجا درباره انواع وضعیت Not indexed صحبت کردیم. پیش از این هم گفتیم که بخش دیگری وجود دارد به نام Improve page appearance که در ادامه گزینههای آن را مورد بررسی قرار میدهیم.
وضعیت Improve page appearance
با وجود اینکه آدرسهایی که در این بخش هستند ایندکس شدهاند، اما باید نگاهی دقیقتر به آنها داشت. رفع این مشکلات باعث میشود که وضعیت دیده شدن سایت در نتایج دچار مشکل نشود.
مورد اول: Indexed, though blocked by robots.txt
استفاده از دستورات robots.txt برای جلوگیری از ایندکس شدن صفحات گزینه مناسبی نیست. گوگل ممکن است این صفحات را حتی بدون دیدن ایندکس کند؛ زیرا که از دیگر صفحات به آن لینک وجود دارد.
در این حالت است که مشکل Indexed, though blocked by robots.txt به وجود میآید.
در این حالت باید استراتژی ایندکس خود را بازبینی کنید. تصمیم بگیرید کدام صفحات را میخواهید ایندکس کنید و کدام صفحات باید از ایندکس شدن منع شوند.
مورد دوم: Page indexed without content
گاهی یک صفحه ممکن است ایندکس شود حتی اگر:
- صفحهای که منتشر کردید محتوا نداشته باشد.
- گوگل به محتوای صفحه دسترسی نداشته باشد
با اینکه این گزینه ممکن است خیلی اهمیت نداشته باشد اما نسبت به آن بیتوجه نباشید.
چرا که اگر محتوای شما توسط گوگل دیده نشود، جایگاه شما در نتایج SERP دچار مشکل میشود و به مرور ممکن است بیشتر از این ناحیه آسیب ببینید.
نتیجهگیری
همانطور که در این مقاله دیدید، گزارش Index Coverage (Page indexing) جزئیات کاملی درباره وضعیت crawl و index سایت میدهد که منبع مناسبی برای متخصصین سئو است.
نیازی نیست که تمام صفحات وبسایت crawl یا index شوند. تعیین اینکه صفحات هدف مناسب توسط موتورهای جستجو دیده شوند و صفحات کم ارزشتر از دسترس آنها خارج شوند میتواند تاثیر مثبتی در وضعیت رتبههای وبسایت داشته باشد.
حتما متوجه شدهاید که تمام این خطاها حاد یا خطرناک نیستند و در برخی از آنها نیازی به واکنش جدی نیست. اما با این حال گزینههایی هستند که باید به دقت بررسی شوند و تا جای ممکن باید آنها را رفع کرد.
در نهایت به یاد داشته باشید که به طور مداوم به گزارش Index Coverage (Page indexing) سر بزنید و مطمئن شوید که همه چیز طبق استراتژی ایندکس که تعیین کردهاید پیش میرود.
- گوگل سرچ کنسول چیست و چه کاربردی دارد؟
- آموزش نصب و راه اندازی سرچ کنسول بر روی سایت
- معرفی گزارشات بخش Performance در سرچ کنسول
- چگونه از گزارش Index Coverage یا Page Indexing استفاده کنیم؟
- معرفی URL Inspection tool در سرچ کنسول
- کاربرد ابزار URL Removal Tool در سرچ کنسول
- گزارش Page Experience در سرچ کنسول