no-img
اِمیلا

همه چیز درباره Robots.txt

بروزرسانی؛
18 آوریل 2020
ربات

فایل Robots.txt چیست؟

فایل robots.txt وظیفه محدود کردن دسترسی روبات های گوگل و سایر موتورهای جستجو به محتویات سایت شما را دارد. این روبات ها بصورت کاملا اتوماتیک عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجودفایل robots.txt بر روی آن و محدود نبودن دسترسی محتوا مطمئن می شوند. تمامی روبات های استاندارد در اینترنت به این قوانین و محدودیت ها احترام گذاشته و صفحات شما را بازدید و ایندکس نخواهند کرد ولی روبات های اسپم توجهی به این فایل نخواهند داشت. اگر تمایل به حفظ امنیت محتوایی خاص و پنهان کردن آن از دید روبات های اینترنتی دارید بهتر است از پسورد گذاری صفحات استفاده کنید.

لیست تمامی ربات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است.

در عمل استفاده از فایل robots.txt به شما این امکان را میدهد که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نداشته باشید. همچنین به شما این امکان را می دهد که صفحات بی ارزش و کم محتوا را از دید موتورهای جستجو پنهان کنید تا زمان روبات ها در سایت شما برای ایندکس کردن این صفحات هدر نرود.

شما تنها زمانیکه قصد محدود کردن روبات های گوگل را داشته باشید از فایل robots.txt استفاده میکنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد.

برای قرار دادن یک فایل robots.txt شما باید به هاست دسترسی داشته و آن را در ریشه اصلی کپی کنید. اگر به هر دلیل دسترسی شما به سرور محدود شده باشد میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی روبات به آن را محدود کنید.

برای جلوگیری از ورود تمامی روبات های اینترنتی به صفحه از تگ:

<meta name=”robots” content=”noindex” />

و برای محدود کردن روبات های گوگل از تگ:

<meta name=”googlebot” content=”noindex” />

استفاده کنید. با مشاهده ی این تگ در هدر یک صفحه گوگل بطور کلی آن را از نتایج جستجوی خود خارج خواهد کرد.

آموزش ساخت فایل robots.txt

یک فایل ساده برای مدیریت روبات های اینترنتی از دو قانون اصلی استفاده می کند که عبارتند از:

User-agent: نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow: بیانگر آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.

با ترکیب این دو دستور شما می توانید قوانین مختلفی را برای دسترسی به صفحات داخلی سایت تعریف کنید. بعنوان مثال برای یک user-agent مشخص میتوان چندین آدرس را معرفی نمود و یا برعکس.

با مراجعه به سایت www.seoptimer.com می توانید به راحتی یک فایل robots.txt بسازید.

لیست تمامی روبات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است و شما می توانید با قرار دادن نام هریک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید. مانند:

User-agent: *

Disallow: /folder1/

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.

User-Agent: Googlebot

Disallow: /folder2/

شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید

Disallow: /blog/

برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید

Disallow: /blog/keyword-planner/

برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید

User-agent: Googlebot-Image
Disallow: /

همچنین شما می توانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif

User-agent: Googlebot
Disallow: /*.gif$

توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات هایی هستند که از این پس به سایت شما وارد میشوند حذف صفحاتی که در گذشته ایندکس شده اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.

چگونه یک فایل Robots.txt حاوی موقعیت نقشه سایت ایجاد کنیم؟

در ادامه سه مرحله آسان برای ساخت یک فایل robots.txt حاوی موقعیت نقشه سایت را برایتان شرح می‌دهیم:

مرحله اول: تعیین URL سایت مپ

URL مربوط به نقشه سایت (سایت مپ) بیشتر چنین شکلی دارد:

http://www.example.com/sitemap.xml

بنابراین کافی است این URL را در نوار آدرس مرورگر خود بنویسید و بجای عبارت example، آدرس دامنه سایتتان را وارد کنید.همچنین می‌توانید محل سایت مپ خود را به کمک جستجوی گوگل و استفاده از موتورهای جستجو همانند اشکال زیر تعیین کنید:

site:example.com filetype:xml
و یا
filetype:xml site:example.com inurl:sitemap

اما این روش فقط در صورتی جواب می‌دهد که سایت شما از قبل توسط گوگل بررسی و ایندکس شده باشد.اگر هیچ نقشه سایتی در سایت خود پیدا نکردید، می‌توانید خودتان با استفاده از ابزار ساخت نقشه سایت، یا دنبال کردن روش توضیح داده‌شده در Sitemaps.org یک نقشه سایت ایجاد کنید.

مرحله دوم: پیدا کردن فایل Robots.txt

برای شناسایی اینکه آیا سایت شما فایل robots.txt دارد یا خیر، می‌توانید عبارت example.com/robots.txt را تایپ کنید. با انجام این کار، با 3 موقعیت روبرو خواهید شد:

  • به فایل txt را مشاهده می کنید.
  • به یک فایل خالی (بدون محتوا) دسترسی پیدا می‌کنید.
  • با ارور 404 مواجه خواهید شد.

چنانچه با یک فایل خالی یا ارور 404 مواجه شدید، زمان آن است که فایل خود را بسازید.

مرحله سوم: اضافه کردن موقعیت نقشه سایت به فایل robots.txt

اکنون فایل robots.txt سایت خود بازکنید. برای آسان پیدا کردن خودکار نقشه سایت شما از طریق robots.txt، تمام‌کاری که باید انجام دهید این است که همانند شکل زیر یک دستور را همراه با URL موردنظر به فایل robots.txt اضافه کنید:

Sitemap: http://www.example.com/sitemap.xml

درنتیجه فایل robots.txt به این شکل خواهد بود:

Sitemap: http://www.example.com/sitemap.xml
* :User-agent
:Disallow

نکته: دستوری که حاوی موقعیت نقشه سایت است را می‌توانید در هر جای فایل robots.txt قرار دهید. این دستور از خط دستور user-agent مستقل است، درنتیجه تفاوت چندانی ندارد کجا قرار بگیرد.

با توجه به این‌که هر Sitemaps نمی‌تواند بیش از ۵۰۰۰ URL داشته باشد. پس در مورد سایت‌های بزرگ‌تر که URL های فراوانی دارد، می‌توانید چند فایل Sitemaps بسازید. باید موقعیت این چند فایل سایت مپ را در یک فایل فهرست نقشه سایت بگذارید. فرمت XML فایل sitemap index مشابه فایل نقشه سایت است، یعنی درواقع یک نقشه سایت مربوط به نقشه‌های سایت است.وقتی چند نقشه سایت دارید، می‌توانید URL مربوط به فایل فهرست نقشه‌های سایت را همانند مثال زیر در فایل robots.txt قرار دهید:

Sitemap: http://www.example.com/sitemap_index.xml
* :User-agent
Disallow

و یا می‌توانید تک‌تک URL های چند فایل نقشه سایتی که دارید را مشخص کنید، همانند شکل زیر:

Sitemap: http://www.example.com/sitemap_host1.xml
Sitemap: http://www.example.com/sitemap_host2.xml
* :User-agent
Disallow

به‌طورکلی توصیه می‌شود که همیشه دستور فرعی ‘Sitemap’ را در کنار URL نقشه سایت در فایل robots.txt قرار دهید. اما در برخی موارد مشاهده‌شده است که این کار باعث بروز خطاهایی می‌شود. می‌توانید حدود یک هفته بعدازاینکه فایل robots.txt را به‌روزرسانی کردید و موقعیت نقشه سایت را در آن قراردادید، برای بررسی وجود چنین خطاهایی از ابزار سرچ کنسول گوگل استفاده کنید.

برای جلوگیری از بروز این خطا، توصیه می‌شود که بعد از URL نقشه سایت یک خط را خالی بگذارید.

آزمایش Robots.txt  در بخش robot.txt tester وبمستر

وبمستر گوگل قسمت مشخصی را برای نمایش صفحاتی از سایت شما که توسط robots.txt دسترسی روبات به آنها محدود شده، در نظر گرفته است. این صفحه با نام robot.txt tester و بعنوان زیر مجموعه ای از بخش Crawl تعریف شده است.

جهت ویرایش فایل robot.txt یا مشاهده خطاها مراحل زیر را انجام دهید؛

– به اکانت گوگل وبمستر خود مراجعه کنید.

– پس از ورود در منو کناری بر روی اخرین گزینه go to the old version کلیک کنید تا به نسخه قدیمی هدایت شوید.

– از داشبورد سمت چپ روی Crawl کلیک و سپس گزینه robot.txt tester را انتخابی کنید.

– در بخش اول (robots.txt Tester) که حاوی (Edit your robots.txt and check for errors) است یعنی دستورها و محتویات که قصد دارید محدودیت روبات های گوگل در دسترسی به آنها وجود داشته باشد را وارد کنید. (در هر خط یک آدرس، می توانید فایل robot.txt را ویرایش و خطاها را مشاهده کنید)

– در بخش انتهایی شما می توانید یک نوع از روبات های گوگل را علاوه بر روبات اصلی که وظیفه ایندکس صفحات را برعهده دارد انتخاب کنید.

– با فشردن دکمه Test نتایج آزمون و میزان دسترسی روبات ها به هریک از این آدرس ها به شما نمایش داده خواهد شد.

نحوه انتخاب صفحاتی که در فایل robots.txt معرفی می شوند و پنهان کردن آنها از دید موتورهای جستجو وابستگی مستقیم با سیاست های شما در انتشار محتوا و سئو سایت خواهد داشت. قبل از انجام تغییرات اساسی در این فایل حتما با متخصصان سئو مشورت کرده و کدهای وارد شده را چندین بار آزمون و بازنویسی نمایید.

بیشتر بخوانید: افزودن سایت مپ به کنسول جستجوی گوگل

بیشتر بخوانید: همه چیز درباره نقشه سایت

لینک کوتاه : https://emila.ir/?p=16601
سلام علیکم!
8
فرم گزارش را به دقت تکمیل نمایید...
از همکاری شما پیشاپیش سپاسگذاریم