Robots.txt ফাইল হল এক প্রকার ওয়েব প্রটোকল যা কিনা একটা ওয়েব সাইট এর মাঝে সার্চ ইঞ্জিন রোবট এর প্রবেশ এবং সীমাবদ্ধতা উল্লেখ করে থাকে। যেমন সে কোন কোন তথ্য গুলা নিবে, কোন গুলা নিবে না ইত্যাদি নির্দেশ করাই Robots.txt ফাইলের কাজ।
রোবট .txt ফাইল হচ্ছে ট্রেনের ট্রেনের-সময়সূচি ঘোষকের মত । যে ভাবে ট্রেনের ট্রেনের- সময় হলে যাত্রীদের যথাসময়ে ট্রেনে উঠার জন্য বলে দেয়, তেমনি Robots.txt ফাইলও সার্চ ইঞ্জিন গুলির রোবট যখন Crawl করার সময় হয়, তখন তার ব্লগের নতুন পোষ্ট গুলি Index করার কথা বলে দেয়। ফলে আপনার সদ্য পোষ্ট করা নতুন আর্টিকেল সহজে সার্চ ইঞ্জিনে চলে আসে।
Robots.txt ফাইলের উপাদান সমূহ
- User-agent (সার্চ ইঞ্জিন এর বোট গুলোর নাম নির্দেশ করে )
- Disallow (সার্চ ইঞ্জিন কোনগুলো মনে রাখবে না তা বলে দে)
- Allow (সার্চ ইঞ্জিন কোনগুলো মনে রাখবে তা বলে দে)
- Wildcards ( * দিয়ে URL paths এর সকল প্রকার characters (০ সহ) নির্দেশ করে )
- Sitemap location ( সাইট এর সাইট ম্যাপ উল্লেখ নির্দেশ করে )
- Crawl-Delay ( যদি আপনার সাইট-এ অনেক বেশি পেজ থাকে এবং সার্চ ইঞ্জিন যদি তা Crawl করতে গিয়ে সাইট স্লো করে ফেলে তাহলে আপনি প্রতি সেকেন্ডে কয়টা পেজ সে Crawl করবে তা বলে দিতে পারবেন । )
যেমনঃ
User-agent: *
Crawl-delay: 3.0
Robots.txt ফাইল ছাড়াও সার্চ ইঞ্জিন বোট কে গাইড করার জন্য এবং একেবারে কিছু পেজ কে নির্দিষ্ট করার জন্য কিছু মেটা ট্যাগ উসে করা হয় যা রোবট মেটা ট্যাগ নামে পরিচিত। এইগুলো সাইট এর এর মাঝে ম্যানুয়ালি দিতে হয়।

robots
রোবট মেটা ট্যাগ সমুহঃ
- INDEX
- FOLLOW
- ARCHIVE
- ODP
- SNIPPET and
- YDIR
যেভাবে Robots.txt ব্যাবহার করবেনঃ
Robots.txt by default আপনার Hosting-এর মাঝে থাকে। আর যারা ব্লগার ব্যাবহার করেন তারা পাবেন Settings>Search Prefference option-এ। একটি সাধারণ Robots.txt নিম্নরূপ হয়ে থাকেঃ
User-Agent: *
Allow: /
Disallow: /example/
Sitemap: http://example.com/mainsitemap.xml
আর আপনি যদি এক্সট্রা কোন ফাইল / ফোল্ডার / পেজ কে ইনডেক্স না করাতে ছান তাহলে Disallow: ট্যাগ এর মাঝে তার URL দিয়ে দিবেন।
যেমনঃ
Disallow: /page/
সেক্ষেত্রে আপনার নতুন Robots.txt টি হবে নিম্নরুপঃ
User-Agent: *
Allow: /
Disallow: /products/
Disallow: /page/
Sitemap: http://example.com/mainsitemap.xml
রোবট মেটা ট্যাগ এর ব্যাবহারঃ
Robots.txt ছাড়াও রোবট মেটা ট্যাগ ব্যাবহার করে আপনি আপনার সাইট এর যেকোনো নির্দিষ্ট অংসসমুহ আড়াল করতে পারেন। রোবট মেটা ট্যাগ গুলো সাধারনত design-এর মাঝে এর ভিতরে ম্যানুয়ালি বসাতে হয় যা কিনা ARCHIVE, ODP (Open Directory Page), SNIPPET and YDIR (Yahoo Directory) ইত্যাদি কে নির্দিষ্টভাবে ইনডেক্স করা থেকে সার্চ ইঞ্জিন বোট কে বিরত রাখে। কিছু প্রয়োজনীয় রোবট মেটা ট্যাগ এর ব্যাবহার দেখে নিন।
- সকল কন্টেন্ট ইনডেক্স করা
- সকল কন্টেন্ট ডি-নডেক্স করা
- সকল পুরনো কন্টেন্ট ডি-নডেক্স করা
- পেজ এর মেটা ডেসক্রিপশন না পেলে Open Directory Page ব্যাবহার না করা
- সার্চ Result-এর SNIPPET ব্যাবহার না করা