Robots.txt ফাইল হল এক প্রকার ওয়েব প্রটোকল যা কিনা একটা ওয়েব সাইট এর মাঝে সার্চ ইঞ্জিন রোবট এর প্রবেশ এবং সীমাবদ্ধতা উল্লেখ করে থাকে। যেমন সে কোন কোন তথ্য গুলা নিবে, কোন গুলা নিবে না ইত্যাদি নির্দেশ করাই Robots.txt ফাইলের কাজ।
রোবট .txt ফাইল হচ্ছে ট্রেনের ট্রেনের-সময়সূচি ঘোষকের মত । যে ভাবে ট্রেনের ট্রেনের- সময় হলে যাত্রীদের যথাসময়ে ট্রেনে উঠার জন্য বলে দেয়, তেমনি Robots.txt ফাইলও সার্চ ইঞ্জিন গুলির রোবট যখন Crawl করার সময় হয়, তখন তার ব্লগের নতুন পোষ্ট গুলি Index করার কথা বলে দেয়। ফলে আপনার সদ্য পোষ্ট করা নতুন আর্টিকেল সহজে সার্চ ইঞ্জিনে চলে আসে।
Robots.txt ফাইলের উপাদান সমূহ
- User-agent (সার্চ ইঞ্জিন এর বোট গুলোর নাম নির্দেশ করে )
- Disallow (সার্চ ইঞ্জিন কোনগুলো মনে রাখবে না তা বলে দে)
- Allow (সার্চ ইঞ্জিন কোনগুলো মনে রাখবে তা বলে দে)
- Wildcards ( * দিয়ে URL paths এর সকল প্রকার characters (০ সহ) নির্দেশ করে )
- Sitemap location ( সাইট এর সাইট ম্যাপ উল্লেখ নির্দেশ করে )
- Crawl-Delay ( যদি আপনার সাইট-এ অনেক বেশি পেজ থাকে এবং সার্চ ইঞ্জিন যদি তা Crawl করতে গিয়ে সাইট স্লো করে ফেলে তাহলে আপনি প্রতি সেকেন্ডে কয়টা পেজ সে Crawl করবে তা বলে দিতে পারবেন । )
যেমনঃ
User-agent: *
Crawl-delay: 3.0
Robots.txt ফাইল ছাড়াও সার্চ ইঞ্জিন বোট কে গাইড করার জন্য এবং একেবারে কিছু পেজ কে নির্দিষ্ট করার জন্য কিছু মেটা ট্যাগ উসে করা হয় যা রোবট মেটা ট্যাগ নামে পরিচিত। এইগুলো সাইট এর এর মাঝে ম্যানুয়ালি দিতে হয়।
রোবট মেটা ট্যাগ সমুহঃ
- INDEX
- FOLLOW
- ARCHIVE
- ODP
- SNIPPET and
- YDIR
যেভাবে Robots.txt ব্যাবহার করবেনঃ
Robots.txt by default আপনার Hosting-এর মাঝে থাকে। আর যারা ব্লগার ব্যাবহার করেন তারা পাবেন Settings>Search Prefference option-এ। একটি সাধারণ Robots.txt নিম্নরূপ হয়ে থাকেঃ
User-Agent: *
Allow: /
Disallow: /example/
Sitemap: http://example.com/mainsitemap.xml
আর আপনি যদি এক্সট্রা কোন ফাইল / ফোল্ডার / পেজ কে ইনডেক্স না করাতে ছান তাহলে Disallow: ট্যাগ এর মাঝে তার URL দিয়ে দিবেন।
যেমনঃ
Disallow: /page/
সেক্ষেত্রে আপনার নতুন Robots.txt টি হবে নিম্নরুপঃ
User-Agent: *
Allow: /
Disallow: /products/
Disallow: /page/
Sitemap: http://example.com/mainsitemap.xml
রোবট মেটা ট্যাগ এর ব্যাবহারঃ
Robots.txt ছাড়াও রোবট মেটা ট্যাগ ব্যাবহার করে আপনি আপনার সাইট এর যেকোনো নির্দিষ্ট অংসসমুহ আড়াল করতে পারেন। রোবট মেটা ট্যাগ গুলো সাধারনত design-এর মাঝে এর ভিতরে ম্যানুয়ালি বসাতে হয় যা কিনা ARCHIVE, ODP (Open Directory Page), SNIPPET and YDIR (Yahoo Directory) ইত্যাদি কে নির্দিষ্টভাবে ইনডেক্স করা থেকে সার্চ ইঞ্জিন বোট কে বিরত রাখে। কিছু প্রয়োজনীয় রোবট মেটা ট্যাগ এর ব্যাবহার দেখে নিন।
- সকল কন্টেন্ট ইনডেক্স করা
- সকল কন্টেন্ট ডি-নডেক্স করা
- সকল পুরনো কন্টেন্ট ডি-নডেক্স করা
- পেজ এর মেটা ডেসক্রিপশন না পেলে Open Directory Page ব্যাবহার না করা
- সার্চ Result-এর SNIPPET ব্যাবহার না করা
রোবটস.টেক্সট ফাইল (robots.txt) একটি ওয়েবসাইটের ক্রউলার রোবটস (সার্চ ইঞ্জিন ক্রউলারগুলি) এবং অন্যান্য ওয়েব সার্চ ইঞ্জিনগুলির জন্য একটি মেটা-ডেটা ফাইল যা ওয়েবসাইটে কি কি পৃষ্ঠা ক্রউল করতে পারে এবং কি কি করা যাবে না, সেটি নির্দেশনা প্রদান করে। এই ফাইল ওয়েবসাইটের রোবটস বা ক্রউলারগুলির জন্য একটি স্পেসিফিকেশন প্রদান করে এবং ওয়েবসাইট মালিকের পক্ষ থেকে কোনও নির্দেশনা না থাকলেও এটি স্ট্যান্ডার্ড প্র্যাকটিস হিসেবে ব্যবহার করা হয়। নিম্নলিখিত কিছু সময় কোডের সাহায্যে, আমরা এই বিষয়টির বর্ণনা প্রদান করব:
রোবটস.টেক্সট ফাইল (robots.txt) একটি টেক্সট ফাইল, যা একটি ওয়েবসাইটের রোবটস বা ক্রউলারগুলির জন্য নির্দেশনা প্রদান করে। এই ফাইলে একটি স্পেসিফিক স্যাক্স ব্যবহার করে সংজ্ঞা করা হয় যে কোনও বিশেষ পাতাগুলি কোনও ক্রউলার বা রোবটস দ্বারা ক্রউল করা না উচিত। এটি সাধারণভাবে ওয়েবসাইটের মূল নির্দেশনা পাতায় রাখা হয়, এবং এটি ওয়েবসাইটের রুট ডোমেইনে robots.txt নামে ফাইল তৈরি করে থাকে।
এই ফাইলের একটি সাধারণ স্যাক্স নিম্নরূপ:
“`
User-agent: [রোবটের নাম]
Disallow: [কি কি পাতা বা ডিরেক্টরি ক্রউল করা যাবে না]
“`
উদাহরণস্বরূপ, যদি আপনি একটি রোবটের নাম “Googlebot” এবং আপনি চান না যে Google সার্চ ইঞ্জিনটি আপনার ওয়েবসাইটের “/private” নামক ডিরেক্টরি ক্রউল করে, তাহলে আপনি নিম্নলিখিত সংজ্ঞা ফাইলে যোগ করতে পারেন:
“`
User-agent: Googlebot
Disallow: /private/
“`
এই রোবটস.টেক্সট ফাইল ওয়েবসাইটের রোবটস বা ক্রউলারগুলির জন্য একটি প্রাথমিক নির্দেশনা প্রদান করে এবং ওয়েব সার্চ ইঞ্জিনগুলি এই নির্দেশনা অনুসরণ করে ওয়েবসাইট ক্রউল করে সেই প্রতিষ্ঠানের তথ্য সংগ্রহ করে।
সংক্ষেপে, robots.txt একটি ওয়েবসাইটের ক্রউলারগুলির জন্য নির্দেশনা প্রদান করে যে কোনও বিশেষ পাতাগুলি ক্রউল করা উচিত এবং কীভাবে ওয়েবসাইটে ডেটা সংগ্রহ করতে হবে তা নির্ধারণ করে।