نظام های بازیابی اطلاعات و معیارهای جستجو در آن ها

این مقاله به موضوعات زیر می پردازد:
* تعریف نظام بازیابی اطلاعات
* روند تغییر نظام های بازیابی اطلاعات در طول زمان
* عوامل موثر در طراحی نظام های بازیابی اطلاعات
* اجزای نظام های بازیابی اطلاعات
* بازیابی اطلاعات در عصر دانش مدار
* معیارهای جستجو در نظام های بازیابی اطلاعات (مشترک در پایگاه های اطلاعاتی و ابزارهای کاوش اینترنت) شامل:
- جستجو از طریق عملگرهای بول (AND, OR و NOT)
- درج عملگرهای بول با حروف بزرگ یا کوچک؟
- جستجوی ترکیبی
- جستجوی عبارتی
- جستجو از طریق عملگر نزدیک یابی
- کوتاه سازی کلیدواژه ها
- محدود کردن جستجو به زبان های مختلف
- محدود کردن جستجو به تاریخ انتشار منابع
- جستجوی رسانه های مختلف
- قابلیت جستجوی صفحات وب با فرمت های مختلف فایل
- قابلیت جستجوی کلیه کلمات: حروف تعریف، ربط و اضافه
- پیش گزیده های کاوش در ابزارهای کاوش

* معیارهای جستجوی اطلاعات (خاص پایگاه های اطلاعاتی) شامل:
- بازرسی نمایه در پایگاه های اطلاعاتی
- تسهیلات نمایش
- کمک به انتخاب پایگاه اطلاعاتی
- جستجوی چند فایلی (جستجو در چند پایگاه اطلاعاتی)
- ذخیره جستجوها و اشاعه اطلاعات گزیده
- پردازش مواد جستجو شده
- تنوع زبان فرمان
* معیارهای جستجوی اطلاعات (خاص ابزارهای کاوش اینترنت) شامل:
- جستجو از طریق عملگرهای ریاضی
- جستجوی کلیدواژه در عنوان صفحات وب
- جستجوی حوزه سایت ها
- جستجو در سایت میزبان
- جستجوی کلیدواژه ها در نشانی صفحات وب
- جستجوی پیوندهای فرامتنی در صفحات دیگر
- جستجوی کلیدواژه ها به صورت پیوند فرامتنی
- جستجو از طریق حساسیت برخی ابزارهای کاوش نسبت به بازیابی کلمات با حروف بزرگ
* راهبردهای جستجو
* تاکتیک های جستجو
- تاکتیک های محدود کردن جستجو
- تاکتیک های گسترش دادن جستجو
* چگونه جستجوی موفقی داشته باشیم
* مراحل اصلی یک کاوش موفق
* چرا نمی توانیم به اطلاعات مورد نظر دسترسی پیدا کنیم؟


مقدمه
افزایش روز افزون حجم اطلاعات در رشته های مختلف دانش بشری و ضرورت ایجاد ابزارهایی به منظور سازماندهی و دسترس پذیر ساختن این اطلاعات، منجر به شکل گیری انواع مختلف نظام های ذخیره و بازیابی اطلاعات گردید. به این ترتیب ابتدا نظام های ذخیره و بازیابی نوشتاری مانند کتابشناسی ها، نمایه نامه ها و چکیده نامه ها و سپس نظام های الکترونیکی نظیر پایگاه های اطلاعاتی کتابشناختی و تمام متن به منظور دسترسی هر چه بهتر، موثرتر و سریع تر به اطلاعات توسعه یافتند. ظهور شبکه های پیوسته و فناوری دیسک فشرده، تحولی بزرگ در فرآیند ذخیره و بازیابی اطلاعات و نیز تولید و انتشار منابع اطلاعاتی علمی و فنی در قالب دیجیتال پدید آورد.
مقاله حاضر در نظر دارد تا به بررسی اهداف، اجزا و انواع نظام های ذخیره و بازیابی اطلاعات بپردازد.

تعریف نظام ذخیره و بازیابی اطلاعات
پیش از ارائه تعریف از "نظام ذخیره و بازیابی اطلاعات"، مفاهیم "نظام" و "بازیابی اطلاعات" را توضیح می دهیم:

- نظام:
نظام، مجموعه ای از اجزای به هم مربوطی است که برای انجام فعالیتی خاص با هدفی ویژه با یکدیگر میانکنش دارند. طبق این تعریف هر موجودیتی را می توان نظام تصور کرد. نظام، مفهومی سلسله مراتبی است.

- بازیابی اطلاعات:
تمام فعالیت هایی که در فرآیند ذخیره سازی و بازیابی از لحظه نمایه سازی یک مدرک برای دروندهی به نظام تا لحظه ای که براساس تقاضا بازیابی می شود، فرآیند ارزیابی اطلاعات را تشکیل می دهند.

- نظام بازیابی اطلاعات:
نظام هایی هستند که برای یافتن یک یا چند مدرک از میان انبوه مدارک ذخیره شده به کار می روند و به لحاظ نوع سازماندهی، ساختار پایگاه ها، راهبرد بازیابی، کاربران و فرآیندی که در طی آن درخواست های اطلاعاتی کاربران پاسخ داده می شود، متفاوتند.
براساس آنچه که در تعاریف آمده است، می توان انواع مختلفی از نظام های بازیابی اطلاعات اعم از چاپی و الکترونیکی را برشمرد. نمایه پایان یک کتاب که در چند صفحه تنظیم شده است و نیز نرم افزار مورد استفاده در یک کتابخانه با هزاران رکورد از منابع اطلاعاتی موجود در کتابخانه، همگی از نظام های ذخیره و بازیابی اطلاعات به شمار می آیند.

روند تغییر نظام های بازیابی اطلاعات
در این بخش به مهم ترین تحولات نظام های بازیابی اطلاعات در سال های مختلف اشاره می کنیم:

قبل از دهه 1940:
- ایجاد نظام های بازیابی اطلاعات چاپی و دستی
- ایجاد نمایه ها و فهرست ها به شکل چاپی و کارتی
- ایجاد نظام های پیش همارا
- ایجاد قابلیت های محدود برای جستجو و بازیابی اطلاعات

دهه 1940:
- انتشار مقاله بوش و آینده نگری در مورد نظام های بازیابی آینده
- ابداع اولین نظام های پس همارا مانند: نظام پیکابو توسط باتن و کوردونیر نظام برگه لبه منگنه توسط موئرز نظام تک واژه ای توسط مورتیمر تاب

دهه 1950:
- آغاز خودکارسازی نمایه های پس همارا
- طراحی نظام بازیابی بر مبنای نمایه کوئیک توسط لوهن

- به کارگیری اصطلاح ”بازیابی اطلاعات“ اولین بار توسط موئرز به منظور نمایه سازی و جستجوی اطلاعات کتابخانه

دهه 1960
- ایجاد اولین نظام های بازیابی اطلاعات در مقیاس بزرگ مانند نظام های تجاری BRS و DIALOG
- بازیابی رایانه ای به شیوه گسسته
- ایجاد رشته بازیابی اطلاعات
- طرح ایده جستجوهای متن آزاد
- انتشار اولین کتاب تئوریک در زمینه نظام های بازیابی اطلاعات با نام ”تئوری نظام های بازیابی“ توسط ویکری
- طرح مفاهیم دقت و بازیافت توسط کلوردون و ایده ”بازخورد ربط“ توسط سالتون
- بحث کنترل واژگان و یکدست سازی واژه های نمایه سازی
- بحث کاربرمداری و طرح مدل های تعاملی
- طرح مسائل پردازش زبان طبیعی از طریق هوش مصنوعی

دهه 1970
- انتشار بسیاری از منابع در فرم ماشین خوان
- انجام جستجوهای پیوسته و تعاملی از راه دور
- امکان جستجوی ساده و محدود و در برخی موارد جستجوی بولی
- ظهور اولین نظام های تمام متن (Lexis)
- تحقیقات در مورد بانک های اطلاعاتی و سیستم های خودکار پیوسته
- طرح مسأله نظام های بازیابی اطلاعات احتمالی توسط رایجس برگن
- تحقیقات محققان هوش مصنوعی در زمینه بازیابی اطلاعات

دهه 1980
- کاهش قیمت منابع ذخیره سازی رایانه ای
- گسترش نظام های تمام متن
- گسترش نظام های پیوسته برای کتابخانه ها مانند OPAC
- ظهور CD و رواج آن در تولید بانکهای اطلاعاتی تمام متن
- استفاده از پروژه REMARC شامل مشخصات کتابهای کتابخانه کنگره
- انتشار مجلات و روزنامه ها به صورت پیوسته
- ایجاد ساختارهای جدید برای نظام های بازیابی اطلاعات و توجه به نیازهای اطلاعاتی کاربران

دهه 1990 و ...
- گسترش پایگاه های متنی پیوسته
- استفاده از پویشگرها برای درونداد اطلاعات
- انتشار قالب گرافیکی انتشارات همراه با قالب متنی
- ظهور اینترنت و فرآیند نشر الکترونیکی


عوامل مؤثر در طراحی نظام های بازیابی اطلاعات

در طراحی نظام های بازیابی اطلاعات اعم از چاپی و الکترونیکی، نکاتی را باید در نظر گرفت:

- محتوای اطلاعاتی منابع گردآوری شده: محتوای منابعی که قرار است در نظام ذخیره و سپس مورد بازیابی قرار گیرند، در طراحی نظام بازیابی اطلاعات موثر است. نظام های بازیابی اطلاعات از نظر محتوا به چند دسته تقسیم می شوند.
نظام های وظیفه گرا: نظام هایی که برای انجام وظیفه خاصی به وجود آمده اند. مانند نظامی که برای تحقق اهداف سازمان خاصی فعالیت می کند.
نظام های رسالت گرا: نظام هایی که برای انجام رسالت خاصی به وجود آمده اند. مانند نظامی که به منظور حفاظت از محیط زیست به وجود آمده است.
نظام های رشته گرا: نظام هایی که مربوط به رشته ای از دانش بشری هستند. مانند نظامی که برای پوشش متون رشته شیمی به وجود آمده است.
نظام های چند رشته ای: نظام هایی که منابع مربوط به چند رشته دانش بشری را تحت پوشش قرار می دهند.

- فایده منابع اطلاعاتی: منابعی که از طریق نظام اطلاعاتی در اختیار کاربران قرار می گیرند، باید برای رفع نیازهای اطلاعاتی آنان مفید باشند و به راحتی در دسترس آنان قرار گیرند. با انجام برخی فعالیت ها می توان کاربرد و فایده منابع را افزایش داد. به عنوان مثال با ایجاد نمایه نمایه ها و چکیده نامه ها برای منابع موجود در کتابخانه، می توان دسترس پذیری منابع اطلاعاتی را افزایش داد و به این ترتیب بر فایده و سودمندی منابع اطلاعاتی افزود.

- کاربران: برای طراحی هر نظام اطلاعاتی باید ویژگی های کاربران آن را در نظر گرفت. ویژگی های شخصیتی و روانی کاربران، سطح تخصص و دانش و میزان مهارت آنان در استفاده از امکانات مختلف نظام از عوامل موثر در طراحی نظام های اطلاعاتی هستند.

- تعیین پوشش موضوعی، زبانی و شکلی منابع: قبل از طراحی هر نظام اطلاعاتی لازم است پوشش موضوعی، زبانی و زمانی منابع اطلاعاتی نظام را تعیین کرد. این مسأله کاربران را جهت انتخاب پایگاه مناسب راهنمایی می کند.

- معیارهای عملکرد: قبل از طراحی هر نظام اطلاعاتی لازم است معیارها و اصول یک نظام اطلاعاتی موفق و کارآمد در نظر گرفته شود. پس از طراحی نظام نیز می توان از همان معیارها برای ارزیابی عملکرد آن استفاده کرد.

- جنبه های اقتصادی: میزان بودجه و دارایی سازمان، عاملی مهم در طراحی نظام است. هر نظام اطلاعاتی با توجه به قابلیت ها، امکانات و خدماتی که ارائه می کند، قیمت گذاری می شود. علاوه بر هزینه هایی که هنگام طراحی یا خرید نظام پرداخت می شود، بسیاری از هزینه ها به هنگام استفاده، نگهداری و روزآمد کردن نظام بر سازمان تحمیل می شود. گستردگی و پیچیدگی برخی نظام های بازیابی اطلاعات نیازمند ارائه آموزش هایی به افراد سازمان است که این امر هزینه هایی را بر سازمان تحمیل می کند.


اجزای نظام های بازیابی اطلاعات
به طور خلاصه اجزای نظام های بازیابی اطلاعات را می توان به این صورت بیان نمود:
- گزینش منابع اطلاعاتی
- بازنمون اطلاعات
- سازماندهی فایل
- تحلیل پرسش و راهبرد جستجو
- اشاعه و دسترسی


- گزینش منابع اطلاعاتی
گزینش منابع از مهم ترین کارکردها در نظام بازیابی اطلاعات است. برای ارائه خدمات اطلاع رسانی، نظام باید دارای منابع اطلاعاتی باشد که به گونه ای بالقوه مورد استفاده کاربر قرار گیرد.
عواملی که بر گزینش و فراهم آوری منابع مؤثر هستند، عبارتند از:
- خط مشی
- فرآیند گزینش
- ابزارهای گزینش
- مراحل سفارش
- بازخورد


- بازنمون اطلاعات
جنبه ای از بازیابی اطلاعات است که در آن فایل اصلی مدارک با مجموعه ای از برچسبها یا جایگزین هایی نظیر چکیده ها یا اصطلاح های نمایه ای بازنموده می شود.

دو نوع عمده بازنمون اطلاعات عبارتند از:
نمایه سازی
چکیده نویسی

- سازماندهی فایل
سازماندهی فایل یا طراحی فایل شامل عناصر زیر است:
مقدار داده های ذخیره شده در هر پیشینه
ساختار پیشینه
رابطه میان عناصر مختلف داده ها
مکان ذخیره فایل
چگونگی ذخیره پیشینه ها
راه دسترسی به آنها

- تحلیل پرسش و راهبرد جستجو
تحلیل پرسش، مطالعه فرآیند رفتار جستجوی اطلاعاتی کاربران توسط انسان است. در این مرحله فعالیت های زیر صورت می گیرد:
- درک مؤثر نیازهای متقاضیان اطلاعات
- روانشناسی برقراری رابطه مؤثر میان افراد
- فن پرسش
- فرمول بندی منطقی درخواست های جستجوپذیر برای اطلاعات

راهبرد جستجو، فرآیندی است که از طریق آن فایلی مورد جستجو قرار می گیرد تا مدارک متناسب با نیاز اطلاعاتی کاربر شناسایی شود. برنامه جستجو با درخواستی مشخص آغاز و با فراهم آوردن مجموعه ای از مدارک بازیابی شده پایان می پذیرد.

- اشاعه و دسترسی
اشاعه، فرآیند انتقال اطلاعات به کسانی است که به آن اطلاعات نیاز دارند.
اشاعه اطلاعات به دو صورت انجام می شود:

1. تحویل مدرک که شامل مراحل زیر است:
- مکان یابی مدرک
- تحویل عملی مدرک

2. اطلاع دهی که به دو صورت انجام می شود:
- اشاعه گزینشی اطلاعات
- خدمات آگاهی رسانی جاری

بازیابی اطلاعات در عصر دانش مدار
اغلب مدل های بازیابی اطلاعات، مدارک را براساس حضور کلیدواژه های عبارت پرسش بازیابی می کنند که در این صورت ممکن است بسیاری از مدارک مرتبط به خاطر نداشتن آن کلیدواژه حذف شوند.
برای رفع این مشکل، رویکرد دانش مدار بازیابی اطلاعات مورد توجه قرار گرفت. در این رویکرد سعی می شود با استفاده از تحلیل های شکلی، نحوی و معنایی مدارک، میزان ربط آن ها با عبارت پرسش تعیین شود.
این رویکرد مستلزم دانش زبان شناسی و هوش مصنوعی در بازیابی اطلاعات است.

معیارهای جستجو در نظام های ذخیره و بازیابی اطلاعات
- جستجو از طریق عملگرهای بول (AND, OR و NOT)
جورج بول ریاضی دان انگلیسی در سال 1847 منطق ریاضی را ارائه کرد که امروزه اساس بازیابی اطلاعات در بسیاری از پایگاه های اطلاعاتی و همچنین ابزارهای کاوش اینترنت است. از طریق منطق بول می توان مفاهیم مختلف (کلیدواژه ها) را به منظور گسترش دادن یا محدود کردن دامنه جستجو با یکدیگر ترکیب کرد و به نتایج کاوش دقیق تر و مرتبط تری در یک پایگاه اطلاعاتی دست یافت. برای این منظور از عملگرهای خاصی استفاده می شود که عبارتند از AND, OR, NOT.
بیشتر نظام های ذخیره و بازیابی اطلاعات، این سه عملگر را به کار می برند. در حالی که برخی از آن ها امکانات بیشتری فراهم می کنند.

- عملگر AND یا "و"
این عملگر با ترکیب کلیدواژه های مختلف، دامنه جستجو را به منابعی محدود می سازد که "همه" کلیدواژه های مورد نظر در آن ها حضور حتمی دارند. بنابراین استفاده از عملگر AND تعداد موارد بازیابی را کاهش می دهد. نمونه ای از عبارت جستجو را در زیر مشاهده می کنید:
Iran AND Culture
در برخی موارد، استفاده از عملگر AND منجر به بازیابی اطلاعات مرتبط نمی شود. زیرا کلیدواژه های مد نظر ممکن است در "هر کجای متن" یک صفحه وب به کار رفته باشند. بدون آنکه هیچ ارتباط مفهومی با یکدیگر داشته باشند. این موضوع یکی از اصلی ترین مشکلات بازیابی اطلاعات مرتبط در محیط وب است که تا حدود بسیار زیادی از فقدان یک نظام نمایه سازی موضوعی ناشی می شود . (بر خلاف آنچه در پایگاه های اطلاعاتی سنتی با آن آشنا هستیم).
بسیاری از ابزارهای کاوش به طور خودکار کلیدواژه های جستجو را از طریق عملگر AND با یکدیگر ترکیب می کنند. باید توجه داشت که تعدادی از ابزارهای کاوش در گزینه های دیگری نظیر Must Include یا All the Words برای اجرای عملگر AND استفاده می کنند.

- عملگر OR
این عملگر باعث گسترش دامنه جستجو و بازیابی اقلام اطلاعاتی بیشتر می شود. به این ترتیب که هر یک از کلیدواژه های جستجو (یکی یا همه آن ها) می توانند در نتایج کاوش وجود داشته باشد.
نمونه ای از عبارت جستجو را در زیر مشاهده می کنید:
Iran AND Culture
یکی از کاربردهای مهم عملگر OR پوشش مفاهیم یا اصطلاحات مترادف، مرتبط یا با املاهای متفاوت است. بنابر این برای جستجوهای جامع از این علمگر استفاده می شود. از این طریق می توان جامعیت در بازیابی اطلاعات را افزایش داد. باید توجه داشت که تعدادی از ابزارهای کاوش از گزینه های دیگری نظیر Should Include یا ANY of the Words برای اجرای عملگر OR استفاده می کنند.

- عملگر NOT
این عملگر با حذف یک یا چند کلیدواژه از دامنه جستجو موجب محدود شدن نتایج جستجو می شود و هنگامی ارزش واقعی خود را نشان می دهد که از طریق این عملگر دامنه جستجو را می توان به کلیدواژه های مشخصی محدود کرد. در برخی ابزارهای کاوش به جای استفاده از عملگر NOT باید از AND NOT استفاده کرد. در ابزارهای کاوش مختلف، از گزینه های دیگری مانند Must Not Include Without the Words , یا Exclude برای اجرای عملگرNOT استفاده می شود.

- درج عملگرهای بول با حروف بزرگ یا کوچک؟
متأسفانه برخی ابزارهای کاوش فقط در صورتی که عملگرهای بولی با حروف بزرگ نوشته شوند، آن ها را اجرا می کنند. بنابراین آگاهی از این موضوع اهمیت بسزایی دارد. برای مثال در بخش جستجوی موتور کاوش Excite حتماً باید از عملگرهای بولی با حروف بزرگ استفاده کرد. در غیر این صورت موارد کاملاً غیر مرتبطی بازیابی خواهد شد. از آنجا که تقریباً کلیه ابزارهای کاوش وب، درج عملگرهای بول با حروف بزرگ را مورد حمایت قرار می دهند، همواره به کاوشگران توصیه می شود آن ها را با حروف بزرگ بنویسند تا از بروز هر گونه اشتباه وخطای احتمالی جلوگیری شود.
- جستجوی ترکیبی
یکی از مهم ترین روش هایی که از طریق آن می توان جستجوی دقیق تر و موثرتری انجام داد، جستجوی ترکیبی است. جستجوی ترکیبی، جستجویی است که در آن دو یا چند عملگر بول (AND, OR, NOT) با هم ترکیب می شوند. بسیاری از ابزارهای کاوش از طریق پرانتز () چنین امکانی را در اختیار کاربران قرار می دهند.
نمونه ای از عبارت جستجو را در زیر مشاهده می کنید:
(Iran OR Persian) AND (Culture OR Islam)
هر موتور کاوش قواعدی برای نظم بخشیدن به ترتیب پردازش عملگرهای خود دارد. متأسفانه این قواعد در موتور جستجوهای مختلف متفاوت می باشد. پرانتز برای نادیده گرفتن پیش فرض سیستم در اجرای عملگرها به کار می رود. استفاده از پرانتز ضمناً باعث می شود که جملات پیچیده جستجو همان طور که خواسته شده پردازش شوند.
در این مثال کلیه صفحات وبی که کلیدواژه های Persian یا Iranian در آن ها به کار رفته است، به عنوان یک مجموعه واحد، از طریق عملگر AND با کلیدواژه های یک مجموعه دیگر (Culture OR Islam) ترکیب شده اند. از طریق پرانتز می توان جستجوهای بسیار پیچیده ای انجام داد که جامعیت و مانعیت نسبی مناسبی دارند. البته در برخی ابزارهای کاوش مانند Google و Fast Search امکان جستجوی ترکیبی با استفاده از پرانتز وجود ندارد.
برخی ابزارهای کاوش از طریق کادرهای جستجوی جداگانه، امکان جستجوی ترکیبی را در اختیار کاربران قرار می دهند. به این ترتیب که باید کلیدواژه ها را در کادرهای جستجو وارد کرد و عملگر مورد نظر را از فهرست انتخاب برگزید.

- جستجوی عبارتی
جستجوی عبارتی یکی از مهم ترین و در عین حال قدرتمندترین امکانات کاوش در بسیاری از ابزارهای کاوش به شمار می آید. با جستجوی عبارتی می توان یک عبارت یا جمله مشخص را به همان ترتیبی که کلمات وارد کادر جستجو شده اند، بازیابی کرد. این قابلیت، تقریباً در همه ابزارهای کاوش اصلی از طریق قرار دادن عبارت مورد نظر در میان علامت گیومه (" ") پیش بینی شده است. زیرا چنانچه از (" " ) استفاده نشود، ممکن است موتور جستجو با این عبارت مانند یک جمله بولی عمل کند و عملگرهای AND یا OR را به طور خودکار میان آن ها فرض کند. بنابراین نتایج بازیابی شده بسیار متفاوت خواهند بود.
جستجوی عبارتی برای بازیابی اسامی خاص نظیر نام سازمان ها، نشریات، اسامی افراد و همچنین عبارت ها و مفاهیمی که عمدتاً در کنار هم قرار می گیرند، کاربرد فراوان دارد. با استفاده از جستجوی عبارتی، می توان دیگر صفحات وب با کلیدواژه های مشابه را به راحتی حذف کرد و ترتیب حضور کلمات را در فرآیند بازیابی اطلاعات تعیین کرد. در بسیاری از ابزارهای کاوش اصلی، گزینه های دیگری مانند Exact Phrase یا Exact Words برای اجرای جستجوی عبارتی پیش بینی شده است.

- جستجو از طریق عملگر نزدیک یابی
گاهی ممکن است استفاده از عملگر AND برای بازیابی کلیدواژه های مختلف، صرفاً به این دلیل که در یک صفحه وب وجود دارند کافی نباشد. به عبارت دیگر، استفاده از عملگر AND ممکن است منجر به بازیابی کلیدواژه ها در "هر کجای متن" شود، بدون آنکه هیچ ارتباط مفهومی با یکدیگر داشته باشند. به این منظور از عملگر نزدیک یابی استفاده می شود. در این روش می توان کلیدواژه ها و مفاهیم مورد نظر را در کنار هم بازیابی کرد. به تعبیر دیگر، از طریق جستجوی نزدیک یابی می توان ارتباط مکانی و جایگاه کلیدواژه ها را درکنار هم تعیین کرد. اغلب پایگاه های اطلاعاتی سنتی از عملگرهای NEAR یا ADJ برای اجرای جستجوی نزدیک یابی استفاده می کنند. اما ابزارهای کاوش اصلی، آن طور که باید و شاید این قابلیت مهم را مورد توجه قرار نداده اند. به طوری که تنها موتور کاوش Alta Vista و AOL امکان استفاده از عملگر نزدیک یابی را در اختیار گذاشته اند. با به کارگیری عملگر ADJ می توان کلیدواژه های مورد نظر را با همان ترتیبی که وارد کادر جستجو شده اند، در کنار هم بازیابی کرد. به عبارت دیگر، اگر یک کلیدواژه در سمت چپ عملگر ADJ و دیگری در سمت راست آن قرار گیرد، این ترتیب در نتایج بازیابی شده دقیقاً اعمال خواهد شد. بر خلاف عملگر ADJ، از طریق عملگر NEAR نمی توان ترتیب مکانی (تقدم و تأخر) کلیدواژه های مورد جستجو را در نتایج کاوش تحت کنترل درآورد.
موتورکاوش AOL تنها ابزارکاوشی است که ادعا می کند امکان استفاده از هر دو عملگر نزدیک یابی را دارد. این موتور کاوش مدعی است که حتی می توان از طریق عملگر NEAR تعداد کلمات واسط میان دو کلیدواژه مورد نظر را تعیین کرد.
Iran NEAR/3 Iraq
در مثال بالا، کلیدواژه های Iran و Iraq باید در صفحات وب دقیقاً در کنار یکدیگر یا با یک، دو یا سه کلمه واسط بازیابی شوند. متأسفانه بر خلاف ادعای موتور کاوش AOL استفاده از چنین قابلیتی همواره با مشکلات فراوانی همراه است و نتایج کاوش به دست آمده، با اصول و عملکرد جستجوی نزدیک یابی نظیر آنچه در پایگاه های اطلاعاتی سنتی با آن آشنا هستیم، مطابقت ندارد.
دایالوگ که یک پایگاه اطلاعاتی است، از عملگرهای نزدیک یابی دیگری استفاده می کند که محدود کننده ترین آن ها "W" است.
بنابراین جمله جستجوی SELECT INFORMATION (W) RETRIEVAL نشان می دهد که لازم است هر دو عبارت information و retrieval به دنبال هم بر اساس نظم تعیین شده قرار داشته باشند. به عبارت دیگر تنها، مواردی که عبارت ”information retrieval” را در بر داشته باشند، بازیابی می شوند. علاوه بر عملگر "W" این امکان نیز وجود دارد که تعداد عبارت هایی که می توانند بین عبارات جستجو قرار بگیرند مشخص شوند. به عنوان مثال جمله جستجوی SELECT INFORMATION (2W) RETRIEVAL تمام مواردی را بازیابی می کند که عبارتی بین دو کلیدواژه نباشد و یا یک یا دو عبارت قبل از کلمه RETRIEVAL قرار گرفته باشد.
عملگر مجاورت دیگری که محدودیت کمتری دارد (N) می باشد. استفاده از (N) درست شبیه به استفاده از (W) است. با این تفاوت که (N) نه فقط عبارات را در نظم تعیین شده، بلکه رخدادهای عبارات را در هر نظمی بازیابی می کند.
این امکان نیز وجود دارد که مشخص شود موارد بازیابی شده شامل عبارات جستجو در یک فیلد خاص باشند. به عنوان مثال:
SELECT INFORMATION (F) RETRIEVAL
فقط مدارکی را بازیابی می کند که عبارات information و retrieval در یک فیلد معین مثلاً فیلد عنوان یا توصیفگر وجود داشته باشند.
بعضی از سیستم ها، استفاده از مجاورت NOT را ممکن می سازند. بنابراین جمله جستجوی SELECT INFORMATION (NOT W) RETRIEVAL تنها با رخدادهایی از کلمه information تطبیق داده می شود که در عبارت information retrieval نباشد.
باید خاطر نشان کرد که با وجود اینکه، بیشتر خدمات جستجو گرچه نه همه آن ها، از جستجوی مجاورت عبارات استفاده می کنند، تسهیلات موجود و اجرای دقیق آن ها وابستگی نزدیکی به نحوه عملیات سیستم فایل مقلوب در پایگاه های اطلاعاتی دارد.

- کوتاه سازی کلیدواژه ها
در بسیاری از سیستم های جستجو، جستجوگر می تواند عبارات را کوتاه کند. در این روش با وارد کردن ریشه اصلی کلمات، مشتقات مختلف آن ها نیز بازیابی می شود. بیشتر ابزارهای کاوش اینترنت، امکان کوتاه سازی کلیدواژه ها را از طریق علامت ستاره (*) فراهم می کنند. برای مثال جستجوی کلیدواژه Iran* منجر به بازیابی کلیه مشتقات کلمه Iran، مانند Iranian, Iran’s و ... خواهد شد. این عمل نه تنها موجب گسترش دامنه جستجو می شود، بلکه در زمان وارد کردن کلیدواژه ها نیز صرفه جویی می شود. برخی ابزارهای کاوش، عملگر کوتاه سازی را به طور خودکار اجرا می کنند و برخی دیگر مانند Northern Light شکل "جمع" کلمات را در فرآیند بازیابی اطلاعات، پوشش می دهند. نکته مهم در استفاده از عملگر کوتاه سازی، مکان به کارگیری آن است. عملگر کوتاه سازی باید بعد از حرفی به کار رود که تا آنجا با دیگر مشتقات مشابهت دارد. مانند جستجوی کلیدواژه Iran* که منجر به بازیابی کلیه مشتقات کلمه Iran، مانند Iranian, Iran’s و ... خواهد شد.
بسیاری از سیستم های بازیابی، به جستجوگر این امکان را می دهند که نماد کوتاه سازی را بین حروف کلمات قرار دهند. این عمل، یک علامت جانشین یا "کوتاه سازی محاط شده" نامیده می شود. به عنوان مثال عبارت ORGANI?ATION هم املای آمریکایی و هم املای بریتانیایی کلمه را بازیابی می کند و عبارت WOM?N هم حالت مفرد و هم حالت جمع کلمه را مورد بازیابی قرار می دهد.
در بعضی از خدمات جستجو مانند DIMDI کوتاه سازی سمت چپ امکان پذیر است. بدین معنی که عبارت با انواع پیشوندها قابل جستجو است. این شیوه به خصوص در جستجوی اسامی پیچیده بسیار مفید عمل می کند. البته به نظر می رسد هیچ یک از ابزارهای کاوش اصلی استفاده از عملگر کوتاه سازی در ابتدای کلمات را ارائه نمی دهند. اما برخی ابزارهای کاوش نظیر Alta Vista امکان استفاده از عملگر کوتاه سازی در وسط کلمات را پیش بینی کرده اند. موتورهای جستجوی مختلف از نمادهای اختصار گوناگونی استفاده می کنند. اغلب نمادهایی که به کار می روند علائم * ؟ # : $ ! + هستند. به علاوه، بعضی از خدمات جستجو برای نشان دادن انواع مختلف کوتاه سازی از بیش از یک نماد استفاده می کنند.

- محدود کردن جستجو به زبان های مختلف
از طریق این جستجو می توان جستجو را فقط به مدارکی که مربوط به یک زبان خاص هستند محدود کرد. اغلب پایگاه های اطلاعاتی و ابزارهای کاوش، به ویژه در بخش جستجوی پیشرفته خود، برای کاوش اطلاعات به زبان های مختلف، امکاناتی پیش بینی کرده اند. در این میان موتورکاوش Fast Searh با تفاوتی فاحش از سایر ابزارهای کاوش امکان محدود کردن فرآیند جستجو را از طریق 47 زبان مختلف از چینی، ژاپنی و کره ای گرفته تا عربی، یونانی و ... در اختیار گذاشته است. استفاده از این قابلیت، به ویژه برای آن دسته از کسانی که با زبان دیگری به جز انگلیسی آشنایی دارند، از اهمیت و ارزش بسزایی برخوردار است. به تعبیر دیگر، از طریق جستجوی صفحات وب به زبان های مختلف می توان تا حدود بسیار زیادی موانع زبانی موجود در دسترسی به اطلاعات را از طریق اینترنت از میان برداشت.

- محدود کردن جستجو به تاریخ انتشار منابع
از این طریق می توان جستجو را فقط به مدارکی که در یک محدوده تاریخی مشخص منتشر شده اند، محدود کرد. اغلب ابزارهای کاوش و پایگاه های اطلاعاتی به ویژه در بخش جستجوی پیشرفته خود، امکان محدود کردن فرآیند جستجو را از طریق تاریخ انتشار منابع در اختیار قرار می دهند. این قابلیت به کاوشگران اجازه می دهد طیف زمانی مورد نظر خود شامل روز، ماه و سال را انتخاب کنند و فقط منابع اطلاعاتی منتشر شده در وب را در همان مقطع زمانی بازیابی کنند.
برخی از ابزارهای کاوش مانند Google از فهرست انتخاب برای محدود کردن تاریخ انتشار منبع نظیر سه ماه، شش ماه و یک سال گذشته استفاده می کنند.
یکی از کاربردهای مهم محدود کردن فرآیند جستجو با توجه به تاریخ انتشار منابع در وب، امکان بازیابی اطلاعات جدید و روزآمد است. اما باید به این نکته مهم اشاره شود که تاریخ انتشار منبع در وب می تواند شامل موارد ذیل باشد:
- تاریخی که واقعاً یک صفحه منحصر به فرد در محیط وب ایجاد یا تولید شده و در دسترس همگان قرار گرفته است. (نظیر اخبار و اطلاعات در مجلات و روزنامه های پیوسته)
- تاریخی که یک صفحه وب صرفاً در محیط وب قرار گرفته است. این گونه صفحات ممکن است حاوی اطلاعات قدیمی نیز باشند. (نظیر قرار دادن متن کامل آثار شکسپیر در محیط وب)
- آخرین تاریخی که اطلاعات یک صفحه وب، اصلاح شده یا تغییر پیدا کرده است.

بنابراین باید دقت کرد که صرفاً محدود کردن زمان انتشار منابع در وب به معنای بازیابی اطلاعات روزآمد و جدید در طیف زمانی مورد نظر نیست.

- جستجوی رسانه های مختلف
فرض کنید به دنبال اطلاعات چند رسانه ای نظیر عکس، ویدئو، موسیقی و ... هستیم. تعدادی از ابزارهای کاوش مانند Google و Alta Vista، امکان جستجو و بازیابی اطلاعات چند رسانه ای را فراهم کرده اند. در میان ابزارهای کاوش اصلی، موتور کاوش Alta Vista از جامعیت و امکانات کاوش بسیار مناسب و کارآمدی برخوردار است. این موتور کاوش در بخش های جداگانه ای تحت عنوان Images، Video و MP3/Audio به ترتیب امکان کاوش تصویر، ویدئو و صوت را فراهم می کند.

- قابلیت جستجوی صفحات وب با فرمت های مختلف فایل
فرمت های مختلف فایل وجود دارند که در حال حاضر، برخی از آن ها در محیط وب قابل جستجو و بازیابی هستند (نظیر Acrobat, Java, Shockwave, MP3, MPEG و ...). تعدادی از ابزارهای کاوش اصلی برای بازیابی انواع مختلفی از فرمت های فایل، امکاناتی دارند که از طریق آن ها می توان به صفحات وب حاوی پیوند فرامتنی به این گونه فایل ها دست یافت.
برای مثال فرض کنید به اطلاعاتی درباره "تکنولوژی اطلاعات" نیاز دارید، ولی می خواهید اطلاعات به دست آمده در قالب PDF باشد. به این ترتیب با وارد کردن کلیدواژه مورد نظر و انتخاب نوع فرمت فایل می توان اطلاعات مورد نیاز را فقط در قالب PDF بازیابی کرد.
همچنین در بخش جستجوی پیشرفته Google، امکانات بسیار خوبی برای جستجوی فرمت های مایکروسافت آفیس شامل Word, Excel, Power point وجود دارد.

- قابلیت جستجوی کلیه کلمات: حروف تعریف، ربط و اضافه
برخی ابزارهای کاوش، امکان جستجو و بازیابی حروف تعریف و ربط را نیز ارائه می دهند (مانند A, An, As, On, The, To, Be و ...). یکی از مهم ترین کاربردهای جستجوی کلیه کلمات، بازیابی جمله یا عبارتی خاص است که حاوی این گونه کلمات است. برای مثال فرض کنید می خواهید جمله مشهور شکسپیر “To be or not to be” یا کتابی تحت عنوان “The Who” را مورد جستجو و بازیابی قرار دهید. در این صورت ارزش جستجوی حروف تعریف مشخص خواهد شد.

- پیش گزیده های کاوش در ابزارهای کاوش
آگاهی از پیش گزیده های کاوش در ابزارهای کاوش مختلف برای دسترسی به نتایج مطلوب، اهمیت بسزایی دارد و در واقع یکی از اولین موضوعات مهمی است که کاوشگران باید قبل از استفاده از هر ابزارکاوشی به آن توجه کنند. پیش گزیده جستجو به این مفهوم است که اگر از هیچ گونه عملگر یا دستور کاوشی میان کلیدواژه های مختلف استفاده نشود ( نظیر football 2001 Iran)، ابزار کاوش مورد نظر چگونه با کلیدواژه برخورد می کند و چه عملگر یا دستور کاوشی را به طور خودکار برای ترکیب آن ها اجرا می کند (نظیر AND، OR، جستجوی عبارتی و ...).


معیارهای جستجو که تنها مربوط به پایگاه های اطلاعاتی هستند:

- بازرسی نمایه در پایگاه های اطلاعاتی
اغلب، امتحان نمایه مقلوب برای دستیابی به چگونگی حضور یک عبارت در یک پایگاه اطلاعاتی، مفید می باشد. به عنوان مثال چون اغلب پایگاه های اطلاعاتی هیچ استانداردی در مورد نویسندگانی که آثار خود را با نام های گوناگون منتشر می کنند اعمال نمی نمایند، کنترل شکل دقیق نام در فیلد نویسنده که بر مبنای عبارت، نمایه می شود بسیار سودمند است. این مطلب در مورد شکل های مفرد و جمع کلمات و املای بریتانیایی یا آمریکایی کلمات نیز صادق است.
در جایی که یک پایگاه اطلاعاتی مجهز به اصطلاحنامه (تزاروس) پیوسته باشد، بررسی نمایه ممکن است نشان دهد که چه عباراتی با عبارت مورد جستجو، مرتبط هستند. معمولاً امکان دنبال کردن ارتباط عبارات وجود دارد و این کار برای پیشرفت جستجو مفید است.

- تسهیلات نمایش
نحوه نمایش نتایج بازیابی شده در اصلاح عبارت جستجو توسط جستجوگر موثر است. بیشتر سیستم های جستجو، این امکان را فراهم می آورند که نتیجه بازیابی را در قالبی خلاصه نمایش داد. این قالب، نمایش تعدادی اقلام است که هر کدام از آن ها دارای یک سطر اطلاعات هستند. جستجوگر می تواند ارتباط بین مواد بازیابی شده را ارزیابی کند و رکوردهایی را که در مورد آن ها نیاز به بازیابی اطلاعات بیشتری است، علامت گذاری نماید. همچنین بسیاری از خدمات جستجوی پیوسته و تعدادی از محصولات سی دی رام به جستجوگر کمک می کنند قالب های مورد نیاز جهت نمایش فیلدهای لازم در برونداد را با استفاده از برچسب ها مشخص کند. همچنین، بسیاری از سیستم ها این امکان را فراهم می آورند که کاربر بتواند با به نمایش گذاشتن سابقه جستجو، راهبرد جستجو را مورد بازبینی قرار دهد.

تسهیلات جستجوی بیشتر در پایگاه های اطلاعاتی
علاوه بر تسهیلات اساسی برای جستجو، بسیاری از خدمات جستجو، دارای تسهیلات بازیابی بیشتری هستند.
- کمک به انتخاب پایگاه اطلاعاتی
خدمات جستجو در بسیاری از پایگاه های اطلاعاتی وجود دارد. اما اغلب، انتخاب بهترین پایگاه اطلاعاتی جهت بازیابی اطلاعات مورد نیاز، مشکل به نظر می رسد. بنابراین گاهی با مقایسه تعداد رکوردهای موجود درباره یک عبارت یا ترکیبی از عبارات در پایگاه های اطلاعاتی متفاوت، می توان انتخاب مناسبی به عمل آورد. برای مثال در پایگاه اطلاعاتی Dialog این کار از طریق نمایه ای از نمایه ها مانند Dialog’s Dial Index امکان پذیر است. بدین ترتیب جستجوگر می تواند یک رده موضوعی وسیع (مانند علوم اجتماعی) را در قسمت Dial Index پایگاه دایالوگ انتخاب کند. سپس دایالوگ، لیستی از پایگاه های اطلاعاتی مربوط به آن موضوع را نمایش می دهد. در مرحله بعد کلیدواژه مورد نظر به پایگاه اطلاعاتی Dial Index داده می شود. دایالوگ، لیستی از پایگاه های اطلاعاتی را که دارای آن کلیدواژه خاص هستند، همراه با تعداد رکوردهای موجود در هر پایگاه، نمایش می دهد. جستجوگر در اینجا می تواند مناسب ترین پایگاه را در بین پایگاه های اطلاعاتی ذکر شده انتخاب کند و با مراجعه به آن پایگاه، جستجوی خود را انجام دهد.

- جستجوی چند فایلی (جستجو در چند پایگاه اطلاعاتی)
جستجوی چند فایلی معمولاً با استفاده از چندین پایگاه اطلاعاتی مختلف در زمینه موضوعی کلی مانند علوم اجتماعی یا مهندسی صورت می گیرد. می توان گفت جستجوی چند فایلی، ابزاری قوی است که مارا از جستجو در چندین پایگاه اطلاعاتی، یکی پس از دیگری بی نیاز می کند. اما این شیوه جستجو یک اشکال عمده دارد. با استفاده از این روش، دیگر نمی توان برخی از ویژگی های پایگاه های اطلاعاتی را به کار گرفت. مثلاً استفاده از فیلدها یا تسهیلات جستجوی خاص (مثل جستجوی بولی) فقط در صورتی امکان دارد که این ویژگی ها در همه پایگاه های اطلاعاتی مورد جستجو وجود داشته باشد.
همچنین عدم وجود عبارات کنترل شده یکسان در پایگاه های اطلاعاتی مختلف، جستجوی چند فایلی عبارات کنترل شده را به نحو موثری محدود می کند. تنها چاره، جستجو به زبان طبیعی است.
اشکال دیگر این روش، بازیابی رکوردهای تکراری به دلیل همپوشانی محتوای پایگاه های اطلاعاتی است. البته بسیاری از خدمات جستجو، روش هایی جهت شناخت و حذف رکوردهای تکراری دارند.

- ذخیره جستجوها و اشاعه اطلاعات گزیده
بسیاری از خدمات جستجو، این امکان را ایجاد کرده اند که راهبرد جستجو به صورت دائمی یا به مدت مشخص در کامپیوتر ذخیره شود. به این ترتیب در زمان های بعدی نیز می تواند مجدداً مورد استفاده قرار گیرد و نیازی به وارد کردن مجدد نیست. بسیاری از خدمات پیوسته، از این هم یک قدم پای را فراتر گذاشته اند و با اجرای جستجوی ذخیره شده در پایگاه اطلاعاتی هنگامی که مواد جدیدی به پایگاه اضافه می شود، به طور خودکار جستجو را روزآمد می کنند. این امر معمولاً اشاعه اطلاعات گزینشی (SDI) نامیده می شود. این خدمات امروزه با معرفی محصولاتی که به طور خودکار اطلاعات گزیده را به سوی کاربران می فرستند، جان تازه ای گرفته است.

- پردازش مواد جستجو شده
بسیاری از خدمات جستجو و تعدادی از دیسک های فشرده، تسهیلات بیشتری ایجاد کرده اند که البته این تسهیلات در ارتباط با بازیابی، موثر نیست؛ اما برای جستجوگر بسیار مفید می باشند. به عنوان مثال، بسیاری از دیسک های فشرده نوری و تعدادی از خدمات جستجو، دارای قالب پیاده سازی هستند که جستجوگر را قادر می سازند که بروندادی را به وجود آورد که برای قرار گرفتن در نرم افزار مدیریت ارجاعات مانند Endnote مناسب باشد. برخی از محصولات دیسک فشرده نیز ممکن است همراه با نرم افزارهای جستجو، نرم افزارهای دیگری برای تجزیه و تحلیل آماری داده های بازیابی شده همراه داشته باشند.

- تنوع زبان فرمان
در پایگاه های اطلاعاتی مختلف، ممکن است از فرمان های مختلف برای اجرای یک عمل استفاده شود. برای مثال، عملگر بولی AND می تواند به صورت * و + نیز استفاده شود. در حالی که نماد + در بعضی از خدمات جستجو به معنی عملگر بولی OR و در بعضی دیگر به معنای عملگر And است.
تلاش هایی در راستای ایجاد یک زبان دستوری و یک استاندارد واحد برای پایگاه های اطلاعاتی در حال انجام است.

معیارهای جستجو که تنها مربوط به ابزارهای کاوش اینترنت هستند:

- جستجو از طریق عملگرهای ریاضی
عملگرهای ریاضی یا عملگرهای تلویحی بولی که به جای عملگرهای بولی استفاده می شوند، عبارتند از علائم + و – که به ترتیب، نقش عملگرهای AND و NOT را در بازیابی اطلاعات ایفا می کنند. این عملگرها به دلیل سهولت در نوشتن و به خاطر سپاری و نیز جلوگیری از ناهماهنگی در درج عملگرهای بولی مورد استقبال قرار گرفته اند. البته هیچ گونه عملگری [تاکنون] برای اجرای نقش OR پیش بینی نشده است.

- عملگر ریاضی +
استفاده از این علامت کاملاً مشابه عملگر AND است. با این تفاوت که باید علامت + را قبل از کلمات یا عباراتی که می خواهیم حتماً در نتایج کاوش وجود داشته باشند، بیاوریم. این عملگر مانند عملگر AND امکان ترکیب کلیدواژه های مختلف را می دهد. همه ابزارهای کاوش اصلی به جز راهنمای موضوعی Look Smart و موتور کاوش Google این علامت را به عنوان جایگزین AND می پذیرند. برای استفاده از این عملگر باید آن را بدون فاصله قبل از کلیدواژه های مورد نظر درج کنیم. در غیر این صورت، در برخی موتورهای کاوش ممکن است به نتایج کاملاً متفاوتی دست یابیم. همچنین باید درمیان دو یا چند کلیدواژه که از طریق عملگرهای ریاضی با یکدیگر ترکیب شده اند، حتماً فاصله قرار داد. به نحوه نوشتن فرمول عملگر ریاضی (+) در مثال زیر توجه کنید:
+Iran(فاصله)+Culture دستور صحیح
Iran(فاصله)+( فاصله) Culture دستور غلط

- عملگر ریاضی –
کاربرد علامت منفی (-) درست مشابه عملگر NOT است. با این تفاوت که باید علامت (-) را قبل از کلمات یا عباراتی که می خواهیم در نتایج کاوش نادیده گرفته شوند، بیاوریم. به نحوه نوشتن فرمول عملگر ریاضی (-) در مثال زیر توجه کنید:
Iran(فاصله) –culture

کاربرد عملگرهای ریاضی و بولی در اغلب موتورهای کاوش دقیقاً شبیه هم است. اما برخی ابزارهای کاوش با اینکه ادعا می کنند نتایج استفاده از عملگرهای ریاضی، کاملاً مشابه به کارگیری عملگرهای بولی است؛ اما استفاده جداگانه از هر یک از آن ها برای ترکیب کلیدواژه ها ممکن است منجر به بازیابی نتایج متفاوتی شود.

- جستجوی کلیدواژه در عنوان صفحات وب
از آنجا که عنوان یک صفحه وب تا حدود زیادی نمایانگر محتوای اطلاعات موجود در آن است، با چنین پیش فرضی می توان ادعا کرد که جستجوی کلیدواژه های مختلف در عناوین صفحات وب کاوشگران را به اطلاعات مرتبط در محیط وب هدایت می کند. تقریباً همه ابزارهای کاوش اصلی، امکان جستجوی کلیدواژه ها را در عنوان صفحات وب فراهم می کنند. در برخی ابزارهای کاوش کادر جداگانه ای برای این جستجو در نظر گرفته شده است. ابزارهای کاوش برای جستجو در عنوان صفحات وب دستورات متفاوتی را به کار می برند. مثلاً دستور “title:” در موتور کاوش AltaVista?، دستور “in title:” در Google، دستور “all in title:” در موتور کاوش Fast Search و دستور “t:” در Yahoo.
همچنین اغلب ابزارهای کاوش از طریق گزینه هایی مانند Words in title, The page title, Titles only, In the title و از این قبیل، امکان جستجو در عنوان صفحات وب را فراهم می کنند. این جستجو به این دلیل اهمیت دارد که از طریق آن می توان دامنه جستجو را به طور قابل توجهی محدود و حجم کمتری از اطلاعات را بازیابی کرد.
همچنین گاهی ترکیب جستجو در عنوان صفحات با جستجوی عبارتی، شیوه بسیار قدرتمند و موثری برای بازیابی اطلاعات مرتبط به شمار می آید.
نمونه ای از عبارت جستجو در عنوان صفحات وب در موتور کاوش Alta Vista را در زیر مشاهده می کنید:
title: using Internet for Research

- جستجوی حوزه سایت ها
هر کشوری به صورت قراردادی حوزه خاصی در محیط وب دارد که نمایانگر وابستگی سایت های آن کشور است. حوزه سایت هر کشوری به جز آمریکا از طریق دو حرف مشخص می شود. برای مثال “ir” معرف کشور ایران است که در انتهای نشانه دسترسی آورده می شود .
مثالی از وب سایت های کشور ایران با دامنه “ir”
http://www.nli.ir وب سایت کتابخانه ملی جمهوری اسلامی ایران

جستجو در حوزه سایت ها به ما امکان می دهد تا فرآیند جستجو را به حوزه خاصی نظیر سایت های وب ایران (ir)، سایت های وب انگلستان (uk)، سایت های وب دانشگاه های آمریکا (edu) و از این قبیل محدود کنیم.
بازیابی صفحات وب متعلق به دانشگاه ها یکی دیگر از کاربردهای مهم جستجوی حوزه سایت ها به شمار می رود. چون دانشگاه های امریکا فقط از حوزه Edu برای ثبت سایت خود استفاده می کنند.
برخی موتورهای کاوش مانند AltaVista? از فرمان “Domain:” و برخی مانند Google از فرمان “all in url:” برای جستجوی حوزه سایت ها استفاده می کنند.
نمونه ای از عبارت جستجو در حوزه سایت را در زیر مشاهده می کنید:
Islamic Revolution of Iran AND domain:ir
باید توجه داشت که با استفاده از عملگر NOT یا عملگر ریاضی “-“ می توان به حذف حوزه سایت ها در فرآیند جستجو پرداخت. به عنوان مثال می توان عبارت جستجو را به این صورت تعیین کرد:
Electronic Journals AND NOT domain:edu

در این میان کشور امریکا دارای چند حوزه مختص خود است که عبارتند از :
Com(Commercial) سایت های تجاری و بازرگانی امریکا
Edu(Educational) سایت های نهادهای آموزشی امریکا
Gov(Governmental) سایت های نهادهای دولتی امریکا
Org(Organizational) سایت های سازمان های غیر انتفاعی امریکا
Mil(Military) سایت های نظامی امریکا
Net(Network) سایت های مربوط به شبکه های کامپیوتری

موارد فراوانی مشاهده می شود که سایت های گوناگون در کشورهای مختلف از حوزه های مرتبط با کشور خود استفاده نمی کنند و سایت های خود را با حوزه های Com, Net یا Org که مربوط به کشور امریکا است به ثبت می رسانند. به عبارت دیگر استفاده از حوزه Com در سطح بین المللی رواج پیدا کرده است و دیگر تنها مختص به کشور امریکا نیست. در واقع هیچ مقررات خاصی مبنی بر اینکه کلیه سایت ها در هر کشور ملزم باشند از حوزه مختص کشور خود استفاده کنند وجود ندارد. در حال حاضر عدم توجه به این موضوع، مشکلات فراوانی برای بازیابی صفحات یا سایت های وب مبتنی بر امکان جستجوی حوزه سایت ها به وجود آورده است.

- جستجو در سایت میزبان
از طریق قابلیت جستجو درسایت میزبان می توان با مشخص کردن نشانی سایت وب مورد نظر، کلیدواژه های مختلف را فقط در سایت دلخواه، جستجو و بازیابی کرد. این روش جستجو هنگامی ارزش واقعی خود را نشان می دهد که با دیگر عملگرهای جستجو ترکیب شود. زیرا اغلب برنامه های جستجو در داخل سایت های وب، عملگرهای بول یا جستجوی عبارتی و از این قبیل را مورد حمایت قرار نمی دهند. مثالی از ترکیب این جستجو با عملگرهای بولی را در زیر مشاهده می کنید:
Iran AND host:www.unesco.org

ابزارهای کاوش مختلف برای اجرای جستجو در سایت میزبان از شیوه های گوناگونی استفاده می کنند. برای مثال موتور کاوش Alta Vista از فرمان “host:” و موتور کاوش Google از فرمان “site:” برای جستجو در سایت میزبان استفاده می کنند. نمونه ای از این جستجو را در زیر مشاهده می کنید:
Site: www.cnn.com
اغلب موتورهای کاوش اصلی کادرهای جستجوی جداگانه ای برای اجرای قابلیت جستجو در سایت میزبان دارند. قابلیت جستجو در سایت میزبان، مانند جستجوی کلیدواژه ها در داخل یک سایت عمل می کند که در بسیاری از سایت های وب تحت عنوان جستجو درسایت آورده شده است.
علاوه بر این با استفاده از عملگر NOT یا عملگر ریاضی “-“ نیز می توان یک سایت مشخص را در فرآیند کاوش نادیده گرفت. به عنوان مثال:
Iran AND TV AND NOT host:www.irib.com- جستجوی کلیدواژه ها در نشانی صفحات وب
در اغلب موتورهای کاوش اصلی، قابلیتی برای جستجوی کلیدواژه ها در نشانی صفحات وب (URL) پیش بینی شده است. قابلیت جستجوی کلیدواژه ها در نشانی صفحات وب، گاهی فراتر از امکان جستجوی حوزه آن ها به شمار می آید. تفاوت اصلی جستجوی کلیدواژه ها در URL با جستجوی حوزه سایت ها این است که از طریق آن می توان کلیدواژه های مورد نظر را "در هر کجای" نشانی صفحات وب جستجو و بازیابی کرد. حال آن که در جستجوی حوزه سایت ها، فقط می توان حوزه اصلی سایت ها (نظیر ir) را محدود ساخت.
برای مثال فرض کنید در نظر دارید کلیه صفحات وبی را که در نشانی دسترسی آن ها کلیدواژه freebooks به کار رفته است، بازیابی کنید. انجام چنین فرآیندی در موتور کاوش Alta Vista به این صورت است:
freebooks

موتور کاوش Google از دستور “inurl:” به این منظور استفاده می کند.
برخی دیگر از ابزارهای کاوش برای اجرای این امکان جستجو، فهرست انتخاب یا کادرهای جداگانه ای دارند.
این جستجو هنگامی ارزش واقعی خود را نشان می دهد که از طریق عملگرهای بول به ترکیب کلیدواژه های مختلف بپردازیم. برای مثال:
Online Agriculture Journals AND url:Agri*

از آنجا که طراحان سایت های وب، اغلب، هر صفحه وب را از طریق کلمات کلیدی مرتبط با آن صفحه و به صورت موضوعی، از نشانی صفحه اصلی متمایز می کنند، بنابراین از طریق جستجوی کلیدواژه ها در نشانی صفحات وب تا حدودی می توان به صفحات مرتبط در زمینه موضوعی مورد نظر نیز دست یافت. برای مثال:
http://www.cnn.com نشانی صفحه اول سایت شبکه خبری سی ان ان
http://www.cnn.com/specials/ نشانی بخش مربوط به اخبار مهم این شبکه خبری

اما از آنجا که برخی طراحان، در نشانی دسترسی صفحات از کلمات نامرتبط و نامفهومی استفاده می کنند، همین امر می تواند استفاده از قابلیت جستجو در URL را دچار مشکل کند.
علاوه بر این، از آنجا که بسیاری از سایت های وب، عنوان خلاصه یا کامل خود را به عنوان بخشی از نشانی دسترسی ثبت می کنند، از طریق این قابلیت می توان کلیدواژه های مورد نظر را در سایت آن ها جستجو کرد. برای مثال:
www.nli.ir (National Library of Iran) سایت کتابخانه ملی جمهوری اسلامی ایران

- جستجوی پیوندهای فرامتنی در صفحات دیگر
قابلیت جستجوی پیوندهای فرامتنی در صفحات وب دیگر، به ما امکان می دهد که دریابیم کدام سایت ها، نشانی یک صفحه یا سایت وب مشخص را در صفحه خود گنجانده اند. به تعبیر دیگر، این جستجو نوعی تحلیل استنادی به شمار می آید. تجزیه و تحلیل استنادی سایت ها، مهم ترین کاربرد این امکان جستجو است. از این شیوه می توان دریافت که نشانی یک سایت مشخص در چند صفحه یا سایت وب دیگر آورده شده است؛ یا به تعبیر دیگر، سایر صفحات وب [تا چه میزان] به آن استناد کرده اند. شاید بتوان این پیش فرض را مطرح ساخت که هر چه تعداد استنادها به یک صفحه یا وب سایت بیشتر باشد، آن صفحه از ارزش و اهمیت نسبی بیشتری برخوردار است. چنین پیش فرضی، یکی از مهم ترین معیارهای رتبه بندی نتایج کاوش در موتور کاوش Google به شمار می آید که از آن تحت عنوان Link Popularity نام برده می شود. یکی دیگر از موارد کاربرد این جستجو شناسایی صفحات وبی است که در آن ها نشانی قدیمی و غیر قابل دسترس از یک سایت گنجانده شده است. از این طریق می توان ضمن شناسایی سایت هایی که نشانی قدیمی را در صفحات خود دارند، آن ها را از نشانی جدید مطلع کرد.
موتور کاوش Alta Vista و Google از دستور “link:” برای اجرای این جستجو استفاده می کنند. برای مثال می خواهید بدانید که نشانی سایت صدا و سیمای جمهوری اسلامی ایران در قالب یک پیوند فرامتنی در کدام صفحات وب آورده شده است. کافی است عبارت جستجو را به این صورت وارد کنید:
Link:www.irib.com
برخی دیگر از ابزارهای کاوش برای انجام این نوع جستجو، فهرست انتخاب یا کادر جستجوی جداگانه ای دارند.

- جستجوی کلیدواژه ها به صورت پیوند فرامتنی
تنها ابزار کاوش اصلی که امکان جستجوی کلیدواژه ها در صفحات وب را در قالب پیوندهای فرامتنی ارائه می کند، موتور کاوش Alta Vista است. فرض کنید می خواهید عبارت “Free Online Journal” را حتماً در قالب پیوند فرامتنی در صفحات وب بازیابی کنید. برای انجام چنین کاری عبارت جستجو را به این صورت وارد کنید:
free online journals

استفاده از قابلیت Anchor Search هنگامی اهمیت پیدا می کند که این پیش فرض را بپذیریم: جستجوی عبارت ها یا کلیدواژه ها در قالب پیوند فرامتنی در صفحات وب تا حدود بسیاری می تواند ما را به صفحات یا سایت های وب مرتبط در زمینه موضوع مورد نظر هدایت کند.

- جستجو از طریق حساسیت برخی ابزارهای کاوش نسبت به بازیابی کلمات با حروف بزرگ
برخی ابزارهای کاوش، نسبت به بازیابی کلیدواژه ها با حروف بزرگ حساس هستند. با استفاده از این روش جستجو می توان با وارد کردن اسامی خاص یا اختصارات که اغلب با حروف بزرگ آغاز می شوند، کلیدواژه های مورد نظر را دقیقاً بازیابی کرد و از بازیابی کلیدواژه های دیگر با املای مشابه (حروف کوچک) اما با مفهوم دیگر جلوگیری کرد. برای مثال، فرض کنید به دنبال اطلاعاتی درباره بیماری ایدز (AIDS) هستید. ابزارهای کاوشی (مانند Alta Vista) که نسبت به بازیابی کلیدواژه ها با حروف بزرگ حساس هستند، سایر مفاهیم با املای مشابه (aids) را بازیابی نمی کنند. همچنین جستجوی کلیدواژه های bill (به معنای صورت حساب) و Bill (به معنای اسم خاص) چنین وضعیتی دارد.
در میان ابزارهای کاوش اصلی، فقط موتور کاوش Alta Vista چنین قابلیتی دارد.
اشکالی که می توان به این شیوه جستجو وارد کرد، این است که استفاده از این قابلیت ممکن است جامعیت در بازیابی اطلاعات را به طور قابل توجهی کاهش دهد. زیرا ممکن است یک کلیدواژه مشخص در صفحات وب مختلف، به صورت های گوناگون آورده شود. مثلاً کلیدواژه “Akbari” ممکن است به صورت “AKBARI” و ... نیز آورده شود. در این حالت، استفاده از ابزار کاوشی که نسبت به حروف بزرگ حساس است، می تواند منجر به حذف کلیدواژه های دیگر شود.

راهبردهای جستجو
پس از معرفی فنون و معیارهای جستجو، به بررسی نحوه ترکیب این فنون برای انجام یک جستجوی موفق می پردازیم. در واقع زمانی که جستجوگر، عبارت جستجوی خود را بر اساس قواعد و فرمول های جستجو، با یکدیگر ترکیب می کند و آن را به کار می برد، راهبردی برای جستجو برگزیده است. جستجوگر پس از مشاهده نتایج بازیابی شده، ممکن است به اصلاح و تغییر این راهبرد بپردازد تا بتواند تعداد بیشتری از منابع مرتبط با نیاز اطلاعاتی خود را بازیابی کند. بنابراین راهبرد جستجو به تدریج شکل می گیرد و فرآیند ساختن عبارت جستجو، قابل تکرار است.
برای مثال، برخی افراد ممکن است از جستجوی مختصر به این منظور استفاده کنند. در این جستجو، مفهوم باید تنها توسط یک عبارت جستجو و بدون توجه به مترادف ها و کلمات مرتبط با آن، جستجو شود. این شیوه زمانی استفاده می شود که جوینده اطلاعات به منابع اطلاعاتی محدودی نیاز داشته باشد. اما در صورتی که نیاز به یک جستجوی جامع (بازیافت بالا) وجود داشته باشد، نتایج چنین جستجویی احتمالاً قابل قبول نمی باشد.

تاکتیک های جستجو
ممکن است هر راهبرد جستجویی را که بر می گزینیم، بار اول با موفقیت همراه نباشد. در چنین حالتی لازم است به اصلاح و تغییر راهبرد جستجو بپردازیم. به این منظور، دو رویکرد اساسی برای جستجوگر وجود دارد:
1. محدودتر کردن جستجو که باعث کاهش موارد بازیابی می شود.
2. گسترش دادن جستجو که باعث افزایش موارد بازیابی می شود.

از طریق تاکتیک های جستجو می توان جامعیت و مانعیت نسبی در نتایج جستجو به وجود آورد. به تعاریف این دو مفهوم توجه کنید:
جامعیت: بازیابی حداکثر اقلام اطلاعاتی مرتبط در پایگاه های اطلاعاتی از طریق گسترش دامنه جستجو
مانعیت: بازیابی بیشترین اقلام اطلاعاتی مرتبط در پایگاه های اطلاعاتی و در عین حال جلوگیری از بازیابی اقلام اطلاعاتی نامرتبط
بنابراین با محدود کردن جستجو، دقت عمل، افزایش و بازیافت، کاهش می یابد. در مقابل با گسترش دادن جستجو دقت عمل، کاهش و بازیافت، افزایش می یابد. از این رو کاوشگران اینترنت برای محدود کردن و گسترش دادن دامنه کاوش، باید با فنون و امکانات جستجو آشنایی کامل داشته باشند.

- تاکتیک های محدود کردن جستجو (افزایش مانعیت و دقت عمل)
برای انجام این کار روش های مختلف وجود دارد.
1. استفاده از یک اصطلاح اخص به جای اصطلاحات عام و کلی: روش کار، جایگزین کردن عبارات زبان طبیعی با مناسب ترین و اخص ترین توصیفگر است.
2. مشروط کردن فیلد عبارت جستجو: حضور یک عبارت در فیلد عنوان و توصیفگر احتمالاً شانس بازیابی موارد مربوط را به حداکثر می رساند. چون عنوان و توصیفگر معمولاً بیانگر محتوای منابع اطلاعاتی هستند.
3. استفاده از عملگر بولی AND و ترکیب چندین کلیدواژه توسط این عملگر
4. استفاده از عملگرهای مجاورتی (مانند N2) به جای عملگر AND
5. افزایش محدودیت های جستجو (محدودیت های زبانی، تاریخ انتشار، نوع مدرک و ...)

- تاکتیک های گسترش جستجو (افزایش جامعیت و بازیافت)
جستجوگر با استفاده از شیوه های گسترش جستجو می تواند تعداد موارد بازیابی را افزایش دهد؛ بدون اینکه تعداد زیادی موارد نامربوط بازیابی شوند. البته باید مراقب باشد که از موضوع جستجو دور نگردد. شیوه های افزایش بازیابی درست عکس شیوه های کاهش بازیابی است.
1. کاهش تعداد عباراتی که با استفاده از عملگر بولی AND با هم ترکیب می شوند.
2. استفاده از عبارات مترادف مفاهیم مورد جستجو: به این منظور می توان کلماتی را که در معنی با عبارت مورد جستجو ارتباط دارد و بازیافت آن ها زیاد است را انتخاب نمود.
3. استفاده از شیوه کوتاه سازی عبارات. البته این امر می تواند سبب ریزش کاذب در بازیابی منابع شود.
4. استفاده از آن دسته از عملگرهای مجاورتی که محدودیت کمتری را در جستجو اعمال می کنند. مثلاً استفاده از عملگر N به جای عملگر W
5. از بین بردن محدودیت های زبان، تاریخ و ...
6. از میان برداشتن شرط واقع شدن عبارت جستجو در فیلد خاص

چگونه جستجوی موفقی داشته باشیم
به طور کلی کاوشی در محیط وب موفق است که از طریق آن بتوان به اطلاعات مورد نظر دست یافت. بنابراین، میزان موفقیت فرآیند کاوش در محیط وب به طور مستقیم با نیاز اطلاعاتی کاربران و آنچه مورد بازیابی قرار گرفته است، ارتباط دارد.
میزان موفقیت یا کارایی نظام های بازیابی اطلاعات (نظیر پایگاه های اطلاعاتی بر روی دیسک فشرده، شبکه های پیوسته و ابزارهای کاوش اینترنت، از طریق دو مفهوم جامعیت و مانعیت ارزیابی می شود. به طور کلی جستجویی کارآمد و موفق است که جامعیت و مانعیت نسبی مناسبی داشته باشد.
چگونه می توانیم دامنه جستجو را گسترش دهیم و تا حد امکان، کلیه اقلام اطلاعاتی مرتبط در یک پایگاه اطلاعاتی را بازیابی کنیم (جامعیت)؛ ولی در عین حال، از بازیابی اقلام اطلاعاتی نامرتبط دیگر جلوگیری نماییم (مانعیت)؟ این مسأله از دهه 1950 مورد توجه محققان در ارزیابی نظام های بازیابی اطلاعات قرار گرفته است.
در قسمت های قبل در مورد شیوه های محدود کردن و گسترش دادن جستجو توضیحاتی ارائه کردیم. از طریق این شیوه ها می توان جامعیت و مانعیت نتایج جستجو را کنترل کرد. بنابراین لازم است کاوشگران با این شیوه ها آشنایی داشته باشند. به عنوان مثال فرض کنید به دنبال اطلاعاتی درباره "روزنامه های ایران" هستید. شما می توانید فرآیند زیر را به منظور بازیابی بیشترین نتایج مرتبط اجرا کنید. شما در این فرآیند ابتدا جستجو را محدود می کنید (افزایش مانعیت) و سپس به شیوه های مختلف، آن را گسترش می دهید (افزایش جامعیت).
Iran AND Newspapers
titel:Iran Newspapers
titel:”Iran Newspapers”
titel:”Iran* Newspapers”

علاوه بر این با جستجوی کلیدواژه های مترادف دیگر نظیر Persian و Farsi می توان دامنه جستجو را گسترش داد. باید به این نکته مهم توجه داشت که در پیش گرفتن سیاست افزایش بی رویه مانعیت ممکن است منجر به از دست دادن اقلام اطلاعاتی مرتبط دیگر (کاهش جامعیت) نیز شود.
بنابراین روشن است که انجام جستجوی موفق، فراتر از وارد کردن یک یا چند کلیدواژه در کادر جستجوی ابزارهای کاوش و دسترسی به اطلاعات مورد نظر در یک مرحله است.
این سوال ممکن است برای بسیاری از کاوشگران وب مطرح باشد که برای شروع جستجو از کدام یک از ابزارهای کاوش (یعنی راهنماهای موضوعی، موتورهای کاوش یا ابرموتورهای کاوش) استفاده کنند. هدف راهنماهای موضوعی وب نظیر Yahoo, Open directory, Look Smart دسترسی به اطلاعات کلی درباره یک زمینه موضوعی است. برای مثال اگر به دنبال اطلاعاتی در مورد مجلات، سازمان ها، انجمن ها، دانشگاه ها، منابع مرجع و ... در زمینه شیمی، ریاضی و ... هستید؛ راهنماهای موضوعی وب، بهترین ابزار برای دسترسی به تعداد زیادی از سایت های وب مرتبط و با کیفیت نسبتاً بالا به شمار می آیند. اما راهنماهای موضوعی، جامعیت کمتری نسبت به موتورهای کاوش دارند و حجم بسیار کمی از اطلاعات موجود در محیط وب را پوشش می دهند. همچنین اغلب از طریق راهنماهای موضوعی نمی توان به زمینه های موضوعی خاص دست یافت.
حال آنکه از طریق موتور کاوش می توان صفحات وبی را بازیابی کرد که در آن ها کلیدواژه های مورد نظر به کار رفته است. ولی راهنماهای موضوعی اغلب ما را به سایت های وب که خود ممکن است حاوی ده ها یا صدها صفحه وب جداگانه باشند، هدایت می کنند.
ابرموتورهای کاوش به منظور بالا بردن کارایی و افزایش جامعیت جستجوی اطلاعات ابداع شدند. بنابراین استفاده از ابرموتورهای کاوش هنگامی قابل توجیه است که از طریق راهنماهای موضوعی یا موتورهای کاوش منفرد به اطلاعات مورد نظر دست نیابیم.

مراحل اصلی یک کاوش موفق
مرحله اول: دقیقاً به دنبال چه چیزی هستید؟
قبل از انجام کاوش باید بتوانیم موضوعی را که به دنبال آن هستیم به صورت جامع و مانع در یک یا دو جمله برای خود یا دیگران (کاوشگران وب) توصیف کنیم. نظیر "چه شیوه های رایجی برای کاهش وزن وجود دارد؟"

مرحله دوم: شناسایی مفاهیم مهم:
در این مرحله باید مفاهیم اصلی و کلیدی در سوال مورد نظر شناسایی شود. در مثال فوق، مفاهیم اصلی عبارتند از: "کاهش وزن"، "شیوه های رایج"

مرحله سوم: استخراج کلیدواژه ها از مفاهیم اصلی
در این مرحله باید کلیدواژه های مرتبط را از مفاهیم اصلی استخراج کرد؛ که در اینجا سه کلمه "کاهش"، "وزن" و "شیوه ها" هستند. می توان برخی کلیدواژه ها را که بار اطلاعاتی کمتری دارند، نادیده گرفت (مانند کلمه "رایج" در مثال فوق). هچنین توصیه می شود در آغاز کاوش از دو یا سه کلیدواژه استفاده شود. زیرا جستجوی یک کلیدواژه به تنهایی منجر به بازیابی هزاران صفحه یا سایت وب می شود.
مرحله چهارم: ترجمه کلیدواژه ها به زبان مورد نظر:
دراین مرحله باید با استفاده از فرهنگ ها، اصطلاحنامه ها و ... کلیدواژه ها را به زبان مورد نظر (انگلیسی، فرانسه و ...) ترجمه کرد. ترجمه صحیح و دقیق کلیدواژه ها به ویژه در حوزه های علمی و تخصصی از اهمیت بسزایی برخوردار است. در مثال مورد بحث، کلیدواژه ها را می توان این گونه ترجمه کرد:
Losing: کاهش weight: وزن method: روش

مرحله پنجم: انتخاب اصطلاحات مترادف:
در این مرحله باید مهم ترین کلمات و اصطلاحات مترادف و مرتبط با کلیدواژه های مورد نظر را شناسایی کرد و در عبارت جستجو به کار گرفت. از این طریق می توان جامعیت در بازیابی اطلاعات را افزایش داد. در این مرحله استفاده از فرهنگ های مترادف و متضاد و اصطلاحنامه ها بسیار سودمند است. در مثال فوق، می توان کلیدواژه های مترادف زیر را انتخاب کرد:
method: technique losing: reducing weight: fat

مرحله ششم: چه قابلیت های کاوشی مورد نیاز است؟
در این مرحله، باید امکانات و قابلیت های کاوش منطبق با موضوع به دقت مشخص شود. در یک کاوش ممکن است عملگر NOT و جستجوی عبارتی مورد نیاز باشد و در کاوشی دیگر امکان جستجوی حوزه سایت ها.
در مثال مورد بحث باید از عملگر AND، OR، امکانات کوتاه سازی، جستجوی ترکیبی و عبارتی استفاده شود.

مرحله هفتم: انتخاب ابزار کاوش با توجه به قابلیت های کاوش
در انتخاب ابزارهای کاوش چند نکته بسیار حائز اهمیت است که عبارتند از:
- آشنایی کامل با قابلیت ها و امکانات جستجو شامل نحوه اجرای عملگرهای بول، عملگرهای ریاضی، جستجوی عبارتی و ...
- تجربه جستجوی عملی و آگاهی از دقت و صحت اجرای امکانات جستجو
- آگاهی از محدودیت های ابزار کاوش شامل امکانات کاوش پیشرفته، نمایش اطلاعات و واسط جستجوی کاربر
برای مثال، در میان ابزارهای کاوش اصلی ]تاکنون[ تنها موتور کاوش Alta Vista و AOL امکان استفاده از قابلیت جستجوی نزدیک یابی را در اختیار قرار می دهند. بنابراین اگر در استراتژی کاوش شما استفاده از این عملگر ضروری است، باید به این موتور کاوش مراجعه کنید.

مرحله هشتم: استفاده از عملگر کوتاه سازی
با استفاده از عملگر کوتاه سازی (*) می توان شکل جمع یا دیگر مشتقات کلیدواژه مورد نظر را پوشش داد. این عملگر در مثال فوق به این صورت به کار می رود:
method* los* technique* reduc*

مرحله نهم: ترکیب کلیدواژه های مترادف از طریق عملگر OR
در این مرحله باید کلیدواژه ها و اصطلاحات مترادف را که در مرحله پنجم انتخاب شده اند، از طریق عملگر OR با یکدیگر ترکیب کرد تا به این ترتیب دامنه جستجو، گسترش یابد. در این مرحله همواره توصیه می شود از بخش جستجوی پیشرفته ابزارهای کاوش استفاده شود. زیرا اغلب، از این طریق می توان به نتایج دقیق تری دست یافت.
method* OR technique*
los* OR reduc*
weight OR fat

مرحله دهم: ترکیب مجموعه کلیدواژه های مترادف با یکدیگر از طریق عملگر AND
در این مرحله به منظور محدود کردن فرآیند کاوش باید مجموعه های جداگانه از کلیدواژه های مترادف و مرتبط را از طریق عملگر AND با یکدیگر ترکیب کرد. برای مثال:
(method* OR technique*) AND (los* OR reduc*) AND (weight OR fat)

مرحله یازدهم: محدود کردن جستجو از طریق فیلدهای مختلف
نمونه هایی از این جستجو عبارتند از:
- جستجوی کلیدواژه ها در عنوان صفحات وب (Title search)
- محدود کردن حوزه سایت (Domain search)
- جستجو در سایت میزبان (Host Search)
- محدود کردن تاریخ انتشار (Date Search)
- محدود کردن زبان صفحات وب (Language Search)

مرحله دوازدهم: استفاده از قابلیت جستجوی عبارتی
جستجوی عبارتی به ما امکان می دهد که کلیدواژه های مورد نظر را به همان ترتیبی که در کادر جستجو وارد شده اند، مورد بازیابی قرار دهیم. در مثال زیر، انجام جستجوی عبارتی از طریق جایگزینی کلیدواژه های مترادف، با یکدیگر مقایسه شده است:
“ways of losing weight” 1218 رکورد
“method of losing fat” 71 رکورد

مرحله سیزدهم: جستجوی عبارتی در فیلد عنوان
با استفاده از این روش می توان کلیدواژه های مورد نظر را به همان ترتیبی که وارد کادر جستجو شده اند، در عنوان صفحات وب بازیابی کرد. برای مثال
title:”method of losing weight”

مرحله چهاردهم: بررسی و تجزیه و تحلیل دقیق نتایج بازیابی شده
گاهی دیده می شود که کاوشگران فقط صفحه اول نتایج کاوش به دست آمده را بررسی می کنند. حال آنکه احتمال دارد اطلاعات مورد نظر آن ها در صفحات بعدی وجود داشته باشد. از این رو اغلب، توصیه می شود که حداقل 5 صفحه ابتدایی از نتایج بازیابی شده به دقت بررسی شود. گاهی نیز کاوشگران با خواندن عنوان یک صفحه یا سایت بازیابی شده در مورد محتوای آن قضاوت می کنند. اگر چه این موضوع در بسیاری از موارد، شیوه مناسبی برای تشخیص میزان مرتبط بودن یا نبودن یک صفحه بازیابی شده است؛ اما در کلیه موارد عمومیت ندارد. بنابراین باید متن کامل مدخل های بازیابی شده (به ویژه 10 مدخل ابتدایی در موتورهای کاوش) مورد بررسی قرار گیرد. علاوه بر این گاهی مشاهده می شود که پس از بازیابی صفحات وب، به سرعت نمی توان دریافت که کلیدواژه های مورد جستجو در کجای صفحه وب و در چه قسمتی از متن بازیابی شده وجود دارند. استفاده از فرمان Find در برنامه های مرورگر Internet Explorer یا Netscape به کاوشگران این امکان را می دهد که بتوانند به سرعت کلیدواژه مورد نظر را در یک صفحه بازیابی شده، پیدا کنند. قابلیت Find را می توان در برنامه مرورگر Internet Explorer از طریق فهرست انتخاب Edit یا فرمان Ctrl-F فعال کرد.
در نهایت باید گفت، مرحله بررسی و تجزیه و تحلیل نتایج بازیابی شده از اهمیت بسیاری برخوردار است و برای تشخیص مرتبط بودن یا نبودن صفحات بازیابی شده، باید حوصله و دقت زیادی به خرج داد.

مرحله پانزدهم: استفاده از موتورهای کاوش دیگر
موتورهای کاوش از لحاظ تعداد صفحات وبی که در پایگاه اطلاعاتی خود نمایه کرده اند و همچنین امکانات جستجو و بازیابی اطاعات با یکدیگر تفاوت دارند. علاوه بر این، آن ها برای رتبه بندی نتایج کاوش از معیارهای مختلفی استفاده می کنند. موارد مذکور از مهم ترین دلایل عدم بازیابی نتایج مشابه در موتورهای کاوش مختلف است. بنابراین بدیهی است گاهی باید از موتورهای کاوش مختلف استفاده کرد تا از این طریق بتوان به نتایج مورد نظر دست یافت.

مرحله شانزدهم: پالایش یا اصلاح فرآیندکاوش
در صورتی که پس از انجام مراحل فوق، نتایج مورد نظر حاصل نشد، باید در استفاده از امکانات جستجو بازنگری کنیم و استراتژی اولیه جستجو را تغییر دهیم. البته باید به این نکته مهم توجه داشت که بسیاری از منابع اطلاعاتی در محیط وب، به طور رایگان قابل دسترس نیستند. بنابراین حتی اگر از بهترین ابزارهای کاوش و پیچیده ترین امکانات کاوش استفاده کنیم، گاهی ممکن است هرگز به اطلاعات مورد نیاز دسترسی پیدا نکنیم.

مرحله هفدهم: نشان گذاری نتایج جستجو
قابلیت نشان گذاری به کاربران امکان می دهد تا پس از یافتن اطلاعات مورد نظر در وب، نشانی دسترسی آن ها را برای مراجعات احتمالی بعدی ذخیره کنند. با انتخاب گزینه های Add to Favorite و Add Bookmarks به ترتیب در مرورگرهای Internet Explorer , Netscape می توان از قابلیت نشان گذاری صفحات وب استفاده کرد. یکی از مهم ترین کاربردهای نشان گذاری صفحات وب، علاوه بر تسهیل دسترسی به یک صفحه یا سایت مشخص، ذخیره کردن نتایج کاوش به دست آمده در موتورهای کاوش مختلف است. به عبارت دیگر، از طریق نشان گذاری نتایج جستجو، دیگر نیازی به تعیین استراتژی کاوش، انتخاب و درج کلیدواژه ها و... نیست و کاربر در آینده می تواند به نتایج آن کاوش دسترسی داشته باشد.

چرا نمی توانیم به اطلاعات مورد نظر دسترسی پیدا کنیم؟
مهم ترین مسائل و اشتباهات احتمالی در جستجو و بازیابی اطلاعات در شبکه وب که توسط کاوشگران مبتدی صورت می پذیرد، عبارتند از:
1. غلط املایی در کلیدواژه های مورد نظر
نداشتن املای درست کلیدواژه ها یا اشتباه در نوشتن آن ها، یکی از مهم ترین دلایل عدم دسترسی به اطلاعات در محیط وب است. البته برخی ابزارهای کاوش نظیر Alta Vista و Google برنامه غلط یاب خودکار دارند. به این ترتیب حتی اگر کلیدواژه ای (برای مثال Iran) به شکل نادرست در این دو ابزار کاوش مورد جستجو قرار گیرد، در پایین کادر جستجو، املای صحیح کلمه مورد نظر پیشنهاد می شود و کاربر می تواند با انتخاب گزینه صحیح، فرآیند جستجو را با کلیدواژه صحیح در پیش بگیرد.
برای مثال اگر کلیدواژه Iran را به اشتباه به صورت Irran وارد کرده باشید، موتور کاوش Google به این صورت پیغام می دهد:
Did you mean: Iran?
با این وجود، همیشه نمی توان به برنامه های غلط یاب خودکار در ابزارهای کاوش اطمینان کرد. زیرا کلماتی وجود دارند که اگر چه از لحاظ املایی صحیح هستند، اما ممکن است از نظر مفهوم، معنای کاملاً متفاوتی داشته باشند (مانند Strong و Strung).
در ضمن بخش غلط یاب برنامه واژه پرداز Microsoft Word نیز می تواند در شناسایی نمونه صحیح کلیدواژه ها مفید باشد.
2. درج نادرست نشانی دسترسی به صفحات وب (URL)
در خواندن و نوشتن نشانی های وب باید دقت بسیاری به خرج داد. زیرا حتی اگر یک نقطه در هنگام درج یا خواندن نشانی صفحه مورد نظر فراموش شود، نمی توان صفحه مورد نظر را بازیابی کرد. جاافتادگی یا نوشتن html به جای htm یا درج www در نشانی سایت هایی که فاقد آن هستند، از دیگر اشتباهات رایج است. یکی دیگر از مشکلات، وجود "حروف بزرگ" در بخشی از نشانی دسترسی است. در این صورت باید آن بخش از نشانی اینترنتی را حتماً با حروف بزرگ تایپ کرد. در غیر این صورت بازیابی نمی شود.

3. استفاده از کلیدواژه های عام
باید تا حد امکان سعی شود از کلیدواژه های هر چه خاص تر استفاده شود. برای مثال اگر به دنبال اطلاعاتی درباره "اتومبیل های ژاپنی" هستید بهتر است نوع، مدل و سال آن را مشخص کنید.

4. استفاده از کلیدواژه های بسیار خاص
با اینکه اغلب توصیه می شود هنگام جستجو در وب تا حد امکان از کلیدواژه های خاص استفاده شود، اما گاهی خاص کردن بیش از حد عبارت جستجو می تواند منجر به عدم بازیابی اطلاعات مورد نظر شود. به هر حال باید به این نکته توجه داشت که انتخاب کلیدواژه های خاص حتی در صورتی که هیچ صفحه یا سایت وبی بازیابی نشود، بسیار بهتر از بازیابی حجم بسیار زیادی از اطلاعات و غرق شدن در انبوهی از صفحات وب نامرتبط است.

5. عدم استفاده از مفاهیم و کلمات مترادف و مرتبط
هنگام انتخاب کلیدواژه ها باید دیگر کلیدواژه های مرتبط و مترادف را نیز در فرآیند کاوش مد نظر قرار داد.

6. عدم بررسی دقیق نتایج کاوش
گاهی ممکن است کاوشگران تنها 10 مدخل ابتدایی بازیابی شده در صفحه اول را بررسی کنند و صفحات دیگر را نادیده بگیرند. عدم بررسی دقیق کلیه نتایج بازیابی شده (به طور معمول 50 مدخل ابتدایی) یکی دیگر از دلایل عدم دسترسی به اطلاعات مورد نظر است.

7. عدم آشنایی با نحوه به کارگیری امکانات جستجو
عدم آشنایی و استفاده صحیح از امکانات کاوش یا به کارگیری نادرست آن ها در ابزارهای کاوش مختلف، یکی دیگر از دلایل عدم دسترسی به اطلاعات مورد نظر در محیط وب است. برای مثال، اگر کاربر نداند که "پیش گزیده کاوش" در بخش جستجوی ساده موتورکاوش Alta Vista ]تاکنون[ عملگر AND است، ممکن است با این فرض که کلیدواژه ها به طور خودکار از طریق عملگر OR با یکدیگر ترکیب می شوند، فرآیند کاوشی را در پیش بگیرد و به نتایج کاملاً غیر مرتبطی دست یابد.

8. عدم وجود اطلاعات مورد نظر در شبکه وب
علت اینکه نمی توان به برخی منابع اطلاعاتی در محیط وب دسترسی پیدا کرد این است که حجم بسیار زیادی از منابع اطلاعاتی در محیط وب قرار نگرفته اند یا به صورت رایگان در دسترس نیستند. بسیاری از منابع اطلاعاتی علمی و تخصصی نظیر متن کامل مجلات معتبر، پایگاه های اطلاعاتی، کتاب های چاپی و منابع مرجع در محیط وب قابل دسترس نیستند. علاوه بر این حجم بسیار زیادی از اطلاعات موجود در اینترنت در بخشی از وب تحت عنوان "وب نامرئی" قرار دارد که روبات های ابزارهای کاوش نمی توانند آن ها را شناسایی و در پایگاه خود نمایه کنند.
فتحیان

منابع و مآخذ
پائو، میراندا لی (1380). مفاهیم بازیابی اطلاعات (رحمت الله فتاحی و اسدالله آزاد، مترجمان). مشهد: دانشگاه فردوسی مشهد.

حسن زاده، محمد (1383). تأثیر مدل های بازیابی اطلاعات بر میزان ربط. اطلاع شناسی، 2 (1)، 63- 90.

کوشا، کیوان (1381). ابزارهای کاوش اینترنت: اصول، مهارتها و امکانات جستجو در وب. تهران: نشر کتابدار.

گزنی، علی (1381). دیدگاه های تعاملی در طراحی نظام های بازیابی اطلاعات. فصلنامه کتاب، 13 (1)، 71- 83.

لارج، آندرو؛ تد، لوسی؛ هارتلی، ریچارد (1382). جستجوی اطلاعات در عصر اطلاعات؛ اصول و مهارت ها (زاهد بیگدلی، مترجم). تهران: نشر کتابدار.

لنکستر، فردریک ویلفرد (1379). نظام های بازیابی اطلاعات: ویژگی ها، آزمون و ارزیابی (جعفر مهراد، مترجم). شیراز: انتشارات نوید.
XML Revisions of $tag
تاریخچه صفحات :: آخرین نویسنده: fathian :: مالک صفحه: Admin ::
 

گشتن


جستجو در ویکی
جعبه ابزار


انتخاب زبان
زبان دلخواه:بخشها

Home Page | About us | Contact us | Site Map 
©2008 Ferdowsi University Of Mashhad.