
موتور جست و جوی وب از سه بخش تشکیل می شود:
1-یک دنبالگرد crawler که صفحات وب را پیدا می کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد،
2- یک شاخص گذار indexer که شاخص معکوس inverted index (نیز موسوم به شاخصindex )را که ساختمان اصلی داده های مورد استفاده ی آن موتور جست وجو است و صفحات وب دنبال گشته crawled را ارائه می کند ،
3-یک پاسخ دهنده که پرس و جو های کاربر را با استفاده از شاخصها پاسخ می دهد .
.
.
17 صفحه
با این نرم افزار خودتان برای تبلیغاتتان بانک ایمیل و یا موبایل تهیه کنید
فرمت فایل : WORD + PPT
تعداد صفحات:33
فهرست مطالب:
عنوان شماره صفحه
اینترنت و حضور آن 3
موتور جستجو 3
علت پیدایش موتورهای جستجو 5
انواع موتورهای جستجو 6
موتور جستجوگر چگونه کار می کند؟ 9
بهینه سازی موتورهای جستجو 17
رتبه بندی موتورهای جستجو 20
بدست آوردن رتبه بالا در موتورهای جستجو 25
معرفی به موتورهای جستجو و فهرست ها 25
تبلیغات در موتورهای جستجو 26
فاکتورهای کاهش رتبه در موتورهای جستجو 27
بررسی و آنالیز وب سایت 27
نکاتی در مورد موتورهای جستجو 28
کاستی های الگوریتمی در موتورهای جست و جوی وب 28
اینترنت و حضور در آن
از سال ۱۹۹٢ یک منبع بسیار مهم دیگر به منابع اطلاعاتی اضافه شد و آن شبکه جهانی وب (World Wide Web) یا همان اینترنت است. به جز کاربرد در زمینه اطلاع رسانی اینترنت کاربردهای بیشمار و غیر قابل تصوری در تجارت و سایر زمینه های زندگی نیز پیدا کرده است. به بیان دیگر امروزه در هر زمینه ای که بتوان تصور کرد، اینترنت یک ابزار موثر و توانمند به حساب می آید. حضور در اینترنت حقیقتا باید بخشی از بازاریابی شما باشد.
موتور جستجو
اگر موتورهای جست و جو نبودند...
هیچ تا به حال از خودتان پرسیده اید که وقتی با یک موتور جست و جوی قوی مثل گوگل کار می کنید و با وارد کردن یک یا چند لغت عجیب و غریب ، گوگل کلی نتایج جالب و مرتبط تقدیم تان می کند ، چه اتفاقی می افتد ؟
اگر تا به حال دنبال پاسخ این پرسش نرفته اید یا پاسخ مناسبی برای آن پیدا نکرده اید ، پیشنهاد می کنم تا آخر این مقاله همراه ما باشید.
اگر چه الگوریتم دقیق و چگونگی کار گوگل یا خیلی از موتورهای جست و جو ، کاملاً معلوم نیست اما کلیاتی در کار بسیاری از موتورهای جست و جو مشترک و مشابه است که دانستن آنها خالی از لطف نیست.
یکی از راههایی که موتورهای جست و جو ، برای کاهش زمان جست و جو به کار می برند ، پیش پردازش محتوای وب سایت ها است. وقتی کاربر درخواست یک پرس و جو را می دهد به جای این که این پرس و جو به میلیون ها وب سایت فرستاده شود ، با داده از پیش پردازش شده در یک سایت مقایسه می شود و مطابقت صورت می پذیرد. گفتنی است که پیش پردازش به کمک برنامه نرم افزاری به نام Crawler انجام می گیرد. Crawler ، به وسیله نگهدارنده ها و به روزکنندگان بانک های اطلاعاتی فرستاده می شود تا فهرست صفحات وب را جمع آوری کند.
یک برنامه ویژه رایانه ای ، صفحات بازیافتی را پیمایش می کند تا کلمات را استخراج کند و بعد این کلمات همراه با لینکی به صفحه مربوطه ، در فایل مشخص index ذخیره می شود.
پرس و جوهای کاربران با همین فایل شاخص مقایسه و مطابقت داده می شود ، نه با دیگر وب سایت ها.
Url یا لینک هایی که به عنوان نتایج جست و جو تولید می شوند معمولاً خیلی زیاد هستند ، اما همه این نتایج به دردبخور نیستند و حتی ممکن است عواملی مثل ابهام زبان باعث شود نتایج مناسبی به کاربر داده نشود. برای فراهم کردن دسترسی سریع و در عین حال صفحات مناسب و این که صفحات با موضوعات بیشتر در اولویت بالاتری قرار بگیرند ، الگوریتم های جست و جو استراتژی های رتبه بندی مختلفی را به کار می برند.
اصطلاح Caching درباره موتورهای جست و جو هم کاربرد دارد ؛ به این ترتیب که پرس و جوهایی که به تازگی از سوی کاربران وارد شده ، در جایی نگهداری یا به اصطلاح Cache می شود و پرس و جوی کاربر پس از ارسال به موتور جست و جو به کار می رود. در واقع وقتی موتور جست و جو املای صحیح کلمه را به شما اعلام می کند «Did you mean» از این تکنیک بهره می برد. استفاده از مدل تحویل توزیع شده ، راه دیگری برای سرعت دادن پاسخگویی به درخواست کاربران است. در این مدل کپی هایی از شاخص ها و مطالب مربوط تولید می شود و به مکان های جغرافیایی متعددی انتقال می یابد.
همان طور که گفتیم Crawler ها برای پیش پردازش و بازیابی صفحات به کار می روند. بعضی Crawler ها به روش کورکورانه به بازیابی صفحات می پردازند. روش کورکورانه به این معنی است که به شهرت و اهمیت یا به عبارتی قابل اعتماد بودن مطالب و تولیدکنندگان آنها توجهی ندارند. البته این روش موجب شده سوء استفاده هایی در شاخص دهی و استفاده از موتورهای جست و جو صورت گیرد. یکی از این کارها به index-Spamming معروف است. بعضی سایت ها برای این که در بیشتر مواقع در نتایج جست و جو قرار بگیرند و تعداد مراجعان بیشتری داشته باشند ، هزاران بار لغات خاصی را در محتوای سایت خود قرار می دهند تا از نظر موتورهای جست و جو ، اولویت و امتیاز بیشتری را به خود اختصاص دهند.
Pagejacking یکی دیگر از این حیله هاست. این حیله از یکی از ویژگی های نرم افزارهای وب سرورها ، سوء استفاده می کند. وب سرورها برای این که تعداد درخواست های بیشتری را در یک زمان پاسخ دهند مثلاً چند کاربر همزمان بخواهند به یک صفحه دسترسی پیدا کنند ، مطالب هر صفحه را روی چند رایانه ، با نشانی های مختلف که از دید کاربر مخفی است ، قرار می دهند و درخواست کاربران را به این رایانه ها هدایت می کنند.
بعضی سایت ها از این ویژگی نرم افزار استفاده و محتوای صفحات یک سایت را کپی می کنند و در سایت خود قرار می دهند. این صفحات هم به وسیله موتورهای جست و جو ، شاخص دهی می شود و درخواست بعضی کاربران به جای صفحه اصلی ، به این صفحات تقلبی ارجاع داده می شوند.
به این ترتیب یک موتور جست و جوی خوب علاوه بر جست و جو و سرویس دهی خوب به کاربر ، باید توانایی تشخیص جمله های اینترنتی را هم داشته باشد تا بتواند بهترین و صحیح ترین نتایج ممکن را در اختیار کاربران قرار دهد.
در فرهنگ رایانه، موتور جستجو یا جویشگر یا جستجوگر (به انگلیسی: Search Engine)، به طور عمومی به برنامهای گفته میشود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو میکند. در اینترنت به برنامهای گفته میشود که کلمات کلیدی موجود در فایلها و سندهای وب جهانی، گروههای خبری، منوهای گوفر و آرشیوهای FTP را جستجو میکند.
برخی از موتورهای جستجو برای تنها یک وبگاه(پایگاه وب) اینترنت به کار برده میشوند و در اصل موتور جستجویی اختصاصی آن وبگاه هستند و تنها محتویات همان وبگاه را جستجو میکنند.
برخی دیگر نیز ممکن است با استفاده از SPIDERها محتویات وبگاههای زیادی را پیمایش کرده و چکیدهای از آن را در یک پایگاه اطلاعاتی به شکل شاخصگذاریشده نگهداری میکنند. کاربران سپس میتوانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آنها را در خود دارد پی ببرند.