Disalow Baidu Spider, disalow Baidu Robots.txt

Autor

De ceva vreme ma confrunt cu o invazie de baidu spider sau mai pe scurt paianjeni ai motoarelor de cautare japonezi si chinezi ai celor de la Baidu sinonim cu Google,Yahoo,Msn,Aol…. dar de partea cealalta a oceanului.

Nu numai ca nu ma intereseaza prezenta lor dar incurca tot traficul din acea zi aducind procente grase procesorului pina la valori de topire..si pina la urma de cind ii intereseaza pe japonezi limba romana?Si uite am hotarit sa ramana ei in cealalta parte a lumii cu ninja lor si papuci chinezesti si am tot cautat metode  de a opri invazia chino-japana si uite ce a iesit !!!!!!!

Baidu Robots.txt

Un fişier robots.txt limitează robotii motoarelor  de căutare să acceseze site-ul dvs. (sau de la accesarea cu crawlere a paginile dvs. de web), şi motorul de căutare Baidu urmează acelasi instrucţiuni din Robots.txt.

De ce să utilizeze  Robots.txt Baidu din China ca si motor de căutare?

Trimiterea site-ul dvs. la Baidu prin formularul de prezentare a site-ul anunţă motorul de căutare Baidu să acceseze cu crawlere şi indexul din site-ul tau. Pentru a exclude un anumit conţinut (sau pagini web) de a fi accesate cu crawlere cu Baiduspider, ale robotului din motorul de căutare Baidu / spider / ghidul de agent, utilizează Robots.txt.

Utilizarea Robots.txt este opţională.
Includeti in  fişierul robots.txt numai dacă site-ul dvs. are conţinut pe care nu doriţi ca Baidu spider sa-l indexeze.
Dacă doriţi Baidu să acceseze conţinutul site-ul dvs. întregul lui, nu includeti un fişier robots.txt.
Fişierul robots.txt este situat  în directorul rădăcină al site-ului tau. Înainte de accesarea cu crawlere a paginilor site-ului dvs., Baiduspider  verifică prima data directorul rădăcină al domeniului site-ului dumneavoastră dacă un fişier text simplu numit “robots.txt” poate fi găsit.
Robots.txt poate îmbunătăţi site-ul dvs. Baidu SEO trafic ,ranking şi doar atunci când este făcut corect.
Blocurile robots.txt din paginile de conţinut web “pot  fi accesate cu crawlere sau indexate de către Baidu, dar Baiduspider poate totuşi indexa adresele URL, dacă acestea pot fi găsite pe alte pagini web de pe Web.

Utilizarea Robots.txt pentru Baiduspider

Baiduspider urmează două reguli de bază în fişierele robots.txt:

User-agent: robotul pentru următoarea regulă ce se aplică la
Disallow: adresa URL pe care doriţi să blocaţi

Pentru a bloca întregul site de Baidu Spider:

User-agent: Baiduspider
Disallow: /

Pentru a bloca întregul site-ul dvs. de la toate motoarele de cautare, dar Baiduspider:

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

Pentru a bloca un director din site-ul dvs. şi toate fişierele din ea, de  Baiduspider:

User-agent: Baiduspider
Disallow: /cgi-bin/

Pentru a bloca un director din site-ul dvs., dar unele dintre adresele URL în ea, de la Baidu:

User-agent: Baiduspider
Allow: /cgi-bin/tmp-1
Allow: /cgi-bin/tmp-2
Disallow: /cgi-bin/

Pentru a bloca o pagină Web de  Baidu:

User-agent: Baiduspider
Disallow: /my-page.html

Baiduspider acceptă utilizarea simbolurilor wildcard inclusiv “*” si “$” pentru a se potrivi URL-uri:

“*” Se potriveşte cu zero sau mai multe caractere arbitrare.
“$” Coincide cu linia de încheiere caractere (e).

Pentru a bloca accesul la toate URL-urile dinamice (de exemplu, toate adresele URL care conţin “?”) De către Baiduspider:

User-agent: Baiduspider
Disallow: /*?*

Pentru a bloca accesul la anumite tipuri de fişiere, dar pentru a permite alte tipuri de fişiere, catre  Baiduspider:

User-agent: Baiduspider
Allow: .gif$
Allow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$

Alte Motoare Baiduspider

În timp ce Baiduspider este responsabil pentru accesarea cu crawlere de căutare cu conţinut web, Baidu utilizeaza diferiti păianjeni ai motoarelor de căutare / roboţii să acceseze cu crawlere diferite tipuri de conţinut:

Baiduspider-image indexare imagini
Baiduspider-mobil cu crawlere conţinutul de căutare mobil
Baiduspider-video indexare Clipuri
Baiduspider de ştiri indexare de ştiri
Baiduspider-indexare celor mai favorabile marcaje
Baiduspider-sfkr târăşte Baidu PPC / anunţuri
Baiduspider-cpro accesează cu crawlere reţeaua de publicitate contextuală Baidu

Exemple robots.txt pe site-urile mari din China

Linii directoare pentru Robots.txt

Baidu.com blocarea Baiduspider pentru a accesa unele linii de directoare a site-ului:

User-agent: Baiduspider
Disallow: /baidu

User-agent: *
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro

Taobao.com blocarea Baiduspider prin Robots.txt la directorul rădăcină: http://www.taobao.com/robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

Alibaba China  blocarea tot site-ul impotriva anumitor / paianjeni: http://china.alibaba.com/robots.txt

# file: robots.txt,v 1.0 2002/09/23 created by Tsing Kong
# china.alibaba.com
# 按照robots.txt的标准写法,规定一些不允许爬虫爬的页面或目录。
# robots.txt 的写法参照 <URL:http://www.robotstxt.org/wc/exclusion.html#robotstxt>
# Format is:
#       User-agent: <name of spider>
#       Disallow: <nothing> | <path>
# -----------------------------------------------------------------------------
User-agent: *
Disallow: /bin/
Disallow: /offer/turbine/template/offer,Post
Disallow: /catalog/turbine/template/product,CreateProduct
Disallow: /community/turbine/template/Index/action/community.friend.AddForOffer
Disallow: /offer/turbine/template/offer,Forward
Disallow: /athena/bizref/rempost
Disallow: /athena/myalibaba
Disallow: /ali/news/
Disallow: /member/
Disallow: /buyer/turbine/template/
Disallow: /seller/turbine/template/
Disallow: /message

#天津海量 搜索
User-agent: hl_ftien_spider
Disallow: /

Disable Baidu Search Engine Crawler Baiduspider

User-agent: baiduspider
Disallow: /ac.php
Disallow: /ae.php
Disallow: /album.php
Disallow: /ap.php
Disallow: /feeds/
Disallow: /l.php
Disallow: /o.php
Disallow: /p.php
Disallow: /photo.php
Disallow: /photo_comments.php
Disallow: /photo_search.php
Disallow: /photos.php

Baidu oferă orientări în Chineză privind modul în care ar trebui să utilizaţi robots.txt pentru a bloca Baiduspider.
Robotstxt.org şi Searchtools.com va  furnizeaza orientări cuprinzătoare pentru a crea un Robots.txt.

comment closed

advertise

Subscription

You can subscribe by e-mail to receive news updates and breaking stories.

CATEGORII

Reclama Etarget

trafic

Nana Stil un site cu stil

Google+