Felsökning av SSH-fel - Linux

Med hjälp av robots.txt, hur tillåter du inte roten till en webbplats (http://www.example.com/) men tillåter en underkatalog (http://www.example.com/lessons/)?

User-agent: * Disallow: / Allow: /lessons/ Allow: /other-dir/ 

Detta tillåter inte hela webbplatsen, men tillåter uttryckligen givna kataloger.

  • 1 Du bör vara försiktig med detta eftersom "Tillåt" är en inofficiell "förlängning" till robots.txt-standarden. Jag tror att alla större sökmotorer stöder det, men mindre eller andra tjänster kanske inte och ignorerar hela webbplatsen.
  • 1 och du måste sätta Allow först än Disallow

Du måste lista de Tillåt raderna först när filen läses på grundval av första matchningen.

För att utvärdera om åtkomst till en URL är tillåten, måste en robot försöka matcha sökvägarna i Tillåt och avvisa rader mot URL: en, i den ordning de förekommer i posten. Den första hittade matchningen används. Om ingen matchning hittas är standardantagandet att webbadressen är tillåten.

Referens: http://www.robotstxt.org/norobots-rfc.txt

Google tillhandahåller ett verktyg i verktyg för webbansvariga för att testa din fil. Jag rekommenderar alltid att du testar din fil. Se "Testa webbplatsens robots.txt-fil:" nära botten.

http://support.google.com/webmasters/bin/answer.py?hl=sv&answer=156449

fungerat för dig: Charles Robertson | Vill du kontakta oss?