web前端技术 栏目

web前端技术,(x)html,css,flash,js,ajax等等

<转>一篇关于robot的用法

2009/01/01 | 作者:小V | 评论 (0)| 分类: 网络营销与seo

怎样写robot.txt

我个人也觉得这东西挺有用的.但是有些时间它不好好用也点影响.重新找一篇好好补下.. 
在国内,网站管理者似乎对robots.txt并没有引起多大重视,可是一些功能离开它又不能是,因此今天想通过这篇文章来简单谈一下robots.txt的写作。的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.vl99.com/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.vl99.com
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.vl99.com站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

突破图片防盗链的一些代码

2008/12/27 | 作者:小V | 评论 (0)| 分类: web前端技术

     经常在论坛发帖或初建站采集的时候去是直接拿别人的图片或文件的链接来用用..    今天自已新弄个垃圾站时,采集又遇上这个.. 以前没常注意只是想算了算了..

    随便搜一下代码.放这asp的 :

  <%
'盗链判断
'If Instr(Request.ServerVariables("http_referer"),"http://"&Request.ServerVariables("server_name")&"") = 0 Then
'Response.Write "非法链接"
'Response.End
'End If

Dim url, body, myCache

url = Request.QueryString("url")

Set myCache = new cache
myCache.name = "picindex"&url
If myCache.valid Then
body = myCache.value
Else
body = GetWebData(url)
myCache.add body,dateadd("d",1,now)
End If

If Err.Number = 0 Then
Response.ContentType = "application/octet-stream"
Response.BinaryWrite body
Response.Flush
Else
Wscript.Echo Err.Description
End if

'取得数据
Public Function GetWebData(ByVal strUrl)
Dim curlpath
curlpath = Mid(strUrl,1,Instr(8,strUrl,"/"))
Dim Retrieval
Set Retrieval = Server.CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", strUrl, False,"",""
.setRequestHeader "Referer", curlpath
.Send
GetWebData =.ResponseBody
End With
Set Retrieval = Nothing
End Function

'cache类

class Cache
private obj 'cache内容
private expireTime '过期时间
private expireTimeName '过期时间application名
private cacheName 'cache内容application名
private path 'url

private sub class_initialize()
path=request.servervariables("url")
path=left(path,instrRev(path,"/"))
end sub

private sub class_terminate()
end sub

public property get blEmpty
'是否为空
if isempty(obj) then
blEmpty=true
else
blEmpty=false
end if
end property

public property get valid
'是否可用(过期)
if isempty(obj) or not isDate(expireTime) then
valid=false
elseif CDate(expireTime)<now then
valid=false
else
valid=true
end if
end property

public property let name(str)
'设置cache名
cacheName=str & path
obj=application(cacheName)
expireTimeName=str & "expires" & path
expireTime=application(expireTimeName)
end property

public property let expires(tm)
'重设置过期时间
expireTime=tm
application.lock
application(expireTimeName)=expireTime
application.unlock
end property

public sub add(var,expire)
'赋值
if isempty(var) or not isDate(expire) then
exit sub
end if
obj=var
expireTime=expire
application.lock
application(cacheName)=obj
application(expireTimeName)=expireTime
application.unlock
end sub

public property get value
'取值
if isempty(obj) or not isDate(expireTime) then
value=null
elseif CDate(expireTime)<now then
value=null
else
value=obj
end if
end property

public sub makeEmpty()
'释放application
application.lock
application(cacheName)=empty
application(expireTimeName)=empty
application.unlock
obj=empty
expireTime=empty
end sub

public function equal(var2)
'比较
if typename(obj)<>typename(var2) then
equal=false
elseif typename(obj)="Object" then
if obj is var2 then
equal=true
else
equal=false
end if
elseif typename(obj)="Variant()" then
if join(obj,"^")=join(var2,"^") then
equal=true
else
equal=false
end if
else
if obj=var2 then
equal=true
else
equal=false
end if
end if
end function
end class
%>

 上面这个好像有点问题,本地可以,服务器上就挂了。但还有

<%
function getImg(surl)
           dim xmlHttp
           set xmlHttp=server.createobject("MSXML2.XMLHTTP")
           xmlHttp.open "GET",surl,false
           xmlHttp.send
           if xmlHttp.readystate<>4 then
            exit function
           end if
            getImg=xmlhttp.responsebody
           set xmlHttp=nothing
end function
function showimage(sUrl)
           dim imgs
           imgs=getImg(sUrl)
           Response.ContentType = "image/gif"
           Response.BinaryWrite imgs
end function
surl=request("url")
showimage(surl)
%>

 php的缓存技术我比较喜欢,呵呵, 当然应用起来也方便得多. 相关的突破代码也有.

<?

if(substr($_GET[url], 0, 7)!="http://")exit;

readfile($_GET[url]);

?>

 

应用的时候,比如: 取名***.asp或php ,   发的时候写上

   ***.asp/php?=图片或文件地址

真的懒得弄的话。我也介绍个

http://www.hongkongfans.cn/后面加地址,记得去掉http://

例:http://i5.17173.itc.cn/2009//newgame/2009/01/30/1294_01301921_03.jpg

http://www.hongkongfans.cn/i5.17173.itc.cn/2009//newgame/2009/01/30/1294_01301921_03.jpg

<转>域名价值评估的要素、标准、模式或公式

2008/12/21 | 作者:小V | 评论 (0)| 分类: 网络营销与seo

  再来转一篇我觉得挺经典的文章.  觉这域名这方面有研究价值.呵呵..

域名价值评估的要素、标准、模式或公式
域名价值评估三要素:域名的结构、单词的影响力、市场性
一个好的域名可能蕴含着巨大的商业价值。选择恰当的域名,使域名与企业的名称、商标整合在一起,构成一个完美的CI标志。最好将域名注册得简短、形象,易于记忆使用。

一、结构(最容易评估的是域名的总体结构,也是最容易确定具体金额的)

1、关于后缀
在美国,“.com”的域名被认为是最好的,而相同的“.net”域名的价值只有“.com”域名价值的20%-25%,“.org”则只有10%。
2、以“i-”、“e-”、“v-”为词首的域名
Gegun.com的JoAnn VanDesart认为以“i-”、“e-”、“v-”为词首的繁衍域名比没有这些词首的域名的价值低。名称中包含“the”,“and”,“-est”或者“-ing”的域名比没有包含这些单词的域名价值要低。
3、域名长度
一般地讲,越短的域名越有价值。超过15个字符的域名不太可取。
连字符(-)和数字也会削弱域名的易理解性,降低域名的价值。
域名价值评估模式(或公式)

美国Greatdomains是目前Internet上最著名的域名交易商,其公布的域名估价模式具有很高的权威性和参考价值。它采用三个C来估计域名的价值,这三个C分别为Characters(域名长度),Commerce(商业价值),和.Com(所在的顶级域名)。每个C都是一个很重要的因素,三个C综合起来决定了域名的价值。对域名每个C的评估结果分为五个等级。

域名的价值可以由以下几个方面来评估:

一、域名的长度

即组成域名的字母数,不包含后缀,一般来说域名长度越短越好,短的域名容易记忆和拼写,输入方便,不易出错。域名越短越值钱。根据域名长度将域名分为几级:
A级:域名长度小于5,如gegei等;
B级:域名长度在6-10之间,如people等;
C级:域名长度在11-15之间;
D级:域名长度在16-20之间
E级:域名长度在20以上

二、域名的含义或意义

域名的意义,或域名本身的含义,域名的意义越简单越常用越好(是否简单清晰,寓意良好?)。
组成域名域名的单词数量。一般来说单词数量越少越好(少于 3个为佳)。主要类型有英文、数字、中文拼音、混合。中文拼音在国内也很受欢迎。混合的要看具体情况。
一些常用的英文单词或中文拼音缩写来命名的域名比较有价值,可分为几个级别:
A级:以一些常用的有意义、简单的英文单词为域名,如car,book,buy
B级:以一些简短、明了的中文拼音或一些不常用但有意义的英文单词为域名,如gequ(歌曲),meinv(美女),amazon(亚马逊),escrow等
C级:由两个词合成的域名,有一定的商业价值:如supermarket,sellhouse,highschool等
D级:由三个词以上构成的域名,或由字词合成的域名,包含的商业价值相当有限,如madeinjilincity,youcanmakeit,iwantajob等。
E级:无明显含义的域名:如dfkghsym等。

三、域名的后缀

对于商业应用来说,.com域名最值钱,.net和.org就差。依次可分为:
A级:.com
C级:.net
D级:.org及其他顶级域域名名
E级:二级域域名(如.com.cn若允许转让的话)
使用.com的域名不仅显得大气简洁,而且可体现全球化理念。
关于.cn的英文顶级域名属于哪一级别,目前尚有争论。

域名估价:
综上所述,域名价值评估参数表如下:
以.com域名为例:
域名价格指数

价格         长度A        长度B           长度C          长度D        长度E
含义A 50-1000     30-500       5-100         1-25          0-5
含义B    20-500       5-100         3-50           0.5-5        0-2
含义C        1-15          0.5-10        0.3-7.5     0.1-4        0-1.5
含义D       0.5-5        0.3-2.5       0.3-2.5     0.1-2        0-1.5
含义E       0-2            0-1.5           0-1              0-1            0-1

域名估价=域名价格指数×1万元(人民币)

对于.net域名,可参照以上方法评估,但价格要乘上0.25这个因子,其他顶级域名(包括带国家代码的域名)要乘以0.1

抢不到好域名?来看看域名是怎么抢到的

2008/12/11 | 作者:小V | 评论 (1)| 分类: 网络营销与seo

   域名, 对于网站重大意义的东西 .. 

  一直都想找个好记点的域名.可惜好记的字数少的都给别人抢先了,只能怪自已接触这东西太晚. 刚申请做站的时候,因为是个人网站也没想太多,直接用名字注册了(呵呵,这名字弄的人比较少)  . 

  这次弄blog,本来想换个好点的域名,可惜都让别人抢了我也想来玩把抢注.所以今天研究了一下这方面的东西. 来分享下.

首先了解一下,域名的使用周期.:

1.先开放公众注册.看谁先抢了

2.活动状态,他注册了多久.完后看要不要续费继续使用

3.注册局保留0-45天,和30天赎回期.

4. 确定不续费5天后删除.(次日.cn4点, .com 2点)

circle_infographic

 除非你想用高价去向原注册商买那域名外, 就是等那5天后删除的第一时刻把它抢到手..

每日凌晨2点半左右是国际域名到期删除时间,平均每日有3万多个.COM和.NET在这一时间被删除,基本每个域名在被删除后的不到1秒钟内被重新注册...总的来说人工注册和机器注册不是一个档次的较量,自已动手不太可能了..

是要求助于抢注公司碰一下运气还是想自已高价向注册商买呢.

看看抢注的流程

1、预订
  确定准确删除时间,提前预订,准备抢注
    通过专业的抢注公司预订
   (对于一些热门的域名我们会在多家抢注通道预订,以保证抢注通道畅通,提高抢注成功率)
2、抢注成功
     由抢注公司抢注成功
3、竞拍
     有多个人同时预订过该域名,那么在预订的用户之间进行竞价,价高者得
     备注:(只有预订过该域名的用户才有资格竞拍)
4、过户
    竞拍成功,2-3日过户到真正注册人名义下,即域名抢注结束

每天都有那么多个域名要被删,他们也是很好赚钱呀..真是不错

 呵呵, 过几天我心仪的域名就要过期了,拼上一次..

Page 14 of 14« First...1011121314
Page 14 of 14« First...1011121314