网站内部结构优化对网站建设起到计划和指导的作用,对网站的内容维护、后期SEO起到关键作用。下面主要从网站结构、页面元素、导航结构、后期优化等方面来讲述网站的内部优化,从网站建设的前期就为SEO优化、后期维护提供方便和基础。
URL地址优化
网站自始至终都使用一个URL地址,不要来回变更地址,如果用带www的域名地址,则将不带www的域名使用301重定向技术重定向到主要地址,网站的URL尽量使用静态URL,避免使用动态URL,URL越短越好,URL的内容使用拼音或者英文最好,方便记忆。
对于动态网站来说,使用伪静态技术可以让网站的外部看起来和静态网站一样,利于搜索引擎的索引。
目录结构
目录结构最好用一级到二级,不要超过三级。目录的组织方式尽量采用:首页-》栏目页-》内容页。目录名采用拼音或者英文。
robots.txt
robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。
robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
网站地图Sitemaps
Sitemaps可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页,有点象BLOG的RSS功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,搜索引擎就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动“通知”搜索引擎,方便搜索引擎进行索引。
Sitemaps文件通常是XML格式的,格式比较简单,Sitemaps协议以 <urlset> 开始标记开始,以 </urlset> 结束标记结束。 每个网址包含一个作为父标记的 <url> 条目。 每一个 <url> 父标记包括一个 <loc> 子标记条目。<loc>是网页文件的网址。此网址应以http开始并少于2048个字符。 <lastmod>表示该文件上次修改的日期。此日期允许删除时间部分,例如YYYY-MM-DD。
目前百度、Google、雅虎、微软等搜索引擎都支持Sitemaps,Sitemaps的提交可以通过各个搜索引擎的站长平台提交,也可以将其地址放在robots.txt文件里供搜索引擎查询,具体方法是:在robots.txt的最后一行增加 Sitemap:http://www.domain.com/sitemap.xml。
Nofollow的使用
nofollow标签是由Google领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响,减少博客的垃圾留言,目前百度、Google、Yahoo、微软都支持这一标签。当超级链接中出现nofollow标签后,搜索引擎会不考虑这些链接的权重,也不用使用这些链接用于排名。
nofollow标签通常有两种使用方法:一种方法是将"nofollow"写在网页上的meta标签上,用来告诉搜索引擎不要抓取网页上的所有外部和包括内部链接。例如:<meta name="robots” content="nofollow” /> 。另一种方法是将"nofollow"放在超链接中,告诉搜索引擎不要抓取特定的链接。例如:<a rel="nofollow" href="url"> 。
对于一个网站来说,为了安全保险起见,所有那些有可能是第三方提交的超级链接都应该添加nofollow标签。
404页面
404 网页是用户尝试访问网站不存在的网页(由于用户点击了损坏的链接、网页已被删除或用户输入了错误的网址)时看到的页面。之所以称为 404 网页,是因为针对丢失网页的请求,网络服务器会返回 404 HTTP 状态代码,表明该网页未找到。
通常用户最好创建一个自定义的 404 网页,以便获得这部分用户流量。一个好的自定义 404 网页可以帮助用户找到所需信息、提供其他实用内容及吸引用户进一步浏览用户的网站。
不过,很多网站设计的404页面都很简单,不少网站为了不损失流量,在404页面里面自动重定向到首页的方式,这并不是一个改善用户体验的设计方法。
统计代码的使用
为了搞清楚访问者来自哪里,访问者在寻找什么,哪些页面最受欢迎,访问者从那些页面进入,从哪些页面退出,网站就必须增加统计代码,依据网站统计系统进行分析,看看页面是否需要进一步优化。目前较为常见的统计工具有百度统计、谷歌分析等。为了不影响网站的加载速度,统计代码最好放在网站底部。