您的位置:CDSoSo 首页 > 关于本站
CDSoSo是一个集合多种下载方式为一体的多维资源展示站,致力于无极限的分享互联网上的优质资源,集全、新、快于一身的新型站点。

本站全部采用开源技术构建,操作系统为Linux,http服务器为nginx,数据库为当前最为流行的NoSQL数据库MongoDB,网站程序为JAVA技术实现并采用Tomcat作为服务器,全文检索采用了Lucene。以上这些仅仅是实现主体框架的开源软件,而至于一些细小的功能采用开源工具包则就不胜枚举了。

虽然这是一篇说明性文档,但是同时也是当我本人的一个学习笔记。的承认的是,从开始筹备要建立这样一个网站到最终上线(当然上线了也仅仅是能用,离好用还差很远),用了我大概半年的时间。当时我对这方面的技术一点都不了解,几乎可以说是从零开始。因为本人以前比较擅长的语言是C/C++,JAVA虽然很久以前学过一小段时间,不得不承认,那时的我对JAVA存在一些偏见,因为它给我的第一感觉就是,慢。后来就没有再学习这门语言,所以水平只是停留在了能看懂这个层次上。当时想筹建这么一个网站的时候第一想到的就是使用开源程序,于是乎就Google..baidu....折腾了有一段时间,发现在这个领域使用C/C++困难重重啊,所以就又回到了JAVA的怀抱。 有了想法就开始行动,既然想做网站就必须要有信息,那么到哪里去弄这些信息呢,因此我就很自然的想到了网络爬虫。一开始我是用了一些现成的开源爬虫,因为我需要的是垂直爬取,所以使用的效果很不理想。万般无奈之下我选择了自己开发一个爬虫程序,非常简陋,还时不时的有很多莫名其妙的错误和异常,不过好在在我的修修补补之下也算运行的良好,除了内存占用有点大,其他都还好。因为我把很多的注意力放在多线程上,所以CPU和宽带利用率都还不错。于是乎我就使用着这个"夏利牌"的小爬虫爬下了40多万张网页,300多万个ed2k链接,150多万张图片,也算是立下了汗马功劳。后来我发现了一个刚出的开源的爬虫框架(webmagic),就不再使用我自己的那个小爬虫了。

其实在写爬虫的时候,我也同时在研究Lucene,从3.5版本一直到现在我使用的4.2版本。必须得说,《Lucene实战》这本说给了我极大的帮助,所以强烈推荐想学习Lucene的童鞋们,去看看这本书,真的很有用。

至于网站程序,可以看出,也是非常简单,其实就是个页面展示。采用了struts2框架,写了几个不同频道和搜索的action,总之就是很简单。

还有就是数据库了,使用的是MongoDB。性能确实非常不错,使用也很简单。

非常欢迎和希望与对这方面技术感兴趣的朋友共同探讨,共同进步。