注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

垂直搜索引擎开发全过程  

2012-05-16 22:28:52|  分类: spider |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
// http:blog.csdn.net/chengg0769 转载保留此行
//这只是我随笔涂鸦,我并不是一个完整实践者,只是准备如此施行。勿笑话我

A. 准备阶段

a.1 搜索的发展历史(必读)

a.2 平面搜索的基本原理和垂直搜索的原理,区别,异同之处(蜘蛛+锚点分析+存储+压缩+分词+索引+顺排+倒排+pagerank+查询+分布式存储+任务拆解+伪并行计算+流水作业协调)

a.3 服务器方案(了解为什么可以用廉价pc来组成集群,搜索的瓶颈在哪里(索引和rank计算,高并发查询的返回速度),分布式冗余存储,价格的低廉,平台的灵活,有许多免费软件可使用或可改造。)

a.4 软件平台(操作系统,开发语言,哪些语言适合开发蜘蛛,哪些语言适合开发效率敏感部分,365*24H如何保证健壮性,不同的语言开发是否会出现矛盾,是完全自开发,还是借助一些开源项目,开源项目是否可商用,支持是否好,参考资料是否多,版本是否升级很多次(完善性),不要用刚出的开源项目或有漏洞的项目,除非你完全掌握并可再造,否则很困难)

a.5 找出搜索,垂直搜索,全文检索,分词,排序,web抽取,数据库,集群,分布式等文章文献若千篇细读。

a.6 找出正在进行的项目,正在编写垂直搜索的人,看他们在作什么,他们的经验,心得体会。

a.7平面搜索+垂直搜索的评测,特别是与你设计目的类似的已经存在的垂直搜索的评测,并自己评测,找出优点与缺点

a.8 市场分析:流量如何提升,竞争,广告模式,商业模式,如何生存,前期投入资金,投入期,竞争力。。

a.9 用户调研:发出自己的构思,请一线使用者,目标用户评论,反馈意见,抓住你要作好的方面,需要改善的关键点。他们能使用你的产品的绝对理由,找不到答案,不如放弃。

a.10你的方案的难点在哪里,问题在哪里,你如何解决,对每一个你提出的问题,用户提出的问题,如果解答不了,或是哪一关你无法证明你能走通,不如放弃

B.设计阶段

b.1设计你的总体方案,细化方案,细化到每一步该怎么作,从理论验证它的可行性,技术上达到的高度,门槛,别人可以摹仿的难易度。

b.2从具体的垂直层面,用户的具体运用层面,从理论上有突破,只有在理论上有突破,才能超越业以存在的你的同类的水平。比如对手提供黄页,你也提供黄页,一模一样,不如放弃。更快,更集中,更多信息,更方便,更加互动,更加人性化,更简单,更能吸引用户。必须作到这几个,否则不如放弃

b.3先在三五台电脑上试验你的模型,可通过有固定IP的地方挂一台电脑当服务器,或者托管一台电脑。在流量没有起来之前,你最多把它当一个试验品,不要冒然出动,最开始你的模型无法达到同类产品的水平,问题很多,比如蜘蛛当机,数据抓取不到,逻辑有矛盾,或者设计有重大缺陷。测试期间,你最好把在线服务器数量定在一台,不要太多,资金方面你无法承受,也是不必要的。因为你还没有访问者,最多就是几个熟人来测试。这个过程反复改进,也许半年,也许一年,也许两年。从单一的技术层面讲,抛开平面搜索的海量和高并发查询这两个因素,垂直搜索的技术复杂性和处理的步骤的繁杂不会低于平面搜索。因为垂直搜索面对更具体的运用,不是处理单一网页一种形式,是多维和多逻辑的。而且资料会准确到逻辑关系式的相等。

b.4在线服务器增加到3-5台,线下处理增加到20-50台。这个是否必要,除非你有资金,否则你连托管费用和电费都无法支付,更不谈硬件成本了,但对于采集量,更新频率,及时性而言,没有计算能力不行,没有带宽也不行。所谓一分钱难倒英雄汉。就在这里。这部分主要解决多工作单元的协调处理,整个机群如流水线一样有条不紊的工作,彼此配合,有序进行,这个阶段还要解决后台管理问题,对于系统管理,配置等,必须在控制台能监控和处理。还应该考虑任务的管理,没有任务执行时,有些机器需要停机或休眠(省电考虑),某台机器出现异常如何告警,某些机器出现问题,是否会中断全过程处理,哪些机器是单一路径,哪些是冗余路径。效率,可控,协调,监控,管理是这个阶段的核心。这个过程也是进行原始资料积累的时间,主要是改进。

b.5正式上线测试。希望每天有3000-5000IP访问,可实际承受负载,解决一些真正用户提供的反馈。

b.6一些资料的静态化处理,便于平面搜索来抓取。这个是必要的。baidu不会抓一个纯搜索引擎的。

b.7推广,拉流量,加入一些推广链。目的使得用户迅速增加。软文,宣传,SEO,博客宣传,论坛宣传,都是必要的,因为目前阶段无人知道你的搜索,这是个关键阶段,也是个决定生死的阶段。高昂的费用,修改的费用,都在这个阶段达到一个最危险的阶段,支撑不下去,只有放弃,亏钱大把。死得很难看。

b.8流量稳定后,对用户作详细调查,改进,用户体验的深入改进。

b.9投放一下别家的关键字广告,平面广告等,来赚取一些基本费用,使得网站的巨大开销得以维系。

b.10发展终端目标广告客户。

b.11发展地区代理,最好是已经有全国网络的企业,不要给那些只有钱没有网络的公司去作。他们会要太高的分成,你前期本来没什么收入。

b.12服务器,线下服务器数量增加一个数量级。这时,必须考虑自己在电讯网通的机房附近建机房,才能放置那么多机器,有自己的机房,资料更新才会在一个局网里进行,才会方便管理。如果你的机房离电讯的机房太远,光纤成本太高,而且容易受到光纤切割的影响。

b.13到这一步,资金和技术投入是时候了。如果无法完成,对待你的就是厄运。因为作搜索的成本太高了。技术人员,编辑人员在这时也特别需要。如果这一步无法完成,你是必死无疑的了。很多公司就是作到这一步,无法继续了。就卡在这里上不上下不了。技术,资金,竞争在这时都是危机四伏了。

b.14如果能融资,不管是风险还是民间的资金,我想必须把它切分成几个部分,而不是一次就把它投入进去,因为市场增长得没那么快,你的宣传,流量提升,盈利也是很漫长,很困难的,难度大于你从开发到现在的全部困难。你必须得消除浮躁,细水长流,走一步看一步。垂直搜索还在探索阶段,广告商还在尝试阶段,垂直搜索重要的是活下去并累计客户,累计口碑,不可能走平面搜索那样的直接上市之路。因为你只是平面搜索的万分之一不到的流量,你的层面也不同,需要更多时间去尝试。所以钱会不够用。不要把很少的钱一下子花出去,否则就是马上死亡。

b.15让尽量多的用户认知你的网站,能使用,能回头使用。否则,只有死掉。让更多的心思花在要为用户服务的思路上,而不是要啃用户一口,要啃投资人一口,要啃广告商一口。以平和的心态来面对。或者只是写软文夸夸其谈,称自己是全国第一,全国最大,全国最牛,都没用。如果你的客户能增长,能持续使用,才能活下去。

b.16服务就是垂直搜索,垂直搜索就是服务。作不好这个,死掉。好象我分析得几个产品搜索,既然都搜不到资料,谁还会来用啊,这不是大白天说梦话嘛。

b.17积极探索新的模式和盈利模式。因为目前还没有直接的答案和可拷贝的模板。这些都是未知数。

b.18做好一件事情,技术只占1%不到。“使能----使你的技术,你的构思,你的概念能通过技术实现,服务你的受众,并赚到钱”,这个不是技术问题。而是商业问题。我经常问别人一句话,我说李彦宏能再造一个baidu吗,大家都说能,但为什么自己就不能造一个baidu呢?答案就在这。

b19埋头编程是徒劳无功的。单机设计思路是错误的。理想化模型是误入歧途的。不从用户需求分析开始并反复进行是灭顶之灾。急功近利是自杀行为。资金是门槛,这个可以得到越来越多的验证。小资金无法支撑垂直搜索,因为垂直搜索不简单,至少没有一部分急公近利的人看得那么简单。
  评论这张
 
阅读(1602)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017