|
搜索引擎是全文检索技术、网络信息采集技术以及网页权重分析等技术的结合体。
随着互联网在全球的迅速发展和普及,互联网上的信息日益膨胀。全球大型的网页搜索引擎需要超大容量的数据存贮设备,对互联网上的信息进行存贮并及时更新。
网页标签的多元化是网页设计的一大趋势,为了兼容不同浏览平台和优化等目的,网页的识别技术在经受着考验,使网页的解析不能做到完美!
阿汉搜索引擎在网页识别技术上有世界级的领先技术,可以识别无限级目录网页和数据整合。阿汉搜索引擎率先提出自动识别网页技术,(包括提交样本文件或多媒体信息,即可以自动识别网页,达到少人力的网页自动识别技术)
在不久的将来,搜索引擎将进入大部分人的生活,对信息的精确度要求更高,只有阿汉搜索引擎的网页自动识别技术可以让每个人新的一天拥有最多最快的信息!
愿互联网给世界人民带来巨大的便利,希望各界人士踊跃探讨和批评!
希望关注这个项目的人可以伸出援助之手,资助项目研发。
我是一个中国人,会在这个辽阔的土地上继续把搜索引擎坚持下去,直到生命的尽头!
我不会因为别人的任何言语和行为,而放弃自己的信念。
无论贵贱荣辱,我的执作希望可以大家带来生的勇气和力量!
—— 2008-6-12 晨
========================================================================
网页自动识别技术
—— 即网页信息的自动解析技术。
目前的搜索引擎都使用网页的自定义标签解析方式,使用的工具俗称网络爬虫或蜘蛛。它们对网页的解析基本上是由人工来对网页标签进行解读和对网络爬虫进行设置。(除了整站的搜索)
网页自动识别技术,是由高效的软件对网页进行隐式的解析技术,即不需要人工解读网页结构、层次和标签。也许有人会质疑技术是否能实现,其实目前的技术已经有100%的把握实现,阿汉搜索引擎使用的网络爬虫是网站立体搜索的成功案例,是开发网页自动识别技术的必经之路。
网络是立体的,所以它就是一个成功的模型。它可以解析无穷多个字段,可以解析无穷多级网页目录下的网页并将信息整合,保存到数据库。
最初制作的网络爬虫仅能支持HTML标签;而目前的网络爬虫已经可以支持XML等格式;对脚本的运行也有很好的支持,为最终建立的高效智能的搜索引擎,提供充足的信息源。
自动模型一解读
优点:成为真正意义上的海量精确搜索,方便网民的衣食住行,方便商家的宣传,方便媒体的信息传播和国家政策的发布。
1、建立地区或国家级别的细分化的搜索引擎和自助提交系统(类似于目前但由以下不同的功能)
2、由所有的站长提交自己的网站信息
(方法:
选择信息分类 —> 提交所有字段名,已经浏览网页中不同字段的信息模版 —>
提交并测试解析 —> 成功解析并批量载入搜索引擎数据库)
3、站长提交多个分类信息,构成网站信息的智能结构。
(希望专业人士批评与研究)
—— 2008-6-14 晨
===============================个人简历====================================
姓名:肖鸿恩 性别:男 出生地/户口所在地:上海
项目经历:2002年初 —— JAVA编写类似OUTLOOK,支持多附件收发和多功能邮件管理软件。
2003年1月 —— 获SUN公司JAVA程序员认证资格。
2004年9月 —— 编写完成最初的全文检索系统和基于HTML网络信息采集程序。
2004年12月至今 —— 成立阿汉网络,未成功融资。
作为网站软件工程师的我,没有其他的技术赢利,只有重新学起网页设计、FLASH动画和脚本、卡通设计、视频处理,只要能学的都一并学会。
现在我已经有很多作品了,可以到www.ahahi.org上看到我的作品。
网上有很多黑客,他们会有不同的态度来看待盗窃。我知道有很多有开发才能的人都有很多作品被黑了,他们有的绝望、有的迷茫、有的放弃。
其实黑客技术有时候可以做很多有利于人民的事,不过害人利己,将很多开发软件或创作的人的积极性给打击了,国家会少了很多参与创新的人才。网络是需要每一个中国人一起创造的,只要是为了国家为了人民,为了国家有更多自主开发的人才和宏扬中国人聪明智慧,希望每个中国人可以抵制黑客的损人利己的害人行为!
我想只要是中国人都是爱国的!
我的作品黑客就别想了,我把知识都放在头脑里了,希望有一天会开源吧。
|
|