|
TRS 绿色节能搜索一、网路漫漫,上下求索 互联网信息规模和蕴藏价值越来越大,如何方便、快捷地获取有价值的信息至关重要。
原始手工收集信息的方式,费时、费力,劳动强度与难度可想而知。因此,各个行业都迫切需要智能、快捷的信息采集与处理方式。
潜在客户、竞争产品价格等关键信息,常以半结构化、文本形式存在Html网页中,很难直接加以利用,如何实现网页、文档中结构化数据灵活采集?
有时候,我们对弹出的广告等垃圾信息厌烦透顶,如何过滤无用信息实现精确采集?
有价值的信息采集回来,如何将这些信息进行分类、排重等智能处理,以及对信息进行存储、管理、发布、检索,满足客户不同的信息处理要求?
用户如何在海量资讯中快速、准确的找出自己最需要的信息,节省大量的信息查找时间?同时随着行业网站的不断发展,信息规模越来越大,如何建立行业网站群之间的垂直搜索来提高访问量?
如何在萌芽状态就对海量信息中的负面信息进行监控和预警,如何更好地把握舆情导向、对突发事件做出快速响应和处理?
伴随着全球化竞争加剧、信息大量过载等问题的出现,使竞争的激烈程度远远超出了人们的想象。竞争对手在关注着你的一举一动,你该怎样面对? 二、TRS绿色节能搜索 TRS网络信息雷达系统(TRS InfoRadar)实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询。
TRS InfoRadar不仅支持独立产品模式,而且支持SaaS模式。 独立模式:按照用户的需求设置采集网站,定制分类模板,建立本地数据库,用户完全拥有软件产品。 SaaS模式:数据采集、加工的繁琐工作由厂商完成,用户只需定制需要的信息即可。
TRS InfoRadar倡导绿色环保节能搜索。 绿色环保:TRS InfoRadar按需过滤掉互联网的电子垃圾信息,准确获取目标。 节能先锋:TRS InfoRadar是节约能源先锋,通过自动化、智能化、多样化、个性化的雷达信息采集和监控,避免了人力、物力等资源的浪费。 第一波:超群的信息采集 采集全面,采全率高
信息采集 TRS是否支持 各类元数据准确采集 定位元数据:支持利用mata和html标签实现各项元数据信息的精准采集与智能抽取,能够采集结构化数据。 与CKM整合,实现丰富的信息抽取:包括人名、电话等详细信息,供人们分析和利用。 多种个性化设置:在需要的情况下人工配置,实现部分元数据的准确解析。 高效采集,性能超群 采集的效率:在10M网络带宽环境下,每小时可以采集5万个网页。 高效的更新:已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。数据索引更新时间平均小于0.02s/记录。 大规模集群应用:单个采集工具能支持千万数量级的网页采集。通过集群应用,就可以实现更大规模的海量搜索。 第二波:智能的信息处理 自动分类:采集的网页可以基于内容的自动分类,不需人工干预,自动分类达到85%以上准确率。同时,提供智能分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。 自动排重:采用TRS相似性检索技术实现,可根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。 垃圾过滤:自动过滤网页中新闻的正文内容,剔除广告、版权等垃圾信息。 其它:自动生成网页摘要以及自动抽取网页中的关键词等。 第三波:及时的信息发布 一键式发布:支持自动和人工发布两种方式。采集的信息可及时发布到提供服务的网站上。 可发布专题内容。 第四波:快捷的信息检索 支持多语言网页的采集和检索:支持中、英、日、韩、俄、法、西、德、阿拉伯语等语言。 支持大量并发用户的查询请求:采用基于成本优化的查询算法,多用户并发检索,每秒可响应60个以上查询。 支持对多种属性的检索:包括按日期、URL、标题等,同时提供排序功能。 快捷的检索速度:成功管理用户T级规模的数据,保证了检索速度和可靠性。现在,在G级数据集合上达到亚秒级检索速度。 三、产品架构
网络信息智能采集工具:实时监控网站,并把最新的网页采集到本地,进行内容处理。 TRS全文数据库系统:根据应用的具体需求存储到不同的目标上。比如存储成TRS格式文件,或存储到TRS全文数据库中,或存储到关系数据库(SQL Server、Oracle)等。 Web发布模块:实现网页信息的统一发布,导航和检索功能。 另外,雷达的网页信息可方便地导入TRS WCM系统中,积累成网站发布的素材。
TRS实时信息采集机器人(TRS InfoRadar):Microsoft Windows 95/98/NT/2000/2003 TRS全文数据库系统(TRS Database Server):Unix(Solaris7/8/9/10,AIX 4.3(POWER3平台)/AIX5L(POWER4平台),HPUX11.11(PA-RISC平台));Microsoft Windows 2000/2003(x86平台);Linux 2.2及以上 TRS实时信息发布、导航和检索Web模块:支持Tomcat(Apache)、WebSphere、WebLogic等应用服务器,支持多种操作系统平台。 四、雷达的“长尾”应用 TRS InfoRadar在内容运营的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用,将极大的提高组织对外部信息的获取效率,极大降低信息采集成本,全方位掌控环境脉动,并提高各个组织的快捷反应效能。TRS InfoRadar让各行业的所有人员受益: 内容运营的垂直搜索应用:现在,购物搜索、MP3搜索…几乎各行各业的信息都可细化成各类的垂直搜索。TRS InfoRadar站内搜索与网站群垂直搜索应用,实现对结构化信息的抽取,达到资源整合与提高流量的目标。 内容监管的网络舆情应用:互联网信息既有大量进步、健康、有益的信息,也有很多垃圾信息。其虚拟性、隐蔽性、和随意性等特点,使越来越多的人们愿意透过这种渠道去表达自己的个人想法。加强互联网信息的监管和分析,对于预警、应对网络突发的公共事件和全面掌握社情民意具有现实意义。 决策支持的竞争情报:竞争情报帮助决策者正确决策早已成为不争的事实。 1、政府 政府网站运营工作人员 上传下达:有利于政府网站信息共享与上传下达。 政府网站群的垂直搜索应用:整合主站和子站资源,实现统一的搜索应用。 解决信息源问题:解决了政务外网、内网的信息量不足,更新不及时等问题。 互联网管理和新闻宣传部门 网络舆情监控:实时监控和采集互联网信息,全局观测网络舆论,发现社会热点问题。 公安机关监控:监控反动、黄色信息等。
行业监管部门 基于互联网的行业监管 政府管理者 网络舆情的应对:通过网络舆情信息,政府管理者可体察市情民生,决策与应对突发事件。 竞争情报为决策护航:为决策者制定政策法规提供情报参考。 有利于政策和课题研究:提供大量有用信息。 2、科研机构 科研人员获取科研信息和学术进展,通过网络信息收集,高质量完成相关教研课题,提高教学质量,节约人们的宝贵时间与精力。 3、企业
TRS InfoRadar可自动搜集产业情报、最新商机、竞争者动态、负面信息等用户所需要的信息。尤其关注以下信息:
专注上下游产品的价格、设计情况,制定现阶段的产品研发计划。 通过专利预警信息获取,可以了解最新专利情况等方面应用。
监控行业、企业论坛网站,获取产品使用反馈等信息。
提高市场竞争能力:通过获取竞争对手的竞争状况,管理者可获取企业现有潜在危机。 提高企业经济效益:通过竞争对手状况的对比,有利于把握商业机会,提高企业经济效益。 为领导的决策提供参考。 4、互联网应用 精确的行业服务模式:垂直搜索与通用搜索相比,可以满足专业领域的精准信息需求服务。 整合信息资源:垂直搜索的应用实现了垂直门户网站对产业上下游信息资源的整合。 提高网络流量:人们应用垂直搜索在关注的领域中搜索适合自己的有效应用的同时,垂直搜索也为信息源带去可观的流量和商业效益。 五、倾听他们的案例 1、内容运营:垂直搜索应用 现在,购物搜索、MP3搜索…几乎各行各业的信息都可细化成各类的垂直搜索。TRS InfoRadar站内搜索与网站群垂直搜索应用,实现对结构化信息的抽取,达到资源整合与提高流量的目标。 IT168等网站群垂直搜索应用 TRS InfoRadar与IT168网站的结合,将原来分散在IT168产品库、IT文章库及手机论坛三个子系统中的内容整合到一起,并对外提供统一检索界面,提高用户的关注度,在海量资讯中直接遴选出用户最需要的供求信息,节省用户信息查找时间,使访问量提升了四成以上。 宏源证券等股票垂直搜索应用 TRS InfoRadar对宏源内部和外购的各类证券投资资讯数据库进行整合和搜索,来获取和精选关于股情综合信息,为网站注册用户和宏源证券公司客户提供更有价值的个性化信息服务。它还可进行内容加工和二次信息销售等工作,为证券公司带来可观的效益,实现区别于其他证券商的差异化服务。同时,提升宏源证券的网站人气、聚集访问量。 解密中央人民政府门户搜索引擎 通过应用TRS Inforadar,中央人民政府门户对全国副省级以上政府网站(350家)中的网络信息进行整合,实现多检索方式、多语言、多文种的检索。同时,央网与政府网站标准化建设紧密结合,第一时间获取第一手信息,实现更好的搜索效果。 2、内容监管:网络舆情监控 互联网信息既有大量进步、健康、有益的信息,也有很多垃圾信息。其虚拟性、隐蔽性、和随意性等特点,使越来越多的人们愿意透过这种渠道去表达自己的个人想法。加强互联网信息的监管和分析,对于预警、应对网络突发的公共事件和全面掌握社情民意具有现实意义。 北京政法职业学院:党政机关的网络舆情应用 通过TRS InfoRadar,北京政法职业学院一方面实现将舆情监控系统,作为实训室的上机应用软件利器,供学生使用。另一方面通过对互联网论坛、博客及特别网站内容的采集,提供互联网热点内容,互联网负面信息等内容,结果汇总成为剪报报送上级单位政法委,实现对社情民意进行监控的目的,并提供舆论支持。 某公安局:公安机关安全监管新兴模式 网络现在已经构成了复杂的虚拟社区,成为社会安定和国家安全的特殊组成,某公安局及其下属市局、区县,通过TRS InfoRadar对敏感信息进行追踪,同时对互联网论坛进行信息采集,预警和报警等,通过网络,某公安局可以实时监控和应对反动言论,监控黄色信息,追踪突发事件,赢在保卫人们财产、生命安全的新战场上。 3、决策支持:竞争情报 竞争情报帮助决策者正确决策早已成为不争的事实。 国家图书馆电子剪报 国图将报纸、杂志的信息进行采集,比如竞争对手的情况,然后以付费的形式提供给企业、政府以及媒体客户。报纸方面可以将港台、新加坡等方面的报纸,包括报纸版面的信息全部抓取。 比如“中国网球公开赛”,中国网球公开赛的主办方获得赞助后需要给赞助商打广告。通过雷达抓取多个平面媒体和网络媒体的竞争情报,提供相应的版面、版次、字数统计等,汇总已为赞助商刊登的广告情况,赞助商由此了解投入产出比的情况。
责编:张赛静
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
专家专栏
|
|