長沙網站優化公司

百度是如何保護網站文章原創的

浏覽:/ 2014-09-09

 原創一直是大問題,往大了說,互聯網生態環境日趨惡劣,采集僞原創低質量內容泛濫,嚴重擠占了優質原創資源的生存空間。導致互聯網資源整體質量大幅下降,網民受損、優質站長受損、搜索引擎亦受損。往小了說,很多站長一直在進行原創建設,而得不到應有的保護。如何加大對站點原創的保護以及如何衡量原創是否能滿足用戶需求是一個艱巨的任務。爲此,百度一直在進行原創保護和展現建設,因爲這是用戶的需求,盡管進展緩慢,但客觀看來,確實有很大的進步。那麽百度是如何保護原創的?下面談談百度原創那點事。

  

 

  本文內容主要分爲以下五個大點:

  一、百度談原創項目那點事;

  二、百度原創保護的進展;

  三、站長對于原創保護的錯誤認知;

  四、用戶對于原創的態度;

  五、對于大型網站說保護原創更名副其實,對小站,說保護高質量內容更好。

  一、百度談原創項目那點事

  1、搜索引擎爲什麽要重視原創

  采集泛濫化

  來自百度的一項調查顯示,超過80%的新聞和資訊等都在被人工轉載或機器采集,從傳統媒體的報紙到娛樂網站花邊消息、從遊戲攻略到産品評測,甚至高校圖書館發的催還通知都有站點在做機器采集。可以說,優質原創內容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰性的事情。

  提高搜索用戶體驗

  數字化降低了傳播成本,工具化降低了采集成本,機器采集行爲混淆內容來源降低內容質量。采集過程中,出于無意或有意,導致采集網頁內容殘缺不全,格式錯亂或附加垃圾等問題層出不窮,這已經嚴重影響了搜索結果的質量和用戶體驗。搜索引擎重視原創的根本原因是爲了提高用戶體驗,這裏講的原創爲優質原創內容。

  鼓勵原創作者和文章

  轉載和采集,分流了優質原創站點的流量,不再具屬原創作者的名稱,會直接影響到優質原創站長和作者的收益。長期看會影響原創者的積極性,不利于創新,不利于新的優質內容産生。鼓勵優質原創,鼓勵創新,給予原創站點和作者合理的流量,從而促進互聯網內容的繁榮,理應是搜索引擎的一個重要任務。

  2、采集很狡詐,識別原創很艱難

  采集冒充原創,篡改關鍵信息

  当前,大量的網站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

  內容生成器,制造僞原創

  利用自動文章生成器等工具,“獨創”一篇文章,然後安一個吸引眼球的title,現在的成本也低得很,而且一定具有獨創性。然而,原創是要具有社會共識價值的,而不是胡亂制造一篇根本不通的垃圾就能算做有價值的優質原創內容。內容雖然獨特,但是不具社會共識價值,此類僞原創是搜索引擎需要重點識別出來並予以打擊的。

  網頁差異化,結構化信息提取困難

  不同的站點結構化差異比較大,html標簽的含義和分布也不同,因此提取關鍵信息如標題、作者和時間的難易程度差別也比較大。做到既提得全,又提得准,還要最及時,在當前的中文互聯網規模下實屬不易,這部分將需要搜索引擎與站長配合好才會更順暢的運行,站長們如果用更清晰的結構告知搜索引擎網頁的布局,將使搜索引擎高效地提取原創相關的信息。

  3、百度識別原創之路如何走?

  成立原創項目組,打持久戰

  面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创網站得到应有的收益、为了推动中文互联网的前进,真人平台抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,真人平台做好了打持久战的准备。

  原創識別“起源”算法

  互聯網動辄上百億、上千億的網頁,從中挖掘原創內容,可以說是大海撈針,千頭萬緒。真人平台的原創識別系統,在百度大數據的雲計算平台上開展,能夠快速實現對全部中文互聯網網頁的重複聚合和鏈接指向關系分析。首先,通過內容相似程度來聚合采集和原創,將相似網頁聚合在一起作爲原創識別的候選集合;其次,對原創候選集合,通過作者、發布時間、鏈接指向、用戶評論、作者和站點的曆史原創情況、轉發軌迹等上百種因素來識別判斷出原創網頁;最後,通過價值分析系統判斷該原創內容的價值高低進而適當的指導最終排序。

  目前,通過真人平台的實驗以及真實線上數據,“起源”算法已經取得了一定的進展,在新聞、資訊等領域解決了絕大部分問題。當然,其他領域還有更多的原創問題等待“起源”去解決,真人平台堅定的走著。

  原創星火計劃

  真人平台一直致力于原創內容的識別和排序算法調整,但在當前互聯網環境下,快速識別原創解決原創問題確實面臨著很大的挑戰,計算數據規模龐大,面對的采集方式層出不窮,不同站點的建站方式和模版差異巨大,內容提取複雜等等問題。這些因素都會影響原創算法識別,甚至導致判斷出錯。這時候就需要百度和站長共同努力來維護互聯網的生態環境,站長推薦原創內容,搜索引擎通過一定的判斷後優待原創內容,共同推進生態的改善,鼓勵原創,這就是“原創星火計劃”,旨在快速解決當前面臨的嚴重問題。另外,站長對原創內容的推薦,將應用于“起源”算法,進而幫助百度發現算法的不足,不斷改進,用更加智能的識別算法自動識別原創內容。

  二、百度原創保護的進展

  原創星火計劃一期和起源算法出来都有段时间了,目前主要覆盖的都是一些大型的新闻类站点,目前,原创星火计划取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。百度LEE也表示原创起源算法,也让这些优质的網站有了一个比较好的收益。

  1、原創星火計劃上線前後的同期流量對比顯示,原創url流量增長明顯。

  

 

  2、原創星火計劃上線後一段時間內原創url流量增長明顯並逐漸趨于平穩。

  

 

  这个是一个小范围的数据,真人平台在来宏观的看看。2013年,中国低质網站泛滥,在低质網站中采集及作弊站点泛滥两种共占比高达80%。恶劣采集站占到40%之多,采集站、作弊站点、垃圾无价值站点在整个互联网资源环境中的比例越来越高,且有主导趋势,优质资源的空间在不断减小。优质站长受损,原创内容受到很大的阻碍。2014年,作弊站和采集站占比35%,有所遏制,采集站下降了16%,百度对于原创的宣传保护起到了很大的效果,然而无价值站点越来越多,在一定程度上也是“原创”惹的祸,后面细说。

  

 

  (2013低质網站分布情况)

  

 

  (2014低质網站分布情况)

  三、站長對于原創保護的錯誤認知

  1、原創內容不等于高質量內容

  網頁主體內容是網頁的價值所在,百度主要從以下角度評價網頁內容質量:內容制作成本高低;內容是否有效、完整豐富;是否原創;信息是否真實有效;是否權威或投入較多專業的知識和經驗;是否存在作弊行爲。對于頁面的主體內容價值,原創二字並沒有怎麽突出。

  什么内容算质量高?内容质量高:内容质量好的网页,花费了较多时间和精力编辑,倾注了大量经验和专业知识,内容清晰、有效、完整且丰富。例如:专业医疗網站发布的内容丰富的医疗专题页面、资深工程师发布的完整解决某个技术问题的专业文章、专业B2C網站上,完整有效的商品购买页、权威新闻站原创或经过编辑整理的热点新闻报道、经过网友认真编辑,内容丰富的百科词条。

  而對內容質量高的定義壓根都沒有原創這個標准。原創只是一個高質量內容的簡單說法,或者說是高質量內容的更好一個層次。你的內容質量高又是原創那當然最好,但反過來就比較尴尬了,是原創但質量低,這是百度保護原創以來很多站長出現的一個問題,整天搗鼓原創,認爲原創內容等于高質量內容,殊不知站點原創度在提升,但站點價值卻在下降。

  前面也說了2014無價值站點越來越多,這其中不乏站長對于原創內容的錯誤認識,因爲不是每一個人都能原創出高質量的內容。原創二字只是高質量網頁內容的一個非必須特征,能在一定程度上反應網頁內容的稀缺度,但原創並非一定稀缺,原創更不能代表高質量的內容的所有特性,這些一定要理解。

  2、原創內容不等于收錄

  網站更新的内容是原创的就一定收录,这种认识其实是错误的,而且非常错误。总有很多人抱怨我的原创文章怎么不收录?也有的抱怨为什么别人复制我的就收录了?第一个问题其实很简单,为什么要收录你的?你自己写的这个老掉牙的东西,排版混乱、还要加载半天,读完都知道说的什么,这样的原创对搜索引擎对用户有什么价值?没有解决认为问题,只是在那自我陶醉,感觉自己文采多好。而且这跟你整体網站的权值,结构,历史表现,内外链等都有关。

  第二个问题为什么别人复制我的就收录了?就是别人把你的内容放到自己网页后,这个网页比你那个网页多了一些你没有的,也就是增加了附加价值,可能他的網站信誉度比你高,可能结构比较好,可能没那么多弹窗,可能用户可读性更强等等。内容质量高不高不由原创决定,搜索引擎收不收录那就更不是原创决定,至于百度为什么不收录你的網站,需要从多方面去思考,而不仅仅看是否原创。要真要说原创二字与收录的关系,那我只能说原创的可能重复度低,仅此而已,但这不是百度收录你的理由。

  3、原創內容不等于排名

  不管是百度搜索質量白皮書對網頁的內容質量、網頁浏覽體驗、可訪問性進行衡量,然後排序;還是百度搜索研發部在談互聯網頁面價值時指出的受衆群大小、頁面稀缺程度、頁面質量高低、頁面時效性四個排序標准;或者是站長圈裏談到的頁面基礎得分、站內得分、站外得分、用戶得分這四個網頁的綜合排名得分因素。真人平台可以發現頁面內容質量一直只是衆多百度網頁排名因素中的一個,而原創又只是頁面內容質量構成的一小部分。

  經常會聽到有人說,“我的原創文章怎麽沒有排名?”、“爲什麽我堅持原創,排名卻不好”。事實上很多人都有這個問題,有時候我也有。做好優質原創內容確實是一個提高網站排名持续有效的方法,但这只是一个方法,哪怕是你一直持续更新优质原创,也只是说理论上排名会好起来,没有哪一个搜索引擎曾公告:只要你有优质原创内容,我就给你好排名。影响排名的因素非常多,尽管内容是做網站的重中之重,但你不能保证你的網站不会有其他因素影响你的排名,比如结构,比如加载速度,甚至被黑。

  網站原创这一个价值大放异彩不一定就能在页面排序大战中脱颖而出,需要综合各方面因素,我想这一点大家都明白。况且我刚刚一直假设的是优质原创,持续的高质量内容,如果仅仅只是你认为的原创,按照上面说的原创内容不等于高质量内容,是不是更加悲剧了呢?

  

 

  4、百度直接識別發布時間確定原創不就行了嗎?

  很多人可能说:识别原创还不容易,看谁先发布的,识别发布时间不就行了吗?百度就是照顾大網站,识别原创都是假的。我只能说,你把原创识别判断想得太容易了。百度Lee也说过,发布时间实际上早就已经识别,单纯靠发布时间是无法判断原创性的。

  前面說了百度原創識別系統在百度大數據的雲計算平台上開展,首先,通過內容相似程度來聚合采集和原創,將相似網頁聚合在一起作爲原創識別的候選集合;其次,對原創候選集合,通過作者、發布時間、鏈接指向、用戶評論、作者和站點的曆史原創情況、轉發軌迹等上百種因素來識別判斷出原創網頁。發布時間時間僅僅是這上百種因素中的一個,想直接通過識別發布時間確定原創,你想得太容易了。

  互聯網動辄上百億、上千億的網頁,從中挖掘原創內容,可以說是大海撈針,而且識別原創過程非常複雜,更是難上加難。百度確實一直致力于原創建設,不是爲你,而是爲了百度自己。但解決原創問題確實面臨著很大的挑戰,計算數據規模龐大,面對的采集方式層出不窮,不同站點的建站方式和模版差異巨大,內容提取複雜等等問題都會影響原創算法識別,甚至導致判斷出錯。所以才會出現很多原創假象,這也是沒辦法的,對原創的保護確實是一個非常艱巨的問題,谷歌研究原創這麽多年,依舊是勉勉強強,原創保護仍是個長久問題。

  說完站長對于原創的認識,再說說用戶的態度,都是真人平台在爭論原創,有沒有想過是創給誰看的呢?還不是給真人平台的用戶看,那他們是怎麽想的呢?

  四、用戶對于原創的態度

  说一句不怎么好听的话,现在的大部分網站,包括加入百度星火原创计划的網站,有多少是纯原创呢?大多都是由原创、投稿、编辑、精华文章转载等组成,也不都是原创。相反要说纯原创,我看它们还不如一些苦哈哈的小站站长,每天辛辛苦苦在那搞创作。但为什么用户要看他的不看你的?

  用戶在乎什麽?用戶在看內容時會在乎原創嗎,還是你覺得用戶在乎?用戶在乎的應該是內容對他有沒有價值?有用沒有用?而不是誰提供的這個內容,這個世界上的人最關心的都是自己,用戶找內容最關心的同樣是內容給自己帶來的利益,至于原創者是誰恐怕只有原作者最關心。

  你需要查一个东西,你去找内容,找到了,而且你非常满意,这就够了。至于这个内容是不是原创,你会在意吗?我不会,我会觉得这个網站不错,内容非常好,收藏一下,下次继续来。有时候看到了原作者以及某些文章的原文出处,我也不会再去点,因为这里已经满足我的需求了,而且这里的速度、排版、结构都很好,我何必去找原内容。用户是懒的,没人整天在那找作者,他们找的是有价值内容,这就是为什么现在越牛的網站越不吝啬留原创地址,因为既然原作者在乎,他留就是了,反正他和他的用户都不在乎。

  

 

  所以说整天争原创有什么意义了呢,是你的原创用户就得看?用户不是在找原创,他是在找有价值能解决他现在问题的内容。打个比方,一个用户在找关于京东上市的信息,结果在新浪新闻找到了,非常好,但文章下面写着内容来自京东论坛,这个用户会不会说:我X,不是原创,原来是来自京东的,垃圾,再也不看新浪新闻了?我想不会,作为用户,只要有价值,原创who care?

  五、對于大型網站说保护原创更名副其实,对小站,说保护高质量内容更好

  在我看来,对于大型網站说保护原创更名副其实,对小站说保护高质量内容更好,为什么这么说,因为百度强调原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。对于大型網站,百度知根知底,信誉度高,有权威,用户群体大,历史表现好,所以大多原创展现,原创起源算法都发生在大型網站上,因为技术跟不上,所以部分網站会提前保护,就像加入星火原创计划的都是大型網站,因为可信度高,成功率高。

  而对于小型網站,我觉得更多的是鼓励站长创建优质的内容,因为想要被保护,首先就必须有优质的内容做支撑,不然何谈百度需要的原创。细心的朋友在前面可能发现,百度每次提到原创都会加上低质、高质量等词,比如“原创高质量内容”、“伪原创低质量内容”、“高质原创”等。为什么每次说原创都要带上这些词?因为百度也怕误导站长,也怕站长像前面说的只看到原创二字。这不是百度的目的,百度重视保护原创的根本原因是为了提高用户体验,原创不是目的,希望小站创建优质内容才是目的,所以百度讲的原创也一直是优质原创内容。

  鼓励小站原创,保护網站原创到不如说是保护高质量内容,杜绝垃圾采集内容,这么说可能更好,因为高质量内容还有个谱,但是原创以及原创判断真的是一个没谱的事。

  寫在最後

  原創保護肯定會是百度一個長期的計劃,不可能一步到位,所以站長們一定要心態擺正,不要整天盲目原創+抱怨,用戶真正要的不是原創,要的是有價值的內容,百度也只是借保護原創來提升互聯網高質量內容,原創只是一個措施,不是結果,不是最終的目的,百度保護原創是爲了維持互聯網生態、鼓勵站長。站長們做原創是爲了能給用戶有價值獨特的內容,這些才是結果。

  這其中就有一個僞原創的問題,很多站長不屑,認爲這是抄襲。其實從用戶的需求出發,挖掘對于用戶有價值的內容是很多人都在做的,而且會經常挖掘別人的優質內容,這個東西對我的用戶很有價值,爲什麽不用?別人用了你就不用了,那這個互聯網的資源對你來說恐怕沒多少了。你可以稱之爲僞原創,可以稱之爲整合,也可以叫它重新包裝,但這不是抄襲,不是直接引用別人的就完事了,重點要比別人做得更好,更具有競爭性。成功借用別人的成果不是讓你抄襲,而是放大它的優點,彌補它的缺點,結合自己的優勢,讓內容更加完整更有價值。如果只是長期挪用別人的內容,做得還沒有別人好,這才叫做抄襲。

  对于站长而言,不要太多的考虑什么原创不原创,只需要根据用户需求给他们有价值的内容就行了,原创不能说明什么,原创不一定就好。就拿百度来说,百度知道、百度百科、百度文库、百度网盘等有多少是原创的内容?很多都不是原创,那为什么流量会那么高呢?因为这些平台的这些内容满足了用户的需求。在内容建设的时候,内容质量度和可读性都是網站运营的关键因素,不要一味的在那琢磨所谓的原创而忽视了用户,忽视了内容本身的质量。用户体验是未来的发展方向,搜索引擎要满足的是用户,網站要满足的也是用户,所以只要網站内容能持续满足用户需求,获得用户青睐,網站在搜索引擎那的展现也不会有什么太大问题。保不保护也没多大关系。

閱讀"百度是如何保護網站文章原創的"的人還閱讀

上一篇:如果沒有新聞源,怎樣發優質外鏈

下一篇:如何让掉了的網站排名还复来