您現在的位置:海峽網>新聞中心>財經頻道>財經新聞
      分享

      上周五,今日頭條估值超過120億美元的消息被刷屏。在內容市場的紅海里,身價暴漲的今日頭條已成為一條讓BAT望而生畏的“大魚”,寡頭圍剿和壯士突圍間充滿變數與可能,技術優勢牽一發而動全身。

      一項內容市場競爭與人工智能技術結合的產物——寫稿機器人,將視線聚焦在百度、阿里巴巴、騰訊、今日頭條的新戰役中,而逐漸起勢的機器寫稿產業本身也已成為戰役中尤為重要的一環。

      在深入調查“機器寫稿”產業的過程中,意料之外的兩大既成事實讓我開始重新審視人工智能和內容生產。這兩件事實分別是:

      1)在垂直領域的報道中,寫稿機器人已經被高頻率采用;

      2)騰訊、今日頭條、阿里和百度,是國內寫稿機器人技術應用最早和最為成熟的平臺。

      了解人工智能技術在專業領域的應用現狀,能夠更為直觀地感受技術革命臨近的前奏。更進一步,其在內容領域落地的深遠意義在于,將為互聯網上游資訊生產流程和數據應用方式的帶來顛覆式影響。

      而在當下,這一關鍵閥門就掌握在BAT三巨頭和估值超120億美元的新勁敵手中。為此,智東西特采訪到騰訊內容機器人項目負責人、騰訊財經副總監劉康,阿里巴巴大數據價值挖掘專家、第一財經首席數據專家湯開智博士,今日頭條相關專家,行業資深人士,進一步解構這場互聯網內容和數據重組的入口之爭,窺探背后更大規模的文本范式生成市場。

      注:近日有消息稱百度推出了其智能寫作機器人Writing-bots,但據筆者調查暫無可查證的實際應用案例,故此文中暫不做討論。以“度秘”的賽事解說功能為參考。)

      一、 文字背后的機器人

      寫稿機器人,并非指實體的機器人本身,而是將機器自動生成文本,產出內容的系統抽象化和擬人化。具體而言,寫稿機器人多以特定的信息庫為基礎,通過一定的篩選、分析、運算等信息處理手段,將信息進行重新組合、排列,并套用事先設置好的寫作模板,最終輸出新聞報道。

      “機器寫稿”,背后涉及數據挖掘、自然語言處理、機器學習、搜索技術、知識圖譜等多項人工智能技術。套用一般的人工智能的要素模型,“特定的信息庫”即支持該項技術的“大數據”,“針對文本信息的重組、排列”即為該項產品背后的核心算法。從早期的人工設定模板,到深度學習引入后的機器自我學習和模板優化,“寫稿機器人”本身正在不斷進化。

      機器人介入寫稿最早起始于美國老牌報業《華盛頓郵報》。早在2012年年末,《華盛頓郵報》就啟動了名為“truth teller(吐真者)”的實時新聞核查項目。它能全程記錄新聞報道中的文字、語音等信息,隨后與“打假”數據庫進行對比,一旦發現異常便會發出警報。

      從2015年開始,中外媒體的“寫稿機器人”走進版面,開始自立名號。《紐約時報》Blossom、《華盛頓郵報》Truth Teller、《洛杉磯時報》智能內嵌模版、《衛報》Open001、路透社的Open Calais、美聯社的Wordsmith六家國際頂級媒體設立各自的機器人服務系統。

      在國內,騰訊于2015年8月率先推出Dreamwriter寫稿機器人。隨后的一年,今日頭條xiaomingbot、第一財經DT稿王、百度度秘解說相繼浮出水面。騰訊、阿里巴巴、百度、今日頭條,四方割據的局面正式形成。

      在信息流市場,第一財經能夠代表阿里巴巴的戰略布局。在于2015年阿里的12億元購入第一財經集團30%股權,隨后也將旗下的大數據價值挖掘專家湯開智博士調任至第一財經,任其首席數據科學家,為其自動/輔助寫稿產品提供技術支持。

      二、四大平臺的機器人賽稿

      為呈現一個更加具象的寫稿機器人市場,筆者集中體驗了騰訊、今日頭條、百度、第一財經四家產品在用戶界面、內容呈現和出稿數量、效率等方面的表現,并對比分析各家在產品布局和應用領域的思路與特點。

      1)產品特點與應用狀況

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      從上述圖表分析中可以看出,上述四家的“寫稿機器人”產品主要還處在自研自用階段,主要用于自家媒體平臺的內容產出和分發。此外,第一財經首席數據科學家湯開智向智東西表示,旗下的DT稿王產品現還應用到電商平臺“千牛”的資訊版塊。

      覆蓋領域以體育賽事、和財經類新聞為主,多以短、平、快的處理方式產出賽事戰報、快訊等。其中騰訊在新聞內容覆蓋面上最廣,其產品的對接平臺包括騰訊財經、騰訊科技、騰訊體育等。第一財經集團因其更強的媒體屬性和廣泛的產品渠道,內容分發領域更更廣,包括媒體產品端、微信內容推送、電視新聞等。

      在報道形式上,賽事報道更傾向于圖文結合的方式,圖片采用自動匹配的模式。當然在面向不同終端和產品時,報道風格可能有所調整,比如在騰訊體育移動端中,賽事報道就是以純文字方式呈現;而在騰訊新聞客戶端,則保留了完整的圖文內容。

      在產稿量方面,各家并沒有給出具體數值,筆者結合頁面呈現數量和參考值進行統計。騰訊因其覆蓋領域最廣,在有效產稿量上占據一定優勢。“機器寫稿的機制是大規模地寫,最后用不用由人工編輯、CMS(Content Management System、內容管理系統)進行判斷”,騰訊內容機器人項目負責人、騰訊財經副總監劉康介紹。

      第一財經則主要以股市異動為新聞切入點,報道更頻繁。”長報道的使用頻率相對低一些,最多一天一篇,或者一個月一篇”。

      需要說明的是,將只是用于“賽事解說”的百度度秘平臺納入到分析對象中,主要原因在于度秘的“實時圖文內容呈現+音頻播報”的產業化程度已經達到機器寫稿的程度,其背后的技術原理也十分相似。或許是百度平臺本身缺少媒體屬性,抑或是作為內容分發平臺不適合自產出內容,百度并沒有在前端用新聞的形式呈現。

      2)用戶界面特點分析

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      以上分別是調用第一財經“7*24小時看板”、度秘APP“度秘直播籃球賽”、今日頭條“Xiaomingbot”頭條號作者專欄、騰訊新聞搜索“Dreamwriter”呈現的不同界面,統一以移動用戶端進行比較。

      從報道形式和內容豐富程度來看,機器寫稿與人類已經無異。在標題處理上,“擊敗雄鹿”、“創新高”、“奇才”、“遺憾”等用詞已經脫離機械式的比分呈現,帶有個性化的媒體報道屬性。

      滾動式的股票類財經快訊則更強調時效性和數據準確性,在這個維度上,機器勝過人類。

      3)內容呈現特點分析

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      在報道形式與風格上,各家根據用戶特點進行了不同的呈現。騰訊Dreamwriter、今日頭條Xiaomingbot采用圖文結合得形式進行報道,Xiaomingbot在圖片與現場感呈現上更為豐富,Dreamwriter則更強調比分和細節。在文章框架上,兩者都對賽事亮點和整體局勢進行了提煉,而不是簡單的陳述數據。

      百度度秘的解說以對話框的形式呈現,能夠為用戶提供實時的賽事戰況直播,并且配以部分動圖和音頻,表情和語氣詞的也很到位,更加擬人化和形象化。

      第一財經,作為一個更加專業和垂直領域的媒體平臺。除去中文內容呈現,同時進行了英化處理,“中文財經模板很大一部分被翻譯成英文模板,省去了內容翻譯的成本,在一財全球使用”,湯開智博士介紹。

      總體而言,在寫稿機器人這塊新業務上,BAT三家與今日頭條的技術和產品差距并不大。比較遺憾的是,百度并沒有將其背后的技術整合出完整的媒體產品,提到度秘的“賽事直播”功能很多人并不知曉。

      究其背后的原因,可能還是百度本身缺少媒體平臺基因,聚焦在用戶的被動搜索與廣告業務。不過,另一面,今日頭條的百度化卻比想象中快。

      三、外行看熱鬧 內行看門道

      對于一個曾經視“人工智能威脅論”為笑話的人,突然間發現,機器人已經侵入到自己所擅長的領域,內心多少有些驚訝和恐慌。不過,人工智能的更大價值還在于了解之后為人類所用。“我個人偏向中性的認知,機器寫稿的確能夠取代一部分人力,但只是冗余的、低技術門檻的人力”,騰訊財經副總監劉康認為。

      在與第一財經湯開智博士的交流中,他認為機器寫作的研究主要圍繞三種典型模式,“邏輯由淺入深,從精確到模糊”:

      1)第一類是基于數字進行事實陳述,并進行簡單邏輯分析的文章,比如二級市場的監控、體育賽事的簡訊;

      2)第二類是根據每類稿件的信息要點,對信息源進行針對性的信息提取,把非結構化的文本轉為結構化及半結構化的數據,再根據不同的規則把信息要點組合寫成單點內容;

      3)第三類是單點內容的關聯生成,此類稿件能彌補單點內容信息量單一的缺點,并為受眾尤其是投資者,及時關聯專家對基本數據的解讀及評論,生成更有深度、更立體、更綜合的稿件。

      在寫稿機器人產品中,背后技術支持最為明確和清晰的是今日頭條的“Xiaomingbot”,它是由頭條實驗室與北京大學計算所(萬小軍團隊)聯合研發而成。今年2月今日頭條還挖走了前微軟亞洲研究院副院長馬維英,擔任其負責人。

      在抽取式文本生成研究領域,北大萬小軍老師于關于采用特征工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在ACL2016引起了廣泛關注。

      今年初,萬小軍老師還以技術開發團隊負責人的身份,幫助南方都市報完成了寫稿機器人“小南”的研發。

      從產品演進路徑來看,一代寫稿機器人語言偏向生硬,句式較為單一。在優化后的產品中,具備更高的語言表達和邏輯思維能力,以及圖文信息處理能力。以下是寫稿機器人的簡化版工作流程:

      機器人寫稿這事,BAT和今日頭條已打得不可開交!

      現在大家都還處于技術過渡的過程”,業內人士表述。前期產品以簡單的結構化自動生成為主,將一些數據嵌入進去,利用人工模板。因為機器學習和數據庫的完善,大家希望能夠借助機器的自主學習功能,“

      比如,跑一百萬篇文章,機器可以自建模板”。但在現實應用中,因為垂直、專業領域的文章具備鮮明特點。自然語言理解技術有局限,目前機器讀取數據填充格式化模板是最成熟但也是最沒有技術水平的方案,寫稿機器人產品仍主要用于體育和財經類資訊 。

      體育和財經文本信息較少,數據信息多,“每周幾十場NBA、足球賽、棒球賽等,以及每天全球主要市場上萬家上市公司的各種披露信息和股票漲跌”,從這個角度上說,人群結構化程度較高,垂直化需求強烈。

      四、商業價值所在:以一當十五

      技術落地的最終訴求來自產業所向和商業價值。“

      多、快、好、省”,是騰訊財經總監劉康對于機器寫稿紅利的提煉。

      他并未給出寫稿機器人準確的產出效益比。“一般來說,機器產出的稿件30-50%,會各個頻道的采用,最終呈現在頁面端”。實際上,寫稿機器人的成效容易量化,基于其產出的稿件量或者字數,以量化成普通人力的規模。其核心的“快”,包含兩個層面,一是響應速度,寫稿機器人平均可達到1分鐘甚至更快產出快訊;二是分發速度快,與后臺無縫銜接,縮短至各平臺中間流程。

      作為技術輸出的第三方,面向B端的服務集成是另一種可循的商業模式。面向媒體企業收費,“例如某科技媒體平臺一年人工費用為900萬,采用自動寫作或者輔助寫作的產品,可以提高員工績效和產出,減少其人力成本”,從業人士介紹,寫稿機器人可以24小時在線,而人工還需要輪班和調休。

      在與阿里巴巴駐第一財經首席科學家湯開智的交流中,他更為系統地介紹了寫稿機器人所產生的效益提升,主要包含以下三個方面:

      1)機器稿件產量的提升。“從去年8月25日開始記錄到現在,”一財全球“總共產生19604篇稿件。考慮到機器寫稿的簡短性,平均每篇稿子64.5字,總字數為1,264,458字, 平均每篇稿件約64.5個單詞。這相當于同時期一個15人編輯團隊人工監控股市寫稿的總產量。

      綜合分析,考慮到目前機器稿件的單調與重復等因素,稿王機器稿件的加入,相當于為一財全球增加了一個3個人的編輯團隊。

      2)成本下降和資訊反應速度的提升。基于滬市1040家公司、深市1420家公司的即時監控和異動報道工作,至少需要15名以上的編輯進行即時監控,每人要同時監控100多只股票,1名翻譯即時翻譯。并且,股票的異動分成多種情況,人反應和分析的時間將帶來5~10分鐘的延遲。

      因為寫稿機器人的使用,這些稿件在沒有人工參與的情況下快速生成,延時也降低到1分鐘。此外,寫稿機器人還能針對大盤、板塊進行著監控和稿件生成。

      3)流量的貢獻。根據Google Analytics匯總報告中顯示最近1個星期, 3月20日到3月29日之間機器稿件流量占到一財全球全部流量的25%,相對于之前有顯著提升。

      五、新聞之外 更大的文本范式“蛋糕”

      利用寫稿機器人的工作思路:文本分類,文本中的信息提取,文本總結,基于邏輯的自動寫作方法在“文本范式”的領域,均具備可遷移的想象空間,如法律、合同、電商數據等領域。

      電商模式是來錢比較快的”,業內資深人士分析,并提供值得借鑒的方向思路。電商數據多而龐雜,對于當下盛行的電商導購返利網站而言,UGC(用戶原創內容)需要大量的人工審核,雖然編輯自己寫的少,但是仍然需要花大量人力在審查上。

      機器審查又會過濾掉一些很有價值的商品推薦。所以建立一個機器寫作的導購網站,UGC或者機器只要去發現一些有價值的線索就好,“具體的內容我們交給機器去寫,賺流量的同時也賺眼球”。

      綜合以上分析,四大平臺下的寫稿機器人最具商業化前景和可能性。“其平臺不僅具備完善的財經數據,同時得到了阿里巴巴的電商數據支持”,前文提及的“千牛”電商平臺資訊服務也得益于此。

      此外,據湯開智博士介紹,DT稿王產品的下一側重方向在于,“為專業的內容生產方提供技術輸出,建立一套輔助寫作系統,能夠和編輯互動”。

      “語言生成是一個非常基礎的問題,我們如果可以把這個問題解決好,自然語音的理解方面可能還會有更大的突破,我們很多方法可以把難問題變簡單,如果能夠設計成模型自動的做這一步,最后得到的效果會更好”,今日頭條科學家、實驗室總監李磊表示,可以想象圍繞寫稿機器人衍生的系列“文本范式”算法,將成為今日頭條后續的信息流源頭之一。

      騰訊方面,則朝著產品化的路徑進一步完善。“近期,我們會有一個更具體的產品發布。類似一個服務系統,可以用于前端展示”,騰訊財經副總監劉康向智東西。

      六、大數據時代下 高質量數據源卻“一票難求”

      在本月初的IT領袖峰會上,馬化騰曾提到,就算是騰訊這樣規模的平臺,在數據應用上仍面臨難題。“用戶直接產生的數據還需要脫敏(保留隱私性)、清理(保留有效數據)、加標簽(分類)等前序工作后才能產生出有價值的數據”。

      機器寫作需要從大量的文字資料中或許稿源信息和文本數據,然而實際上互聯網上的中文信息本來質量就不高,清洗難度很大。

      此外,稿源信息清洗后需要格式化,然后通過數據調用載入模板的形式生成自動化稿件,這里面模板越精細化,效果就越好。然而實際上沒有足夠好的信息源來配合模板,同時,編寫模板代碼的工作量,事實上不小。

      以技術基礎和數據庫為導向。類似NBA、奧運會等大型賽事,大型媒體平臺本身需要對接到一個信息數據庫,詳細的圖文數據。“這個數據庫是非常高質量的,包含有很多細節的”。但在賽事數據和股市數據之外,很難再找到這樣結構化、高質量的數據庫。

      此外,因為純粹一個平面化的機器寫作很難去做,一般還是要垂直行業能夠做精細化,比方說棒球幾只安打怎么報,每個投手或者擊球手什么特點。對應到法律行業就是要了解司法體系,以及不同法律條文之間的關系,這遠不是一個普通創業公司能做的事情。

      七、結語:下一個“今日頭條”

      在你一次不經意的推送點擊和頁面瀏覽間,得到的信息很有可能就不再出自人類編輯之手,而是機敏、不知疲倦的寫稿機器人產物。如果不是這次深度調查和數據搜集,我也不會意識到寫稿機器人產業的發展與落地速度會如此之快。這一切,正在悄無聲息地發生在你我身邊。

      當機器人和人工智能不再依附于具象的實體,而是以一種虛擬手段侵入人類生活時,將變得更加莫測和不可控。同時,也是人類以一種更加理智和客觀的態度地審視技術革命的契機。

      當新聞編輯室的資源越來越少,重復無創造性勞動力的越來越多,不難想象,在未來的新聞報道中,人工智能將取代更多的“媒體工作者”。

      回到技術應用前景。通過為信息流前端引入算法機制,今日頭條坐享內容市場的技術紅利。如果將這一思路引入上層級的信息流源頭呢?在生產模式上進行勞動力改造和個性化匹配,勢必將產生更加劇烈的化學反應。

      可以預見,人工智能所引發的信息流生產方式顛覆,將成為BAT與今日頭條的下一個重要戰場。一項由技術驅動的、更為核心的業務比拼。與此同時,龐大的新興市場需求還將催生出一批可期待的技術領域創業新秀。

      但需要警惕的是,當人工智能大戰晉升到寡頭層面,其核心仍是一場數據大戰!

      責任編輯:金林舒

      最新財經新聞 頻道推薦
      進入新聞頻道新聞推薦
      福州:鮮花代替紙錢 “云端”寄托思念
      進入圖片頻道最新圖文
      進入視頻頻道最新視頻
      一周熱點新聞
      下載海湃客戶端
      關注海峽網微信
      ?

      職業道德監督、違法和不良信息舉報電話:0591-87095414 舉報郵箱:service@hxnews.com

      本站游戲頻道作品版權歸作者所有,如果侵犯了您的版權,請聯系我們,本站將在3個工作日內刪除。

      溫馨提示:抵制不良游戲,拒絕盜版游戲,注意自我保護,謹防受騙上當,適度游戲益腦,沉迷游戲傷身,合理安排時間,享受健康生活。

      CopyRight ?2016 海峽網(福建日報主管主辦) 版權所有 閩ICP備15008128號-2 閩互聯網新聞信息服務備案編號:20070802號

      福建日報報業集團擁有海峽都市報(海峽網)采編人員所創作作品之版權,未經報業集團書面授權,不得轉載、摘編或以其他方式使用和傳播。

      版權說明| 海峽網全媒體廣告價| 聯系我們| 法律顧問| 舉報投訴| 海峽網跟帖評論自律管理承諾書

      友情鏈接:新聞頻道?| 福建頻道?| 新聞聚合
      超清首页国产亚洲丝袜| 亚洲an日韩专区在线| 免费在线观看亚洲| 久久精品国产精品亚洲| 亚洲最大的黄色网| 国产亚洲精aa成人网站| 自拍偷自拍亚洲精品播放| 亚洲成无码人在线观看| 亚洲AV无码之国产精品| 香蕉蕉亚亚洲aav综合| 亚洲精品天堂无码中文字幕| 国产成A人亚洲精V品无码| 亚洲日本va一区二区三区| 亚洲VA中文字幕无码毛片 | 久久青草亚洲AV无码麻豆| 亚洲综合色区在线观看| 亚洲国产精品白丝在线观看| 中文字幕亚洲第一| 相泽亚洲一区中文字幕| 奇米影视亚洲春色| 亚洲日韩乱码中文字幕| 亚洲一区AV无码少妇电影| 18gay台湾男同亚洲男同| 亚洲国产精品人人做人人爽| 亚洲一卡二卡三卡四卡无卡麻豆| 亚洲国产精品成人精品小说 | 亚洲第一综合天堂另类专| 亚洲人成色777777精品| 亚洲色最新高清av网站| 亚洲第一成年网站视频| jizzjizz亚洲日本少妇| 亚洲AV中文无码乱人伦| 亚洲18在线天美| 亚洲国产乱码最新视频| 久久综合亚洲鲁鲁五月天| 亚洲精品成人网站在线播放| 国产成A人亚洲精V品无码| 亚洲国产二区三区久久| 亚洲欧洲日产国码av系列天堂| 国产亚洲欧美日韩亚洲中文色| 亚洲成A人片在线观看中文|