0

作者丨郭思
編輯丨陳彩嫻
大模型的創業進入2.0階段,除了此前如雨后春筍出現的自然語言公司之外,瞄準視覺大模型應用的創業公司也陸續成立。
近日,AI 科技評論獨家獲悉:IEEE Fellow、香港大學教授徐東成立了一家 AI 公司——徐圖智能,定位是基于視覺大模型技術,提供文生視頻等服務。
企查查信息顯示,該公司于今年6月成立,仍處于注冊狀態。

團隊成員方面,徐東擔任徐圖智能 CEO,他于2001年和2005年在中國科學技術大學取得學士和博士學位,目前擔任香港大學計算機系教授。
他曾在微軟亞洲研究院、香港中文大學和哥倫比亞大學從事研究工作,并在南洋理工大學和悉尼大學任教。徐東教授在計算機視覺、多媒體信號處理以及機器學習等領域做出了重要貢獻,在IEEE Transactions和國際頂級會議上發表了150余篇論文,其中兩篇論文分別獲得T-MM 2014最佳論文獎和CVPR 2010最佳學生論文獎。徐東教授是IEEE和IAPR Fellow,于2018和2021年兩次入選科睿唯安 (Clarivate Analytics)高被引學者,同時也擔任ACM Computing Surveys (CSUR)資深副主編。
在徐東加碼之下,徐圖智能在文生視頻領域有強大的技術基礎,其團隊或也絕大多數來自香港大學、商湯等名校或名企。
長久以來,相對于文本、代碼和圖片生成,視頻生成(Text-to-Video)也一直被認為是 AIGC 的“高地”,面臨龐大的計算需求、高質量數據集短缺、可控性等挑戰。所以對于視頻的GPT時代,人們一直抱有期待但遲遲沒見其到來的跡象。
但近期,視頻領域似乎迎來了新的春風。Runway 先后發布了 Gen1、Gen2, Motion Brush 則近期朝視頻可靠性向前了一步,Stability AI 也發布了自己的首個 Text-to-Video 模型 Stable Video Diffusion。今年 7 月,Pika Labs 在 Discord 推出服務器,并在幾個月時間內收獲了 50 萬用戶。
不過相比起文本和圖像領域,視頻創業要想取得突破一段還有漫長的路程。行業一致認為,視頻生成的主要難題在于時長,跟時長相關的是動作的意義,不僅要延長視頻制作的時長,還要關注動作的意義,看它到底能做多復雜的動作。
其次,視頻的清晰度也需要進一步提高。盡管清晰度方面已經有突破,但還沒有提高到電影級的水平,現在生成的視頻一般是720p分辨率,視頻的流暢性也不夠理想,特別是一些細節的texture。
而對于Pika Labs創始人提出的視頻生成處于類似GPT-2的時期,徐東則在2023年新一代人工智能創業大賽的主題演講中提出,視頻生成暫時還無法直接定義為來到了GPT時代,但可以肯定的是已經初現曙光,這或許也和徐東此次創立文生視頻創業公司息息相關。
大模型創業公司的機會在哪里?文生視頻領域能否迎來GPT時刻的?歡迎添加作者微信(lionceau2046)交流,互通有無。
雷峰網 雷峰網 雷峰網(公眾號:雷峰網)
雷峰網 雷峰網 雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。