專訪 Oxylabs 首席執(zhí)行官:合乎道德的網(wǎng)絡數(shù)據(jù)收集如何為公眾利益服務?
請介紹一下 Oxylabs,公司一開始是什么樣的,這些年來最重要的成就有哪些?
Oxylabs 是高級代理和公開網(wǎng)絡數(shù)據(jù)采集解決方案的領先提供商,讓各種規(guī)模的公司都能利用大數(shù)據(jù)的潛力。簡而言之,我們提供所有必要的工具和解決方案,供企業(yè)大規(guī)模收集公開可用的數(shù)據(jù)。
這些年來,我們的產品組合不斷發(fā)展,能夠滿足對公開網(wǎng)絡數(shù)據(jù)的日益增長的需求。例如,我們推出了即開即用的抓取解決方案,如爬蟲 API,讓我們的客戶能夠專注于分析數(shù)據(jù),而不用考慮棘手的網(wǎng)絡抓取過程。
如今,我們擁有 1000 多家客戶,其中包括數(shù)十家全球財富500 強企業(yè)。此外,Oxylabs 擁有 400 多名員工,他們真正專注于每天為我們的客戶交付出色的產品和體驗,我對他們每個人都心存感激。
請向我們的讀者解釋一下什么是網(wǎng)絡抓取?
簡單來說,網(wǎng)絡抓取就是從預定義的網(wǎng)站采集大量公開可用數(shù)據(jù)的自動化過程。企業(yè)可以使用收集的數(shù)據(jù)來獲得數(shù)據(jù)驅動型洞察,推動其運營,并支持戰(zhàn)略性企業(yè)決策。
例如,網(wǎng)絡抓取是在線購物中不可或缺的一環(huán),因為它讓企業(yè)能夠訪問可靠的實時數(shù)據(jù),并更好地理解其友商的行動。因此,公司能夠以最具競爭力的價格向客戶提供最令人滿意的產品和服務。
這只是一個網(wǎng)絡抓取商業(yè)案例,這樣的案例還有很多。隨著對大數(shù)據(jù)的需求極速增長,不同的用例也浮現(xiàn)出來,新的行業(yè)也在發(fā)現(xiàn)外部數(shù)據(jù)的優(yōu)勢。
不太懂互聯(lián)網(wǎng)技術的中年人如何從網(wǎng)絡抓取技術獲益?
自動化網(wǎng)絡數(shù)據(jù)采集解決方案不僅可惠及各個企業(yè),還能為更廣泛的普通大眾帶來諸多便利。
想象一下這樣的場景,你需要獲取特定產品的最優(yōu)價格。我們不用打開不同零售商網(wǎng)站的多個瀏覽器標簽頁,記錄產品信息并花費數(shù)小時試圖找出最優(yōu)惠的價格,而只需訪問價格產品比較網(wǎng)站。所有比較網(wǎng)站都依賴網(wǎng)絡抓取技術,在幾秒之內提供這些信息。
旅行規(guī)劃是另一個很好的例子。旅游比價平臺網(wǎng)站很適合用于組織家庭度假,或者規(guī)劃國外城市短假。它們提供了最優(yōu)機票和食宿價格,并可幫助我們找到經濟實惠的交易。如果沒有網(wǎng)絡抓取,旅行者又只能花費數(shù)小時甚至數(shù)天來研究最優(yōu)惠的價格,或依賴其當?shù)芈眯猩纭?/p>
當然,最明顯的例子還是搜索引擎,因為它們依賴網(wǎng)絡抓取技術來對互聯(lián)網(wǎng)上的所有網(wǎng)站編制索引。通過這樣做,搜索引擎實際上可以將我們定向到在線來源以解答我們的問題。簡單來說,網(wǎng)絡抓取是一項神奇的技術,可以讓我們的生活輕松得多。
如今數(shù)據(jù)保護法律似乎越來越向消費者傾斜,Oxylabs 是如何在廣袤的數(shù)據(jù)海洋中找到航向的?你們在采集公開數(shù)據(jù)時遵守什么禁忌規(guī)則?你們是合乎數(shù)據(jù)收集行業(yè)規(guī)范的提供商嗎?
我已經不止一次聽到這個問題了,以后肯定還會有人提出這樣的問題。如今,大部分人一聽到“數(shù)據(jù)”這個詞,立馬想到這會影響自己的隱私。這也在情理之中,因為世界范圍內的數(shù)據(jù)泄露比比皆是。
在 Oxylabs,我們處理的是公開網(wǎng)絡數(shù)據(jù)的 B2B 端。不管怎么樣,這仍是一個棘手的法律格局。網(wǎng)絡抓取是一項相對比較新的技術,缺乏廣泛的法律監(jiān)管。因此,各家公司必須總是謹慎考慮自己計劃收集哪種網(wǎng)絡數(shù)據(jù),以及是否會違反任何法律,例如,版權法。在開展任何網(wǎng)絡抓取活動之前,我們鼓勵每家公司咨詢律師,評估法律細節(jié)。
在 Oxylabs,我們投入了大量時間精力來培訓行業(yè)和我們的客戶,宣傳如何開展合乎道德的網(wǎng)絡抓取。我們在公開網(wǎng)絡數(shù)據(jù)采集方面有嚴格的政策,并確保我們的所有運營以最高的商業(yè)倫理標準為準繩。
能否講一講網(wǎng)絡抓取技術對整個社會的好處的成功案例?
我們一直致力于宣傳合乎道德的網(wǎng)絡抓取的積極作用,并展示這對更廣泛的普通大眾的好處,為此,我們推出了“Project 4β”,專門幫助大學、研究人員和組織解決緊迫問題和使命。
通過“Project 4β”,我們與許多大學建立了有影響力的伙伴關系,包括密歇根大學和 CODE - 應用科學大學,我們向他們共享了我們的工具和專業(yè)知識。
此外,在贏得 Govtech 實驗室挑戰(zhàn)賽之后,我們與立陶宛共和國通信管理機構 (CRA) 建立了無償服務的卓越伙伴關系。他們的一大使命是保護立陶宛互聯(lián)網(wǎng)空間,杜絕非法內容。
CRA 面臨自動識別非法內容的挑戰(zhàn),為此,我們的團隊創(chuàng)建了由 AI 驅動的網(wǎng)絡抓取工具,掃描互聯(lián)網(wǎng)以檢測與兒童性虐待相關的非法視覺內容。之前,他們主要依賴互聯(lián)網(wǎng)用戶出于善意而向熱線電話舉報非法內容。截至 2022 年,該工具已在 CRA 的日常運營中完全部署,能夠積極主動采取措施取締這些網(wǎng)站,并確保惡意行為者受到懲罰,實在大快人心。
憑借“Project 4β”,Oxylabs 總是樂意成為研究人員和組織的幫手,幫助他們解決緊迫的社會問題。在網(wǎng)絡數(shù)據(jù)采集解決方案的幫助下,我相信我們可以解決更多社會問題。