Machine learning – Trí Tuệ Nhân Tạo ảnh hưởng tới làm SEO thế nào?

trí tuệ nhân tạo-làm SEO

Cho Đi Để Nhận Lại

Machine learning – trí tuệ nhân tạo tưởng chừng là một vấn đề gì đó xa vời. Nhưng không phải vậy, nó đang diễn ra trong thực tế và được áp dụng ở những lĩnh vực mà bạn có thể không nghĩ tới. Và một ứng dụng của nó mà các bạn đang tiếp xúc hằng ngày đó chính là Google. Hôm nay, do có thời gian rỗi rãi nên tôi sẽ đào sâu về vấn đề này thêm một chút về cơ chế hoạt động của nó và cách nó đã được vận dụng vào trong SEO và digital marketing.
Cơ duyên của tôi với Machine Learning – Trí Tuệ Nhân Tạo
Tôi được biết đến Machine learning và các lý thuyết trí tuệ nhân tạo từ khá sớm do hay theo dõi Discovery và các chương trình khoa giáo trên VTV2. Tuy nhiên trong quá trình học tập và làm việc tôi lại không có dịp tiếp cận sâu về các vấn đề này dù nó cũng đã được nhắc đến đôi lần. Thế nhưng gần đây, khi tham gia hội thảo về việc ứng dụng trí tuệ nhân tạo vào Google Dịch bởi chính kỹ sư đến từ Google cùng với việc trao đổi với một số bạn sinh viên trẻ thì hứng thú của tôi về vấn đề này lại tăng lên.

Về cơ bản, Google đã thực hiện quét tất cả các văn bản đã được dịch mà họ có thể tìm thấy trên web và khai thác chúng. Đây là một ví dụ tiêu biểu và phức tạp về machine learning mà Google đã bắt đầu triển khai từ 2011. Không quá khi nói rằng tất cả những ông lớn công nghệ trên thế giới hiện nay như Google, Apple, Microsoft, Facebook đều đã và đang ứng dụng Machine learning theo nhiều cách khác nhau.

Trong quá trình làm SEO của mình, tôi cũng đã có nghiên cứu các tài liệu trên mạng và thực hiện nhiều truy vấn để tìm ra quy luật hoạt động của cỗ máy tìm kiếm. Dựa trên kiến thức cơ bản về công nghệ thông tin của mình mà tôi đã dần hiểu ra nguyên tắc hoạt động và đã áp dụng thành công vào dự án SEO của mình. Dù hiểu biết còn khiêm tốn, nhưng như người ta vẫn nói, cho đi là nhận lại. Vậy nên tôi sẽ cố gắng diễn đạt những hiểu biết của mình về mối liên quan giữa Machine learning và công cụ tìm kiếm một cách dễ hiểu nhất cho những người chưa có bất kì khái niệm nào về Machine Learning và những ai đang có nhu cầu tìm hiểu về SEO và Digital Marketing trong giai đoạn hiện nay.

Dành cho những bạn nào muốn tìm hiểu sâu hơn về Machine learning, các bạn có thể tham gia khóa học online về nó tại Coursera – website giáo dục đại học online nổi tiếng. Khóa học được truyền đạt qua 19 phần với các video dài hơn 1 tiếng. giảng dạy bởi Andrew Ng của trường đại học Standford. Và lưu ý thêm là bạn cần có một nền tảng toán học khá tốt để tham gia khóa học này vì sẽ có rất nhiều kiến thức toán học được nhắc đến trong suốt khóa học. Thêm vào đó, bạn sẽ được thấy nhiều ví dụ về ứng dụng trí tuệ nhân tạo dựa trên ngôn ngữ Octave – một ngôn ngữ rất mới mẻ đối với nhiều người, không chỉ mình tôi.

Nếu các bạn vẫn còn gặp trở ngại về ngôn ngữ nhưng có nền tảng toán học và công nghệ thông tin vừa đù thì có thể tham khảo khóa học tương tự do TechMaster tổ chức . Cũng nhờ trí tuệ nhân tạo của Google mà tôi và bạn đều có thể tìm ra khóa học này nếu muốn. Bản thân tôi có lẽ cũng sẽ dành thời gian tham gia các khóa học trên để nâng cao kiến thức cho bản thân mình.

Các khái niệm cơ bản về machine learning – Trí Tuệ Nhân Tạo

Bạn có thể chia các hệ thống Machine learning hiện nay ra làm 2 loại chính : hệ học tập có giám sát và hệ học tập không giám sát.

Học có giám sát – supervised machine learning

Ở một cấp độ đơn giản nhất, bạn có thể hiểu hệ học tập có giám sát là tìm ra các quy luật của một tập dữ liệu xác định. Chẳng hạn bạn tìm một phương pháp ( giải thuật ) để dự đoán giá nhà. Bạn sẽ cần phải có một số dữ liệu giả định như sau.

56afdc6695b663-74555790
Trong ví dụ này, chúng ta đã có dữ liệu trước đây về giá nhà dựa trên diện tích của chúng. Và như bạn có thể thấy , giá nhà có xu hướng tăng cùng với diện tích, thế nhưng mức tăng của chúng không giống nhau và trên đồ thị giá nhà không năm trên đường thẳng. Tuy nhiên bạn có thể tính toán ra được đường thẳng này và sử dụng nó để làm tham chiếu dự đoán cho giá nhà đất.

56afdc7d400ac8-33738659

Như vậy, diện tích nhà được xem như dữ liệu đầu vào để sẽ đưa ra mức giá tức dữ liệu đầu ra thông qua giải thuật.

Tuy nhiên, ví dụ này đã được tối giản hóa đi rất nhiều. Còn có rất nhiều yếu tố khác có thể ảnh hưởng tới giá nhà đất như số lượng phòng, số phòng ngủ, số phòng tắm và diện tích khuôn viên. Với những số liệu trên thì ta có thể có một mô hình phức tạp hơn chút xíu, với các bảng dữ liệu như sau.

56afdc91d6f794-98869818

Lập tức bạn có thể thấy ngay một biểu đồ đường thẳng sẽ không thể hiện được một tương quan cần thiết, và bạn sẽ phải xem xét mức độ quan trọng của các yếu tố đầu vào để đánh giá giá nhà đất. Có lẽ yếu tố quan trọng nhất vẫn là diện tích nhà và diện tích khuôn viên nhưng số phòng, số phòng ngủ và phòng tắm có lẽ cũng nên có một mức độ quan trọng nhất định. Bộ dữ liệu sau khi đã được xem xét về mức độ ảnh hưởng sẽ được xem như dữ liệu đầu vào mới.

Nhưng ngay cả sau khi đã thêm các yếu tố này thì mọi thứ vẫn còn khá đơn giản. Trên thực tế chúng ta vẫn cò một yếu tố lớn cần tính đến đó là vị trí. Giá một căn nhà ở Hồ Tây chắc chắn phải khác so với giá một căn nhà ở ngoại thành. Nếu bạn muốn xây dựng giải thuật cho bài toán trên ở tầm cỡ quốc gia, và có xét đến vị trí làm dữ liệu đầu vào thì mọi thức sẽ thực sự rất phức tạp.

Dù vậy, qua ví dụ trên, ta có thể thấy rằng machine learning hoàn toàn có thể được ứng dụng để giải quyết các vấn đề như thế. Qua từng ví dụ, bạn đã thực hiện việc tạo dựng bộ dữ liệu mẫu (gọi là training samples – dữ liệu tập huấn) và chạy các chương trình để có thể tìm ra giải thuật đáp ứng được bộ dữ liệu. Từ đó bạn có thể đưa vào dữ liệu mới và sử dụng giải thuật đó để dự đoán kết quả đầu ra (trong trường hợp này là giá). Việc có sử dụng các tập mẫu như vậy được gọi là “học có giám sát”.

Vấn đề với việc phân loại

Trường hợp này sẽ cho thấy các vấn đề thường gặp khi xác định tập mẫu chuẩn nếu mục đích của bạn là muốn dự đoán một điều xác định nào đó. Ví dụ, chúng ta muốn dự đoán khả năng một đứa trẻ mới sinh sẽ có tiềm năng đạt chiều cao 1,82 m khi lớn lên (chuẩn chiều cao Âu Mỹ). Dưới đây là bộ dữ liệu đã thu thập được.

56afdcdc2fade9-31437008

Kết quả của giải thuật này có thể là 0% nếu tất cả người được lấy đữ liệu đều có chiều cao thấp hơn 1,82 m hoặc 100% nếu họ tất cả họ đều cao hơn hoặc bằng 1,82 m. Đây chính là vấn đề với việc phân loại vì bạn đang lấy dữ liệu từ một nhóm đặc thù thay vì một bộ dữ liệu tiêu chuẩn đại diện cho nhiều nhóm với đặc tính khác nhau. Và nên nhớ, ở đây chúng ta không cố gắng xác định chiều cao chính xác của đứa bé sau này, chỉ đơn giản là tính xắc suất để đứa bé có thể cao hơn hoặc thấp hơn 1,82 m.

Một số ví dụ khác về độ phức tạp của việc phân loại để tìm ra tập mẫu là việc nhận diễn chữ viết tay và nhận diện email spam.

Học không giám sát

Việc học không giám sát áp dụng trong trường hợp bạn không có một tập dữ liệu mẫu chuẩn . Về cơ bản, bạn đang muốn tìm cách lọc và xác định các nhóm đối tượng với một số thuộc tính giống nhau. Giả sử bạn đang có một tập dữ liệu như thế này

Sau đó giải thuật sẽ phải phân tích những dữ liệu này và tìm ra cách để nhóm chúng lại dựa trên những đặc điểm chung. Cụ thể đó là việc tất cả những hình chữ X màu đỏ sẽ được nhóm lại thành nhóm vì chúng có đặc tính tương đồng.

56afdd10e1c5f3-05228565

Tuy nhiên, có thể một giải thuật đơn giản sẽ khó có thể nhận diện được một số điểm nằm ngoài ranh giới và có thể chỉ nhóm các dữ liệu lại theo cách dưới đây.

 

56afdd2311bd89-70975821

 

Điều mà giải thuật làm là tìm ra cách nhóm dữ liệu tự nhiên nhất, nhưng không giống như việc học có giám sát, nó phải xác định được đặc tính gì là riêng nhất của mỗi nhóm. Một dịch vụ đã đi vào hoạt động của Google là Google News là một ứng dụng của việc học không giám sát. Ví dụ bạn có thể nhìn vào ảnh dưới đây.

56afdef86cda93-55746924

Bạn có thể thấy rằng câu chuyện chính là về việc Iran giam giữ 10 thủy thủ Mỹ, ngoài ra còn có các tin bài liên quan lâý từ Reuters và Bloomberg được đánh dấu trong vùng màu đỏ. Việc nhóm các tin bài này lại với nhau chính là bài toán mà việc học không giám sát cần giải quyết.

Các sản phẩm khác đã ứng dụng Machine Learning – Trí Tuệ Nhân Tạo

Một ví dụ khác về giải thuật machine learning chính là giải thuật Author Extraction mà Moz đã xây dựng trong công cụ Moz content tool. Nếu có cơ hội, tôi sẽ đem đến cho các bạn bài viết về công cụ một cách cụ thể hơn. Còn công ty tư vấn Stone Temple có đưa ra một công cụ dựa trên mạng nơ-ron là Twitter Engagement Predictor , tức công cụ dự báo tương tác trên Twitter.

56afdd6d6c5bd1-98945396

Chương trình tạo ra một kết quả dự báo về việc bạn sẽ được retweet hay không, sau đó đưa ra phần trăm dự báo đó trở thành hiện thực. Đi sâu vào chi tiết hơn, mạng nơ-ron này được cấu thnahf bởi 6 đại lượng đâì vào, 15 đại lượng ẩn, và 2 đại lượng đầu ra. Giải thuật này cũng cần tới một triệu tập mẫu chuẩn và hai trăm lần chạy thử nghiệm. Quá trình huấn luyện phải trải qua chỉ gần 45 tỉ phép tính. Một điêu khiến chương trình này trở nên thú vị là có nhiều dữ liệu xung đột trong bảng dữ liệu thô. Sau đây là ví dụ.

56afddb39c5dd1-48850798

Trong bảng số liệu trên thì giá trị Followerwork Social Authority là từ 0 đến 9, và số tweet không có ảnh, URLs và không nhắc tới người dùng khác, không dùng hastag và số kí tự từ 0 tới 40. Thì ta có 1156 status không được retweet và 17 status được retwweet.

Với bộ dữ liệu như trên thì có lẽ kết quả theo giải thuật sẽ là tweet này không được retweet, do đó nó sẽ cho ta biết được khả năng sai của giải thuật này là 1,4% (17 trường hợp status được retweet trên 1173 lần). Lưu ý rằng kết quả được đánh giá bởi mạng nơ -ron đã cho khả năng retweet là 2,1%.

Moz đã thực hiện lập bảng kê rằng có bao nhiêu trường hợp sẽ tồn tại. Moz tìm ra rằng chúng ta có 102,045 tập mẫu thử riêng rẽ trong đó có thể có khả năng làm sai lệch dự đoán, tức là khoảng hơn 10% số bộ dữ liệu tập huấn. Điều đó có nghĩa là mạng nơ ron tốt nhất cũng chỉ có thể dự đoán đúng dưới 90% trường hợp.

Moz cũng đã chạy thử hai bộ dữ liệu khác nữa ( Một bộ 470K và một bộ 473K phép thử) trên mạng trí tuệ nhân tạo này để xem độ chính xác của TEP. Và Moz nhận ra rằng có độ chính xác chắc chắn là 81% của khả năng một tweet được retweet.

Với việc 10 % số tập mẫu cho kết quả sai là điều hiển nhiên, vậy nên kết quả trên là không tồi. Và dĩ nhiên đó là lý do là người ta chỉ đưa ra kết quả của phần trăm khả năng tweet được retweet chứ không chắc chắn rằng kết quả là có hay không.

Bạn có thể thử sử dụng công cụ này tại đây và cho biết cảm nghĩ của bạn là gì.

Những bằng chúng cho thấy Google đã ứng dụng machine learning

Giờ chúng ta đã rõ hơn một chút về machine learning là gì, hãy tiếp tục tìm hiểu kĩ hơn về cách mà Google đã áp dụng Machine learning.

Penguin

Thuật toán Penguin được đưa ra nhằm giải quyết việc xác định một nhóm các tính chất của backlink có thể giúp xác định được link đó là link xấu, ví dụ như

  1. Link ra ngoài được đặt ở footer
  2. Link ra ngoài ở sidebar bên phải
  3. Nằm gần các text như “sponsored”
  4. Nằm gần các ảnh có từ Sponsored
  5. Được nhóm với các link với mức độ liên quan thấp
  6. Nhiều anchor text không liên quan tới nội dung page
  7. Có link ra ngoài trong phần điều hướng
  8. Không có dấu hiệu cho người dùng rằng đó là link
  9. Link từ các website xấu
  10. Và nhiều yếu tố khác

Lưu ý rằng tất cả các điều trên không phải là xấu đối với một link đơn lẻ, nhưng thuật tónd có thể bắt đầu cắm cờ website của bạn nếu một phần đáng kể trong các link trỏ tới site của bạn có nhiều trong số các vấn đề kể trên.

Những gì được liệt kê ở trên sẽ là cơ sở để quá trình học có giám sát được thực hiện vì khi đó bạn đã huấn luyện giải thuật bằng các link tốt hoặc xấu đã được xác định qua thời gian. Một khi giải thuật được huấn luyện, bạn có thể gửi những link khác đến nó và nó có thể tự xác định xem chúng có phải link xấu không. Dựa vào phần trăm số link (và hoặc tổng pagerank) tới từ các link xấu, Google có quyết định được có nên giảm rank của site của bạn hay không.

Một cách tiếp cận khác đối với vấn đề này là việc sau khi đã có cơ sở dữ liệu của các link tốt và link xấu, sau đó trí tuệ nhân tạo sẽ tìm ra giải thuật để tự xác định những đặc tính của các link đó. Giải thuật sẽ tính đến cả những yếu tố mà con người không thể lường trước.

Panda

Giờ bạn đã thấy ví dụ về việc ứng dụng Machine learning vào Penguin, có lẽ bạn sẽ cảm thấy dễ hiểu hơn với trường hợp của Panda. Sau đây là những vấn đề sẽ xảy ra với các trang có chất lượng nội dung thấp.

  1. Số lượng từ thấp hơn so với các page đang cạnh tranh
  2. Sử dụng các từ đồng nghĩa ít
  3. Sử dụng quá nhiều từ khóa chính
  4. Có lượng lớn text tách biệt ở chân trang
  5. Có nhiều link tới các trang không liên quan
  6. Page với nội dung lấy từ các trang khác
  7. Và rất nhiều yếu tố khác

Một lần nữa bạn có thể bắt đầu với một bộ các site tốt và site xấu đã biết (về mặt nội dung) và thiết kế một giải thuật để xác định các đặc tính chung của các site này. Như với đã giải thích với thuật toán Penguin ở trên , tuy tôi không thể trình bày hết tất cả mọi phần của Panda nhưng đó là những gì đủ để thấy khái niệm về cách hoạt động của Panda.

Machine learning – Trí Tuệ Nhân Tạo ảnh hưởng tới làm SEO như thế nào?

Mấu chốt để hiểu sự ảnh hưởng của Machine learning tới làm SEO là hiểu được nguyên nhân Google (và các công cụ tìm kiếm khác) muốn áp dụng nó. Chắc chắn có mối liên hệ mật thiết giữa việc Google cung cấp các kết quả tìm kiếm tốt và lợi nhuận họ thu được từ quảng cáo.

Trờ về năm 2009, Bing và Google đã trình diễn một vài bài kiểm nghiệm cho thấy rằng dù chỉ có một chút chậm trễ trong kết quả tìm kiếm cũng có thể gây tác động lớn tới sự hài long của người dùng. Thêm vào đó, kết quả cho thấy sự hài lòng càng thấp thì số lick và lợi nhuận thu về cũng càng thấp hơn.

 

56afddcf8b09b0-15260862

Nguyên nhân đằng sau việc này thật đơn giản. Google có các đối thủ cạnh tranh, không chỉ có Bing. Một sự loại cạnh tranh mà Google thường gặp phải là các công cụ tìm kiếm thân thiện với ngôn ngữ khác hơn. Tương tự, Facebook, Apple.,/ Siri và Amazon cũng gặp phải sự cạnh tranh tương tự. Các dịch vụ tra cứu thông tin và câu trả lời khác hiện có trên thị trường đều đang được cải thiện rất nhiều vậy nên Goolge cũng phải chạy đua theo.

Vậy điều này có nghĩa là gì

Như trên đã nói, sự hài lòng của người dùng có ý nghĩa tối quan trọng với Google, có nghĩa là chất lượng nội dung và sự hài lòng của người dùng với nội dung trên page của bạn phải được coi như yếu tố quan trọng hàng đầu. Bạn sẽ cần phải liên tục đo lường và cải thiện nó. Một số vấn đề bạn phải suy nghĩ trước khi thực hiện là.

  1. Page của bạn có đáp ứng được phần lớn người truy cập nó không? Nếu người dùng hứng thú với sản phẩm đó, liệu họ có chọn nó ? Học cách sử dụng nó ?
  2. Các nhu cầu liên quan khác ? Nếu một người tìm đến với website của bạn để tìm một sản phẩm xác định, đâu là các sản phẩm liên quan có thể họ sẽ tìm kiếm.
  3. Có sự mối liên hệ nào giữa các content trên page ?
  4. Page của bạn có mang lại trải nghiệm tốt hơn so với đối thủ
  5. Chiến lược để đo lường hiệu quả của page và cải tiến nó theo thời gian

Có rất nhiều cách để Google đo lường được page của bạn tốt đến đâu và sủ dụng nó để cải thiện thứ hạng. Và sau đây là một vài trong số đó.

  1. Khi người dùng click vào trang của bạn sau khi click vào SERP, họ ở lại trang trong bao lâu ? Thời gian đó so với đối thủ như thế nào
  2. Tỉ lệ CTR của kết quả tìm kiếm tương ứng so với đối thủ như thế nào?
  3. Có bao nhiêu người tìm kiếm brand của bạn
  4. Nếu bạn có một page cho một sản phẩm nhất định, bạn có đưa vào đó nhiều nội dung hữu ích hơn so với đối thủ không
  5. Khi người dùng quay trở lại trang kết quả tìm kiếm sau khi vào trang của bạn, họ có những hành động cho thấy tìm kiếm của họ về vấn đề đó đã chấm dứt không? Hay họ tiếp tục ấn vào kết quả khác để tiếp tục tìm kiếm.

Tổng kết

Machine learning đã trở nên phổ biến. Rào cản để học được những giải thuật cơ bản đã không còn. Mọi ông lớn trong giới công nghệ đã tận dụng nó ở nhiều khía cạnh. Đây là một phần rất nhỏ trong những gì Facebook đang làm, và Apple cũng đang tuyển dụng các vị trí liên quan đến machine learning. Các hãng khác đang tạo ra những tiền đề để ứng dụng machine learning được thuận tiện hơn như Microsoft và Amazon.

Với những bạn đang làm công việc liên quan tới SEO và digital Marketing, bạn có thể hi vọng rằng thay đổi chiến lược này sẽ khiến công cụ tìm kiếm trở nên tốt hơn và phục vụ tốt hơn cho các bạn. Đó là lý do mà chúng ta cần có chiến lược phù hợp với sự thay đổi này. Đối với SEO, machine learning sẽ tiếp tục nâng tầm quan trọng của chất lượng conent và trải nghiệm người dùng. Tức là đã đến lúc làm cho những yếu tố này trở thành trọng tâm của chiến lược SEO.

Cho Đi Để Nhận Lại

mm

Linh Vũ

Chuyên viên Marketing online. Đam mê về thiết kế đồ họa.

You may also like...

3 Responses

  1. Hoa Do says:

    Một bài viết tuyệt vời! khá dài nhưng mình đọc chăm chú từ đầu đến cuối 😀

  1. December 3, 2016

    […] đã đã đề cập ở bài viết trước (Machine learning – Trí Tuệ Nhân Tạo ảnh hưởng tới làm SEO thế nào) Google Dịch là một sản phẩm trí tuệ nhân tạo nổi bật của Google. Tuy đây […]

  2. April 15, 2017

    […] loạt các bài viết vừa qua có lẽ các bạn đã biết thêm về sự liên quan của SEO tới trí tuệ nhân tạo. Và hôm nay mình sẽ gửi đến các bạn một góc nhìn nữa về mối liên quan của […]

Leave a Reply

Your email address will not be published. Required fields are marked *

shares